ADVERTISEMENT
ADVERTISEMENT
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
callmemissmaybe
问mm们一个统计建模中covariate的问题
15392
27
2017-03-29 18:44:03
最近学校在上一些R统计课,social science的统计课,有些概念问题搞得不是很懂。比如把学生分成两组,independent variable是一个categorical variable(参加了某实验的和没有参加),dependent variable是学生的最近一次数学成绩, 目标是分析参加实验和没参加对于数学成绩的影响。
一般建linear regression的时候会加上一些covariate, 一般是continuous variable,比如学生之前的数学成绩,或是学生年龄等不受实验控制的变量。在实际建模中,对covariate的选择有什么要求,如果covariate对DV(dependent variable)的影响比IV(independent variable)还大,反客为主了怎么办。为了有助于选择到底放入哪些covariate, 用什么模型可以分析出covariate和dependent variable之间到底有什么关系,关系有多大?
一般建linear regression的时候会加上一些covariate, 一般是continuous variable,比如学生之前的数学成绩,或是学生年龄等不受实验控制的变量。在实际建模中,对covariate的选择有什么要求,如果covariate对DV(dependent variable)的影响比IV(independent variable)还大,反客为主了怎么办。为了有助于选择到底放入哪些covariate, 用什么模型可以分析出covariate和dependent variable之间到底有什么关系,关系有多大?
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
可以先用correlation matrix简单看看各个variable之间有多大联系。model selection有很多方法,看你想设计多么复杂都行。至于你说的反客为主,不太理解,是说其他因素更加重要吗?问题是在现实问题中,很可能就是别的因素更加重要啊。尊重事实就是尊重模型。
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
谢谢mm回答。我是想问有好多可以选择的covariates, age, gender, 还有很多个体差异的变量可以加,那怎么选择加哪些以及哪些重要呢?如果covariate之间自己就有correlation怎么办?
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
楼上说的好,可以先看一下correlation matrix 来看各个variables之间的correlation,对其有一个初步的认知,哪些紧密联系哪些没啥联系。加哪些var不加哪些方法有很多,可以选择用forward selection or backward elimination,逐个排查,看加了或者减去那个var是否significant, 然后把data分成training and test samples, 建模fit几个models, 如linear regression, quadratic regression, logistic regression, 观察mse.
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
你的research question到底是什么?你只关心某一个var对dv的影响?还是想知道哪些var对dv有影响?你如果只关心某一个var,比如你只想知道吃饭对身高的影响,那你放到model的其他covariate只是为了adjust confounding,最后你只看吃饭显著不显著。如果你想知道到底是哪些var会影响身高,那当然是哪些var显著哪些就对身高有影响,可能吃饭,睡觉,运动,父母身高都是显著的。
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
回复 [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74482704#74482704]3楼callmemissmaybe的帖子[/url]
关于最后一个问题,Google multicollinearity
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
回复 [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74482581#74482581]1楼callmemissmaybe的帖子[/url]
你说的confounding variable 吗?一般要涉及到control study吧
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
一般不说covariate这个词,很confusing,直接说feature,或者independent variable
做linear regression的,一般有stepwise,back-selection,forward-selection之类的,其实就是比较放不放某个variable前后,R-square 和Adj R-square的变化
对于更复杂一些的模型,这个叫feature selection/reduction,有许多算法给出你那些variable最有用的
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
我在想一般linear regression或者anova 做出来的结果都可以是controlling confounding variable的,之后再用前面mm所说的backward或者forward selection来选var. 但如果普通的correlation matrix就很难看出来,要用上partial correlation才可以control confounding variable. 至于var之间互相关联,就是共线性问题,不知道怎么排查共线性。
ADVERTISEMENT
等级大校
威望22
贴子17028
魅力17450
注册时间@2013-08-09
我在想一般linear regression或者anova 做出来的结果都可以是controlling confounding variable的,之后再用前面mm所说的backward或者forward selection来选var. 但如果普通的correlation matrix就很难看出来,要用上partial correlation才可以control confounding variable. 至于var之间互相关联,就是共线性问题,不知道怎么排查共线性。
callmemissmaybe 发表于 3/29/2017 8:25:25 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74483105#74483105][/url]
callmemissmaybe 发表于 3/29/2017 8:25:25 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74483105#74483105][/url]
R里面的VIF
初始化编辑器...
到底了
ADVERTISEMENT
HOT DEALS
立即省25%购买WOLFBOX 12寸4K后视镜摄像头 - 现价$149.99,原价$199.99 | 包含64GB卡和GPS
Vitafit 数字厨房食品秤现价 $8.99,原价 $15.99
Kipling 多买多省促销,最高额外优惠40%
Nordstrom Rack Timberland 时尚大促 最高63% Off
Reebok九月优惠:鞋款低于$60 & 服饰低于$25
Crocs 精选款式限时促销,2双仅需$50!
Vegamour Haircare Sale Extra 25% OFF
Neiman Marcus 友好亲友特卖 - 额外25%折扣
Levis 全场优惠活动 满$250减$100,满$200减$75,满$150减$50
Sephora 2024年终限量版套装 La Mer四件套 $180
HUNDA iPhone车载充电器:现在仅需$12.59(原价:$13.99) - 超快充电,配备5FT螺旋闪电数据线
独家72%折扣BSOD蘑菇灯:复古玻璃桌面照明
Under Armour 儿童服装特卖 额外30%折扣
ADVERTISEMENT