ADVERTISEMENT
返回
  • 浏览过的版块

123
Huaren
等级少尉
威望2
贴子1945
魅力2438
注册时间2015-04-30

timeflies2015

只看他

2017-03-29 20:39:41

R里面的VIF

wfmlover 发表于 3/29/2017 8:30:52 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74483129#74483129]

[/url]
正解
Huaren
等级少尉
威望2
贴子1945
魅力2438
注册时间2015-04-30

timeflies2015

只看他

2017-03-29 20:45:01

还有一般Linear model selection 中新加入的predictors p value 比较大的predictor(但如果单独作为single predictor p value 就比较小)就跟其它predictors highly correlated.
Huaren
等级大校
威望16
贴子13614
魅力14067
注册时间2006-12-08

snail

只看他

2017-03-29 20:47:11

进来学习。
Huaren
等级大校
威望10
贴子8882
魅力9213
注册时间2004-01-20

zzsummer

只看他

2017-03-29 21:05:40

最近学校在上一些R统计课,social science的统计课,有些概念问题搞得不是很懂。比如把学生分成两组,independent variable是一个categorical variable(参加了某实验的和没有参加),dependent variable是学生的最近一次数学成绩, 目标是分析参加实验和没参加对于数学成绩的影响。
一般建linear regression的时候会加上一些covariate, 一般是continuous variable,比如学生之前的数学成绩,或是学生年龄等不受实验控制的变量。在实际建模中,对covariate的选择有什么要求,如果covariate对DV(dependent variable)的影响比IV(independent variable)还大,反客为主了怎么办。为了有助于选择到底放入哪些covariate, 用什么模型可以分析出covariate和dependent variable之间到底有什么关系,关系有多大?






callmemissmaybe 发表于 3/29/2017 6:44:03 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74482581#74482581]

[/url]

这个搜索feature selection...其实现在计算越来越快,其实特别如果只是要精确的prediction, 这套都过时了。。。
Huaren
等级上尉
威望3
贴子2792
魅力3816
注册时间2012-01-02

lilpurple

只看他

2017-03-29 21:09:13

linear regression注意不要有multicollinearity就可以了,就是covariate之间的correlation不要太高,VIF不要超过10,correlation最好不要0.8超过以上,要不然drop要不然transform一下
Huaren
等级大校
威望9
贴子7401
魅力14873
注册时间2009-01-03

wfmlover

只看他

2017-03-29 21:35:48


这个搜索feature selection...其实现在计算越来越快,其实特别如果只是要精确的prediction, 这套都过时了。。。


zzsummer 发表于 3/29/2017 9:05:40 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74483346#74483346]

[/url]

re
CS的人都不懂STAT的人在计较什么
反正一锅扔进去就是了
Huaren
等级一等兵
威望--
贴子425
魅力1042
注册时间2014-09-09

fight2015

只看他

2017-03-29 22:09:16


re
CS的人都不懂STAT的人在计较什么
反正一锅扔进去就是了


wfmlover 发表于 3/29/2017 9:35:48 PM [url=http://forums.huaren.us/showtopic.aspx?topicid=2150514&postid=74483539#74483539]

[/url]
可以试一试regularization lasso,它会帮你select feature.
Huaren
等级一等兵
威望--
贴子513
魅力5394
注册时间2012-11-15

xinyi66

只看他

2017-03-29 22:31:06

华人jms太厉害了都
Huaren
等级大校
威望11
贴子9340
魅力17078
注册时间2013-10-18

okura

只看他

2017-03-29 22:33:27

生统里面好像有个概念叫confounding variable 就是既跟x 又跟 y都有关系 但是这明显会引起统计里面尽量避免的multicolinearity的问题 所以有时候生统和统计的理论是不一样的 还是请懂生统理论的人回答吧
ADVERTISEMENT
Huaren
等级一等兵
威望--
贴子520
魅力520
注册时间2010-01-23

snowmelt

只看他

2017-03-29 23:21:06

说到covariate反客为主的问题,你用cov的目的就是要partial out cov对outcome的影响,除非cov与IV highly correlated,否则没关系,证明你选的cov很好。例如你看某个training programs对全校学生achievement score的影响,很明显grade就要作为一个cov,并且grade的影响很可能大于training program的影响。 如果是social science,选什么cov很大程度上取决于你的data是怎么选的(比如上一个例子)还有theoretical model是什么(即其他相关领域的研究中通常会用到什么cov)。怎么分析更要明确你的research question。
初始化编辑器...

到底了