我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:多盈娱乐 > 多类逻辑 >

请问Logistic回归时类型较多的分类自变量一定要转为虚拟变量吗?

归档日期:06-27       文本归类:多类逻辑      文章编辑:爱尚语录

  请问Logistic回归时,类型较多的分类自变量一定要转为虚拟变量吗? 如“教育水平”

  请问Logistic回归时,类型较多的分类自变量一定要转为虚拟变量吗? 如“教育水平”

  如题,因为类别太多设虚拟变量就要增加好多自变量,那么这种类别比较多的变量该如何解决呢?如,“教育水平:文盲,小学,初中,高中,大专,大学及以上”这些一定要设5个虚拟变量吗?...

  这些一定要设5个虚拟变量吗?可以用一个变量的1,2,3,4,5,6代替吗(我好像看有些论文是这么做的)展开我来答

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  展开全部(1)如果分类变量“教育水平”有6个分类:“文盲”、“小学”、“初中”、“高中”、“大专”、“大学及以上”,显然需要(6-1)=5个虚拟变量。

  (2)如果你嫌虚拟变量太多的话,可以合并分类。例如把“文盲”,“小学”合并为一个分类“小学及以下”,“初中”、“高中”、“大专”合并为一类“初中-大专”,这样合并以后就只剩下3类了,只需设置2个虚拟变量。当然合并分类需要根据问题的实际情况进行适当合并。

  (3)不可以用一个变量的1,2,3,4,5,6代替!这样相当于把“教育水平”当做Interval变量,而不是当做Ordinal变量来处理。也就是加上了假设条件:“大学及以上”-“大专”=“大专”-“高中”

  =“高中”-“初中”=“初中”-“小学”=“小学”-“文盲”!按常识的话,这种限制条件显然很难成立。当然,在实际问题中,你可以对这个假设条件进行检验!更多追问追答追问谢谢!回答的很详细~

  我能再问一下吗?做Logit回归时,可能的因素比较多(包括很多虚拟变量),如何对这些变量进行合理筛选呢?

  所以我不知道该怎么筛选变量,变量太多了追答(1)如果建模数据集变量个数大于50的话,可以先筛选掉那些对目标变量影响不大的自变量。例如,可以对每个自变量做Logistic回归,然后计算相应的卡方值和p值。自己确定一个阈值(0.3等),删除掉卡方值很小的变量。

  (3)如果变量之间存在共线性,可用聚类分析来减少变量个数,同时处理掉复共线)上面说的合并分类在实践中就是用聚类分析来解决的。

  (5)经过以上4种初步筛选处理,得到的建模数据集变量个数一般会少很多。在Logistic模型中,同样有很多类似于多元线性回归的变量筛选方法,如向前回归法,向后回归法,逐步回归法,全模型法等。而且,这些方法用统计软件很容易实现。一般采用逐步回归法或者全模型法建模。

  追问再次感谢!有些还是有点不懂 1.你说的逐步回归LOGISTIC是在哪个软件里实现?Eviews可以吗?(我是用EVIEWS做的) 2.因子分析和你的聚类分析有什么区别?我可以用因子分析代替你说的聚类分析吗? 新手上路,焦头烂额,万分感谢!追答(1)用SAS很容易实现Logistic逐步回归的。Eviews软件我没使用过,所以不清楚啊!(2)对于字符型变量进行压缩时,一般采用聚类分析进行。这种情况下,因子分析不适用。

  (3)不好意思,上面回答的第三点弄错了——如果变量之间存在共线性,可用主成分分析来减少变量个数,同时处理掉复共线性。

  展开全部(1)如果六大类分类变量“教育程度”,“文盲”,“小学”,“初中”,“高中”,“大学”,“大学及以上,很明显(6-1 )= 5个虚拟变量。(2),如果你认为太多的虚拟变量,可以结合分类,如“文盲”,“小学”组合成一个分类的“小学及以下”,“初中合并后的学校“,”高中“,”大学“合并为一类初中 - 大学,所以只有三类简单的设置了两个虚拟变量。课程合并归类,根据问题的实际情况,适当地合并。

  (3)不能使用的变量,而不是1,2,3,4,5,6,这是一个相当于“教育程度”作为区间的变量,而不是作为序号的变量来处理。即,与假设:“大学及以上” - ?“大学”“大学” - “高中

  =”高中“ - ”初中“=”初中学校“ - ”主“ “主” - “文盲”!这种限制是常识,显然很难成立。当然,在实际问题中,你可以测试这个假设!

本文链接:http://ayraswimwear.com/duoleiluoji/590.html