什么是虚拟变量(哑变量)?
2012-04-29 MedSci MedSci原创
虚拟变量(dummy variable),有的书上也称哑变量、假变量。我个人更喜欢虚拟变量这个称谓。因为“虚拟”这个词直接表达出了这个变量的含义。 虚拟,是与真实相对的,表示这个变量不是一个真实的变量。比如性别,用0和1表示,这里的0和1不是个真实的数值,而只是男和女的代码。我可以用0 和1表示,也可以用1和2表示,还可以用4和8表示,无论什么数值都可以表示,只不过我们习惯于用0和1表示而已。他
虚拟变量(dummy variable),有的书上也称哑变量、假变量。我个人更喜欢虚拟变量这个称谓。因为“虚拟”这个词直接表达出了这个变量的含义。 虚拟,是与真实相对的,表示这个变量不是一个真实的变量。比如性别,用0和1表示,这里的0和1不是个真实的数值,而只是男和女的代码。我可以用0 和1表示,也可以用1和2表示,还可以用4和8表示,无论什么数值都可以表示,只不过我们习惯于用0和1表示而已。他们的差值也没有任何实际意义,不能说男和女相差1-0=1。0和1仅仅是个代码,这就是虚拟的含义。 现实中,虚拟变量一般用于多分类变量的很多情况下。比如,如果自变量是血型,分A、B、O、AB型。如果直接给他们赋值1、2、3、4,当然也可以做,但是1、2、3、4默认的情形是这4种血型有一种等级的秩序,但实际上可能他们之间没有什么秩序。这时最好的办法就从采用虚拟变量。 虚拟变量的生成是非常简单的,如果原有的分类变量分为n类,那就能生成n-1个虚拟变量。上述血型就能生成3个虚拟变量,X1,表示A和非A ,X2,表示B和非B,X3,表示O和非O。AB作为参照,不用管(参照组可以任意选,这里选择AB)。 需要
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言