Python Pandas-函数get_dummies()中的参数dummy_na的优点/用例是什么?
以下是文件:Python Pandas-函数get_dummies()中的参数dummy_na的优点/用例是什么?,python,pandas,Python,Pandas,以下是文件: >>> s1 = ['a', 'b', np.nan] >>> pd.get_dummies(s1) a b 0 1 0 1 0 1 2 0 0 >>> pd.get_dummies(s1, dummy_na=True) a b NaN 0 1 0 0 1 0 1 0 2 0 0 1 现在,我不明白为什么会有人需要使用Dummy_na,我也没有在stackover
>>> s1 = ['a', 'b', np.nan]
>>> pd.get_dummies(s1)
a b
0 1 0
1 0 1
2 0 0
>>> pd.get_dummies(s1, dummy_na=True)
a b NaN
0 1 0 0
1 0 1 0
2 0 0 1
现在,我不明白为什么会有人需要使用Dummy_na,我也没有在stackoverflow上找到任何关于这个的评论
作为从事数据科学工作的人,我想知道以这种方式标记NAN值是否有任何好处正如您在示例中所看到的,第三项没有这两个值。这也是一个很有价值的特性。例如,如果每个特征都是患者的疾病,您可能希望知道患者没有任何疾病 当您没有某些数据时,它可能是一个特性。例如,颜色可以是红色、绿色,或者您没有相关数据。@AntonPomieshchenko确实如此。但事实上,你不是红色,也不是绿色,这已经意味着你没有这方面的数据。我认为这还不足以作为一个理由:如果你说“每种疾病,你的结果都是阴性的”,你已经在传达患者没有疾病。。。信息已经是隐含的。说明它的用例是什么?