更换Na和x27;因子和chr(KNN插补)情况下具有逻辑值的s
更换Na和x27;因子和chr(KNN插补)情况下具有逻辑值的s,r,imputation,R,Imputation,如果有人能够解释KNN插补是如何工作的,以及如何使用基于类似记录的值填充Na和空因子/字符,我将不胜感激。例如: KL_ID freq1 freq2 total1 total2 type1 type2 margin_visit margin_total 264149 462132 24 27 529.05 555.48 low low 12.500000 4.995747 131702 277868 24 22 154.63 122.21
如果有人能够解释KNN插补是如何工作的,以及如何使用基于类似记录的值填充Na和空因子/字符,我将不胜感激。例如:
KL_ID freq1 freq2 total1 total2 type1 type2 margin_visit margin_total
264149 462132 24 27 529.05 555.48 low low 12.500000 4.995747
131702 277868 24 22 154.63 122.21 low low -8.333333 -20.966177
284924 488875 107 107 646.43 816.82 high high 0.000000 26.358616
281236 484241 14 32 365.64 942.75 low low 128.571429 157.835576
144396 295443 0 1 0.00 19.56 0 low Inf Inf
143278 293956 2 0 121.71 0.00 low 0 -100.000000 -100.000000
457256 730168 1 12 48.55 107.89 low low 1100.000000 122.224511
151368 304711 28 30 997.60 919.11 low low 7.142857 -7.867883
219131 399018 2 0 18.11 0.00 low 0 -100.000000 -100.000000
392124 641192 4 6 25.50 32.48 low low 50.000000 27.372549
56849 172985 9 1 116.75 14.34 low low -88.888889 -87.717345
14950 113654 1 1 28.69 43.46 low low 0.000000 51.481352
534871 828187 17 33 36.74 136.50 low low 94.117647 271.529668
152378 306057 35 8 410.54 101.38 low low -77.142857 -75.305695
189103 357116 33 10 231.65 38.60 low low -69.696970 -83.336931
kltype VANUS SUGU RAHVUS INFOKOJU
264149 nonchurner NA <NA> <NA> <NA>
131702 churner 59 naine EST J
284924 nonchurner NA <NA> <NA> <NA>
281236 nonchurner NA <NA> <NA> <NA>
144396 nonchurner 39 naine EST J
143278 churner 35 naine EST E
457256 nonchurner 22 mees RUS J
151368 churner 41 naine EST J
219131 churner NA <NA> <NA> <NA>
392124 nonchurner NA <NA> <NA> <NA>
56849 churner 41 naine EST J
14950 nonchurner 55 mees EST J
534871 nonchurner NA <NA> <NA> <NA>
152378 churner 32 mees RUS J
189103 churner 43 mees EST J
KL_ID freq1 freq2 total1 total2 type1 type2 margin\u访问margin\u total
264149462132 24 27 529.05555.48低低12.500000 4.995747
131702778682422154.63122.21低低-8.333333-20.966177
28492448887510707646.43816.82高0.00000026.358616
281236 484241 14 32 365.64 942.75低-低128.571429 157.835576
144396 295443 0 1 0.00 19.56 0低信息
143278 293956 2 0 121.71 0.00低0-100.000000-100.000000
457256 730168 112 48.55 107.89低-低1100.000000 122.224511
151368 304711 28 30 997.60 919.11低-低7.142857-7.867883
219131 399018 20 18.11 0.00低0-100.000000-100.000000
392124 641192 4 6 25.50 32.48低50.000000 27.372549
56849172985 91116.7514.34低-低-88.8889-87.717345
14950113654128.6943.46低0.00000051.481352
534871 828187 17 33 36.74 136.50低低94.117647 271.529668
152378 306057 35 8 410.54 101.38低-低-77.142857-75.305695
189103 357116 33 10231.65 38.60低低-69.696970-83.336931
kltype VANUS SUGU RAHVUS INFOKOJU
264149非库纳纳纳
131702搅拌器59奈恩东部J
284924非库纳纳纳酒店
281236非库纳纳纳酒店
144396 nonchurner 39 naine EST J
143278搅拌器35奈恩东部
457256 nonchurner 22 mees RUS J
151368搅拌器41奈恩东部J
219131搅拌器NA
392124非库纳纳纳酒店
56849搅拌器41奈恩东部J
14950 nonchurner 55 mees EST J
534871非库纳纳纳酒店
152378搅拌器32米罗斯J
189103搅拌器43米东部J
可以看出,数据集中有很多缺失值,我们如何为字符和因子输入逻辑值。我知道使用zoo软件包我们可以输入数字。
谢谢你的帮助。knn似乎是解决这种情况的好办法。
一个简单的
Aknn似乎是解决这种情况的好方法。
一个简单的
数据框的每一列都有一个特定的类型。不能将逻辑
值放入字符
列;它将被立即强制为字符
,这是一种更昂贵的类型。您想如何更换NA
s?用什么逻辑?请提供预期的输出。@nicola:好的。我想用其他具有类似相关性的记录(如KNN插补)替换SUGU的Na。
我不希望字符列中有逻辑值,但我需要的是,在考虑到其他列的相似性的情况下,用类似记录替换Na。
如果SUGU缺少Na,其他列有与此记录的相关性然后将此NA替换为该记录。
这只是我的想法,但您可以向我建议其他方法。这里的要点是,我的数据集包含542099条记录,省略了NA,只剩下190501条记录,我丢失了大量数据,当我尝试对其进行预测时,这是一种偏见。请提供并使用dput
vs打印数据。我有一个R包,为多项式(即分类)变量提供缺失值插补。如果您提供了一个有效的问题,我将提供一个答案。data.frame
的每一列都有一个特定的类型。不能将逻辑
值放入字符
列;它将被立即强制为字符
,这是一种更昂贵的类型。您想如何更换NA
s?用什么逻辑?请提供预期的输出。@nicola:好的。我想用其他具有类似相关性的记录(如KNN插补)替换SUGU的Na。
我不希望字符列中有逻辑值,但我需要的是,在考虑到其他列的相似性的情况下,用类似记录替换Na。
如果SUGU缺少Na,其他列有与此记录的相关性然后将此NA替换为该记录。
这只是我的想法,但您可以向我建议其他方法。这里的要点是,我的数据集包含542099条记录,省略了NA,只剩下190501条记录,我丢失了大量数据,当我尝试对其进行预测时,这是一种偏见。请提供并使用dput
vs打印数据。我有一个R包,为多项式(即分类)变量提供缺失值插补。如果你提供了一个有效的问题,我会提供一个答案。