更换Na和x27;因子和chr(KNN插补)情况下具有逻辑值的s

更换Na和x27;因子和chr(KNN插补)情况下具有逻辑值的s,r,imputation,R,Imputation,如果有人能够解释KNN插补是如何工作的,以及如何使用基于类似记录的值填充Na和空因子/字符,我将不胜感激。例如: KL_ID freq1 freq2 total1 total2 type1 type2 margin_visit margin_total 264149 462132 24 27 529.05 555.48 low low 12.500000 4.995747 131702 277868 24 22 154.63 122.21


如果有人能够解释KNN插补是如何工作的,以及如何使用基于类似记录的值填充Na和空因子/字符,我将不胜感激。例如:

   KL_ID freq1 freq2 total1 total2 type1 type2 margin_visit margin_total
264149 462132    24    27 529.05 555.48   low   low    12.500000     4.995747
131702 277868    24    22 154.63 122.21   low   low    -8.333333   -20.966177
284924 488875   107   107 646.43 816.82  high  high     0.000000    26.358616
281236 484241    14    32 365.64 942.75   low   low   128.571429   157.835576
144396 295443     0     1   0.00  19.56     0   low          Inf          Inf
143278 293956     2     0 121.71   0.00   low     0  -100.000000  -100.000000
457256 730168     1    12  48.55 107.89   low   low  1100.000000   122.224511
151368 304711    28    30 997.60 919.11   low   low     7.142857    -7.867883
219131 399018     2     0  18.11   0.00   low     0  -100.000000  -100.000000
392124 641192     4     6  25.50  32.48   low   low    50.000000    27.372549
56849  172985     9     1 116.75  14.34   low   low   -88.888889   -87.717345
14950  113654     1     1  28.69  43.46   low   low     0.000000    51.481352
534871 828187    17    33  36.74 136.50   low   low    94.117647   271.529668
152378 306057    35     8 410.54 101.38   low   low   -77.142857   -75.305695
189103 357116    33    10 231.65  38.60   low   low   -69.696970   -83.336931
           kltype VANUS  SUGU RAHVUS INFOKOJU
264149 nonchurner    NA  <NA>   <NA>     <NA>
131702    churner    59 naine    EST        J
284924 nonchurner    NA  <NA>   <NA>     <NA>
281236 nonchurner    NA  <NA>   <NA>     <NA>
144396 nonchurner    39 naine    EST        J
143278    churner    35 naine    EST        E
457256 nonchurner    22  mees    RUS        J
151368    churner    41 naine    EST        J
219131    churner    NA  <NA>   <NA>     <NA>
392124 nonchurner    NA  <NA>   <NA>     <NA>
56849     churner    41 naine    EST        J
14950  nonchurner    55  mees    EST        J
534871 nonchurner    NA  <NA>   <NA>     <NA>
152378    churner    32  mees    RUS        J
189103    churner    43  mees    EST        J
KL_ID freq1 freq2 total1 total2 type1 type2 margin\u访问margin\u total
264149462132 24 27 529.05555.48低低12.500000 4.995747
131702778682422154.63122.21低低-8.333333-20.966177
28492448887510707646.43816.82高0.00000026.358616
281236 484241 14 32 365.64 942.75低-低128.571429 157.835576
144396 295443 0 1 0.00 19.56 0低信息
143278 293956 2 0 121.71 0.00低0-100.000000-100.000000
457256 730168 112 48.55 107.89低-低1100.000000 122.224511
151368 304711 28 30 997.60 919.11低-低7.142857-7.867883
219131 399018 20 18.11 0.00低0-100.000000-100.000000
392124 641192 4 6 25.50 32.48低50.000000 27.372549
56849172985 91116.7514.34低-低-88.8889-87.717345
14950113654128.6943.46低0.00000051.481352
534871 828187 17 33 36.74 136.50低低94.117647 271.529668
152378 306057 35 8 410.54 101.38低-低-77.142857-75.305695
189103 357116 33 10231.65 38.60低低-69.696970-83.336931
kltype VANUS SUGU RAHVUS INFOKOJU
264149非库纳纳纳
131702搅拌器59奈恩东部J
284924非库纳纳纳酒店
281236非库纳纳纳酒店
144396 nonchurner 39 naine EST J
143278搅拌器35奈恩东部
457256 nonchurner 22 mees RUS J
151368搅拌器41奈恩东部J
219131搅拌器NA
392124非库纳纳纳酒店
56849搅拌器41奈恩东部J
14950 nonchurner 55 mees EST J
534871非库纳纳纳酒店
152378搅拌器32米罗斯J
189103搅拌器43米东部J

可以看出,数据集中有很多缺失值,我们如何为字符和因子输入逻辑值。我知道使用zoo软件包我们可以输入数字。


谢谢你的帮助。

knn似乎是解决这种情况的好办法。

一个简单的
Aknn似乎是解决这种情况的好方法。

一个简单的
数据框的每一列都有一个特定的类型。不能将
逻辑
值放入
字符
列;它将被立即强制为
字符
,这是一种更昂贵的类型。您想如何更换
NA
s?用什么逻辑?请提供预期的输出。@nicola:好的。我想用其他具有类似相关性的记录(如KNN插补)替换SUGU的Na。
我不希望字符列中有逻辑值,但我需要的是,在考虑到其他列的相似性的情况下,用类似记录替换Na。
如果SUGU缺少Na,其他列有与此记录的相关性然后将此NA替换为该记录。
这只是我的想法,但您可以向我建议其他方法。这里的要点是,我的数据集包含542099条记录,省略了NA,只剩下190501条记录,我丢失了大量数据,当我尝试对其进行预测时,这是一种偏见。请提供并使用
dput
vs打印数据。我有一个R包,为多项式(即分类)变量提供缺失值插补。如果您提供了一个有效的问题,我将提供一个答案。
data.frame
的每一列都有一个特定的类型。不能将
逻辑
值放入
字符
列;它将被立即强制为
字符
,这是一种更昂贵的类型。您想如何更换
NA
s?用什么逻辑?请提供预期的输出。@nicola:好的。我想用其他具有类似相关性的记录(如KNN插补)替换SUGU的Na。
我不希望字符列中有逻辑值,但我需要的是,在考虑到其他列的相似性的情况下,用类似记录替换Na。
如果SUGU缺少Na,其他列有与此记录的相关性然后将此NA替换为该记录。
这只是我的想法,但您可以向我建议其他方法。这里的要点是,我的数据集包含542099条记录,省略了NA,只剩下190501条记录,我丢失了大量数据,当我尝试对其进行预测时,这是一种偏见。请提供并使用
dput
vs打印数据。我有一个R包,为多项式(即分类)变量提供缺失值插补。如果你提供了一个有效的问题,我会提供一个答案。