Tensorflow 我应该从输入特征中删除异常值吗
几乎一半的输入特征列都有分支“异常值”,比如平均值为19.6时,最大值为2908.0。这样可以吗?还是我应该将其修剪为Tensorflow 我应该从输入特征中删除异常值吗,tensorflow,keras,Tensorflow,Keras,几乎一半的输入特征列都有分支“异常值”,比如平均值为19.6时,最大值为2908.0。这样可以吗?还是我应该将其修剪为平均值+std msg_cnt_in_x msg_cnt_in_other msg_cnt_in_y \ count 330096.0 330096.0 330096.0 mean 19.6 2.6
平均值+std
msg_cnt_in_x msg_cnt_in_other msg_cnt_in_y \
count 330096.0 330096.0 330096.0
mean 19.6 2.6 38.3
std 41.1 8.2 70.7
min 0.0 0.0 0.0
25% 0.0 0.0 0.0
50% 3.0 1.0 8.0
75% 21.0 2.0 48.0
max 2908.0 1296.0 4271.0
对此没有一般性的答案。这在很大程度上取决于您的问题和数据集 您应该查看您的数据集,并检查这些异常数据点是否实际有效和重要。如果它们是由数据收集过程中的某些错误引起的,则应将其删除。如果它们是有效的,那么您可以在测试数据中期望类似的值,因此数据点应该保留在数据集中
如果您不确定,只需测试两种方法,然后选择一种效果更好的方法。没有通用的答案。这在很大程度上取决于您的问题和数据集 您应该查看您的数据集,并检查这些异常数据点是否实际有效和重要。如果它们是由数据收集过程中的某些错误引起的,则应将其删除。如果它们是有效的,那么您可以在测试数据中期望类似的值,因此数据点应该保留在数据集中 如果您不确定,只需测试两者,并选择一个更好的工作