Java 寻找大数据中缺失的值

Java 寻找大数据中缺失的值,java,data-cleaning,knime,bigdata,Java,Data Cleaning,Knime,Bigdata,我有许多表格需要分析。目前正在清理数据,因为它有许多缺失的值。在某些情况下,只缺少一个值,而在其他大约200行中 问题 如何找到应该插入到行中的值 我的方法 图的简单线性外推 查找值的平均值并将其插入所有缺失值 如果缺少200个值,则取最后100个值和下100个值的平均值 虽然我可以想到以上所有方法,但我不确定它的效率,也不确定如何编写节点来实现这一点 新版本提供了许多替换缺失值的方法。它可以简单地在上一个和下一个非缺失值之间进行均值替换或线性插值。新的方法提供了许多替换缺失值的方法。它可以简单

我有许多表格需要分析。目前正在清理数据,因为它有许多缺失的值。在某些情况下,只缺少一个值,而在其他大约200行中

问题

如何找到应该插入到行中的值

我的方法

  • 图的简单线性外推

  • 查找值的平均值并将其插入所有缺失值

  • 如果缺少200个值,则取最后100个值和下100个值的平均值


  • 虽然我可以想到以上所有方法,但我不确定它的效率,也不确定如何编写节点来实现这一点

    新版本提供了许多替换缺失值的方法。它可以简单地在上一个和下一个非缺失值之间进行均值替换或线性插值。

    新的方法提供了许多替换缺失值的方法。它可以简单地在上一个和下一个非缺失值之间进行均值替换或线性插值。

    4。不要做以上任何一项。使用能够处理丢失数据的算法。从周围的数据点导出值不会向数据中添加任何信息。我目前正在使用这种方法。这就是你建议的算法吗。不要做以上任何一项。使用能够处理丢失数据的算法。从周围的数据点导出值不会向数据中添加任何信息。我目前正在使用这种方法。这就是你建议的算法吗?在缺失值节点中,我知道有很多选择。但当我使用任何方法时,我发现当用于预测时,所有方法都会产生相同的结果。我可以根据什么标准选择应该使用哪种插值?当使用平均插值、以前的值等时,我会得到相同的结果。这在很大程度上取决于数据、预测任务(分类或回归)和您使用的模型。例如,KNIME naive bayes学习器可以很好地处理缺失值,而无需对其进行任何预处理,而神经网络学习器在遇到缺失值时会失败。我认为没有针对所有用例的通用规则,但是采用平均值通常是一个不错的选择。我正在使用回归学习器。我丢失了很多数据。假设5k数据中缺少3k数据。您有多少功能?缺失的值是否都出现在它们中?您还可以训练朴素的bayes学习者,找出哪些功能经常结合在一起,然后相应地替换缺少的值。您还可以学习多个模型,每个模型位于要素和行的子集上,以便该特定模型不存在缺失值。然后将它们组合成一个集合,根据测试数据的预测精度对每个集合进行加权。但当我使用任何方法时,我发现当用于预测时,所有方法都会产生相同的结果。我可以根据什么标准选择应该使用哪种插值?当使用平均插值、以前的值等时,我会得到相同的结果。这在很大程度上取决于数据、预测任务(分类或回归)和您使用的模型。例如,KNIME naive bayes学习器可以很好地处理缺失值,而无需对其进行任何预处理,而神经网络学习器在遇到缺失值时会失败。我认为没有针对所有用例的通用规则,但是采用平均值通常是一个不错的选择。我正在使用回归学习器。我丢失了很多数据。假设5k数据中缺少3k数据。您有多少功能?缺失的值是否都出现在它们中?您还可以训练朴素的bayes学习者,找出哪些功能经常结合在一起,然后相应地替换缺少的值。您还可以学习多个模型,每个模型位于要素和行的子集上,以便该特定模型不存在缺失值。然后将它们组合成一个集合,根据测试数据的预测精度对每个集合进行加权。