Machine learning 使用不准确(不正确)的数据集

Machine learning 使用不准确(不正确)的数据集,machine-learning,data-quality,Machine Learning,Data Quality,这是我的问题描述: “根据家庭收入和财富调查,我们需要找出收入和支出最多的前10%家庭。然而,我们知道,由于许多错误陈述,这些收集的数据不可靠。尽管存在这些错误陈述,但数据集中的某些特征确实是可靠的。但这些特定特征只是每个家庭财富信息的一小部分。” 不可靠的数据意味着家庭向政府撒谎。这些家庭为了不公平地获得更多的政府服务而谎报收入和财富。因此,原始数据中的这些虚假陈述将导致不正确的结果和模式 现在,我有以下问题: 我们应该如何处理数据科学中不可靠的数据 有没有办法找出这些错误陈述,然后使用机器

这是我的问题描述:

“根据家庭收入和财富调查,我们需要找出收入和支出最多的前10%家庭。然而,我们知道,由于许多错误陈述,这些收集的数据不可靠。尽管存在这些错误陈述,但数据集中的某些特征确实是可靠的。但这些特定特征只是每个家庭财富信息的一小部分。”


不可靠的数据意味着家庭向政府撒谎。这些家庭为了不公平地获得更多的政府服务而谎报收入和财富。因此,原始数据中的这些虚假陈述将导致不正确的结果和模式

现在,我有以下问题:

  • 我们应该如何处理数据科学中不可靠的数据
  • 有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前10%的富人? -在这项研究中,我们如何评估我们的错误?既然我们有未标记的数据集,我应该寻找标记技术吗?或者,我应该使用无监督方法吗?或者,我应该使用半监督学习方法吗
  • 在机器学习中是否有任何想法或应用试图提高所收集数据的质量
请向我介绍任何能在这个问题上帮助我的想法或参考资料


提前感谢。

问:在数据科学中,我们应该如何处理不可靠的数据

答:使用特征工程修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或将其完全删除-不良特征可能会显著降低模型的质量

问:有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前10%的富人

答:ML算法不是魔术棒,除非你告诉他们你在寻找什么,否则他们什么都想不出来。你能描述一下“不可靠”是什么意思吗?如果是的话,你可以像我提到的那样,使用功能工程或编写代码来修复数据。否则,如果没有确切的描述,任何ML算法都无法帮助你你想要达到的目标是什么

问:在机器学习中,是否有任何想法或应用试图提高所收集数据的质量

答:我不这么认为,因为这个问题本身太开放了。什么是“数据的质量”

一般来说,这里有几件事需要您考虑:

1) 花点时间在谷歌上搜索功能工程指南。它们涵盖了如何为你准备数据,优化它,修复它。好的数据和好的功能可以显著提高结果


2) 您不需要使用原始数据中的所有特征。原始数据集的某些特征毫无意义,您不需要使用它们。请尝试在数据集上运行scikit learn中的渐变增强机或随机森林分类器,以执行分类(或回归,如果您执行回归)这些算法还评估了原始数据集的每个特性的重要性。您的部分特性对分类的重要性极低,因此您可能希望完全删除它们,或者尝试以某种方式将不重要的特性组合在一起以产生更重要的内容。

Q:如何处理da中不可靠的数据助教科学

答:使用特征工程修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或将其完全删除-不良特征可能会显著降低模型的质量

问:有没有办法找出这些错误陈述,然后使用机器学习算法更准确地报告前10%的富人

答:ML算法不是魔术棒,除非你告诉他们你在寻找什么,否则他们什么都想不出来。你能描述一下“不可靠”是什么意思吗?如果是的话,你可以像我提到的那样,使用功能工程或编写代码来修复数据。否则,如果没有确切的描述,任何ML算法都无法帮助你你想要达到的目标是什么

问:在机器学习中,是否有任何想法或应用试图提高所收集数据的质量

答:我不这么认为,因为这个问题本身太开放了。什么是“数据的质量”

一般来说,这里有几件事需要您考虑:

1) 花点时间在谷歌上搜索功能工程指南。它们涵盖了如何为你准备数据,优化它,修复它。好的数据和好的功能可以显著提高结果


2) 您不需要使用原始数据中的所有特征。原始数据集的某些特征毫无意义,您不需要使用它们。请尝试在数据集上运行scikit learn中的渐变增强机或随机森林分类器,以执行分类(或回归,如果您执行回归)。这些算法还评估原始数据集每个特征的重要性。您的部分特征对分类的重要性极低,因此您可能希望完全放弃它们,或者尝试以某种方式将不重要的特征组合在一起,以产生更重要的内容。

谢谢您的时间和回答,Maxim。我理解因此,我在寻找一个能帮助我解释我的问题的想法,这个问题可以用ML来解决。不可靠的数据意味着家庭向政府撒谎。这些家庭为了不公平地获得更多的政府服务而谎报他们的收入和财富。因此,这些欺诈性的国家原始数据中的错误将导致不正确的结果和模式。嗯……嗯,如果欺诈不是非常严重,那么它不会导致ML算法出现问题。大多数ML算法不要求您的数据100%清晰,smal