Python 脏数据特征工程

Python 脏数据特征工程,python,data-cleaning,feature-engineering,Python,Data Cleaning,Feature Engineering,我有一个任务,我需要清理数据并在数据集上进行特征工程,但是数据本身非常脏,因为一些数据被移位(在错误的列上)或NULL。如何使用python清理所有数据?除了使用python,我不允许以任何方式更改数据集?我建议使用pandas和NumPy,我使用这些包从CSV和Excel文件导入数据,然后使用lambda函数转换现有列,或者您可以根据列和行的值删除列和行,使用条件选择行。最后,您还可以导出回任何原始格式,如Excel或CSV 下面是一篇来自realpython的关于使用这些包清理数据的文章。我

我有一个任务,我需要清理数据并在数据集上进行特征工程,但是数据本身非常脏,因为一些数据被移位(在错误的列上)或NULL。如何使用python清理所有数据?除了使用python,我不允许以任何方式更改数据集?

我建议使用pandas和NumPy,我使用这些包从CSV和Excel文件导入数据,然后使用lambda函数转换现有列,或者您可以根据列和行的值删除列和行,使用条件选择行。最后,您还可以导出回任何原始格式,如Excel或CSV

下面是一篇来自realpython的关于使用这些包清理数据的文章。我希望这能帮助你开始


一般来说,我建议使用pandas库()在python中进行数据清理。但是,您的问题非常模糊,没有什么具体内容,因此很难给出更多的建议。

我认为只需在谷歌上搜索“数据清理python”就会得到比这里更多的答案。Stackoverflow用于其他目的。我希望你能找到你所需要的。你能补充一下你希望实现哪些特征工程方法吗?这样人们可以更具体地给出他们的答案。