Python 是否应使用Pandas或Sklearn进行插补/标准化等。?

Python 是否应使用Pandas或Sklearn进行插补/标准化等。?,python,pandas,scikit-learn,Python,Pandas,Scikit Learn,我目前正试图让自己更熟悉sklearn,尽管我对ML还是一个新手。在学习一些教程时,我偶然发现了sklearn实现了一些我已经使用pandas实现的技术。如用于标准化、缺失值插补等的工具 我目前的工作流程是这样的:使用pandas加载和预处理数据,使用pandas进行规范化、插补等,大部分都在笔记本中。然后,我将csv文件导出到一个已清理的版本,并在这个已清理和处理的数据集上的单独python文件中执行ML工作。这个工作流程有什么问题吗 我真的很想从一些比我花更多时间在这个领域的人那里了解一下,

我目前正试图让自己更熟悉sklearn,尽管我对ML还是一个新手。在学习一些教程时,我偶然发现了sklearn实现了一些我已经使用pandas实现的技术。如用于标准化、缺失值插补等的工具

我目前的工作流程是这样的:使用pandas加载和预处理数据,使用pandas进行规范化、插补等,大部分都在笔记本中。然后,我将csv文件导出到一个已清理的版本,并在这个已清理和处理的数据集上的单独python文件中执行ML工作。这个工作流程有什么问题吗


我真的很想从一些比我花更多时间在这个领域的人那里了解一下,使用pandas进行预处理或使用sklearn有哪些优点/缺点。也许你已经看到了一些我没有看到的障碍?

在我看来,如果在完成插补、标准化(以及其他“数据清理/预处理”步骤)之后,你计划进行一些实际的机器学习,你应该使用scikit学习。主要优点是,您可以轻松地将所有预处理步骤和最终机器学习估计器连接到单个对象中。 如果希望确保应用于新数据的步骤与应用于培训数据的步骤相同,则这非常方便。您的代码也将更加紧凑和可读。 如果需要对原始数据的不同列应用不同的预处理步骤,还可以查看(可以包含在管道中)

另一方面,如果您的项目不涉及机器学习,并且您只需要预处理和清理数据以使其可视化并计算一些统计数据,那么您可能会决定只使用Pandas,这样您的项目将具有较少的依赖性