Python 机器学习中的预处理步骤

Python 机器学习中的预处理步骤,python,pandas,machine-learning,Python,Pandas,Machine Learning,为什么做预处理如此重要?做预处理的简单步骤是什么?有人能帮忙吗。我正在研究python 我有一个由空值组成的数据帧。数据由异常值组成,而且分布不均匀 我的问题是,为了填充空值,我应该遵循什么协议?我是否应该删除异常值,因为这可能会导致信息丢失?以及使数据均匀分布的步骤是什么?首先,使用哪种语言并不重要。python和R在数据科学中都很流行 其次,不能将原始数据插入任何机器学习模型。在你需要清洁它之前。以下是一些简单的步骤: 1。删除缺失值:很多时候数据中都存在缺失值。所以你必须填写这些数据。问题

为什么做预处理如此重要?做预处理的简单步骤是什么?有人能帮忙吗。我正在研究python

我有一个由空值组成的数据帧。数据由异常值组成,而且分布不均匀


我的问题是,为了填充空值,我应该遵循什么协议?我是否应该删除异常值,因为这可能会导致信息丢失?以及使数据均匀分布的步骤是什么?

首先,使用哪种语言并不重要。python和R在数据科学中都很流行

其次,不能将原始数据插入任何机器学习模型。在你需要清洁它之前。以下是一些简单的步骤:

1。删除缺失值:很多时候数据中都存在缺失值。所以你必须填写这些数据。问题是如何产生的?有很多方法你可以用谷歌搜索出来

2。删除偏斜和异常值:通常,数据包含的值不在其他数据的范围内。所以你必须把这些数据带到这个范围

3。一个热编码:需要将分类值转换为编码格式


还有更多的步骤,但是你可以用谷歌搜索,你可以浏览大量的博客。

有很多博客和教程,可以让你很好地了解其中的原因。另外,这个问题与堆栈溢出无关,请阅读