Python 如何处理一列300K左右的大量类别。在数据预处理中？_Python_Pandas_Machine Learning_Data Cleaning

Python 如何处理一列300K左右的大量类别。在数据预处理中？

python pandas machine-learning

Python 如何处理一列300K左右的大量类别。在数据预处理中？,python,pandas,machine-learning,data-cleaning,Python,Pandas,Machine Learning,Data Cleaning,我有一个数据集，其中一列有9700行中的275个类别。使用get_dummies将为我提供许多专栏。这是一个很好的实践。？或者可以应用什么其他技术来处理这个问题。？（这里我必须确定最低价格，公司可以确定在市场上销售产品。）输出：275设置多个专栏不是一个好主意，这将导致培训中出现问题。了解。要解决此问题，您有一些选择：我要做的第一件事是获得每个类别的计数：如果有许多类别只重复了几次（如某些类别在10000个样本中的计数小于10），则可以为它们创建一个名为“其他”的新类别，而不是为每个类别

我有一个数据集，其中一列有9700行中的275个类别。使用get_dummies将为我提供许多专栏。这是一个很好的实践。？或者可以应用什么其他技术来处理这个问题。？（这里我必须确定最低价格，公司可以确定在市场上销售产品。）

输出：275

设置多个专栏不是一个好主意，这将导致培训中出现问题。了解。要解决此问题，您有一些选择：

我要做的第一件事是获得每个类别的计数：

如果有许多类别只重复了几次（如某些类别在10000个样本中的计数小于10），则可以为它们创建一个名为“其他”的新类别，而不是为每个类别创建一列。这不会影响性能，因为您不会丢失那么多信息；并减少列数

下一步，如果在上一步之后，仍然会得到很多列（例如，如果所有类别都计算相同的数量），则可以使用一些降维技术，例如。简单地说，他们所做的就是找到最好的列来保留和丢弃其余的列

希望我能回答你的问题。

做

得到假人的目的是什么？您应该能够选择您需要的任何内容，并将其保持为单个列。依我看，get_dummies只有在您需要某些特定输出，或者想要为回归创建功能时才真正需要，您的最终目标是什么？您希望输出数据框或数据是什么样子的？我希望减少列中的分类值，因为它们在列中有许多类别，并且只提取一些有用的功能，帮助我的模型（线性回归）准确预测价格（目标）。@ScottBoston，@ALollZ
df2['Market_Category'].nunique()

df2['Market_Category'].value_counts()