Python 如何处理一列300K左右的大量类别。在数据预处理中?

Python 如何处理一列300K左右的大量类别。在数据预处理中?,python,pandas,machine-learning,data-cleaning,Python,Pandas,Machine Learning,Data Cleaning,我有一个数据集,其中一列有9700行中的275个类别。使用get_dummies将为我提供许多专栏。这是一个很好的实践。?或者可以应用什么其他技术来处理这个问题。?(这里我必须确定最低价格,公司可以确定在市场上销售产品。) 输出:275设置多个专栏不是一个好主意,这将导致培训中出现问题。了解。 要解决此问题,您有一些选择: 我要做的第一件事是获得每个类别的计数: 如果有许多类别只重复了几次(如某些类别在10000个样本中的计数小于10),则可以为它们创建一个名为“其他”的新类别,而不是为每个类别

我有一个数据集,其中一列有9700行中的275个类别。使用get_dummies将为我提供许多专栏。这是一个很好的实践。?或者可以应用什么其他技术来处理这个问题。?(这里我必须确定最低价格,公司可以确定在市场上销售产品。)


输出:275

设置多个专栏不是一个好主意,这将导致培训中出现问题。了解。 要解决此问题,您有一些选择:

  • 我要做的第一件事是获得每个类别的计数:
  • 如果有许多类别只重复了几次(如某些类别在10000个样本中的计数小于10),则可以为它们创建一个名为“其他”的新类别,而不是为每个类别创建一列。这不会影响性能,因为您不会丢失那么多信息;并减少列数

  • 下一步,如果在上一步之后,仍然会得到很多列(例如,如果所有类别都计算相同的数量),则可以使用一些降维技术,例如。简单地说,他们所做的就是找到最好的列来保留和丢弃其余的列

  • 希望我能回答你的问题。

    得到假人的目的是什么?您应该能够选择您需要的任何内容,并将其保持为单个列。依我看,
    get_dummies
    只有在您需要某些特定输出,或者想要为回归创建功能时才真正需要,您的最终目标是什么?您希望输出数据框或数据是什么样子的?我希望减少列中的分类值,因为它们在列中有许多类别,并且只提取一些有用的功能,帮助我的模型(线性回归)准确预测价格(目标)。@ScottBoston,@ALollZ
    df2['Market_Category'].nunique()
    
    df2['Market_Category'].value_counts()