Python 机器学习:处理大量分类数据的最佳技术

Python 机器学习:处理大量分类数据的最佳技术,python,machine-learning,categorical-data,Python,Machine Learning,Categorical Data,假设我有一个5000行的矩阵,有10列,其中大部分都是分类数据(字符串),每列有10-30个不同的字符串。在python中处理它的最佳理想方式/算法是什么?OneHotEncoder会给我一个非常大的矩阵为什么不使用图形数据库,例如: 但我的建议是JCR: 您可以进行更深入的叶索引并获得非常灵活的查询我不知道它是否理想,但您可以使用scipy。您可以尝试一个热编码和结果矩阵的表示。Scikit learn的一个热编码器默认使用稀疏矩阵,因此精确的矩阵形状没有问题(因为它不会存储非零条目) 一些简

假设我有一个5000行的矩阵,有10列,其中大部分都是分类数据(字符串),每列有10-30个不同的字符串。在python中处理它的最佳理想方式/算法是什么?OneHotEncoder会给我一个非常大的矩阵

为什么不使用图形数据库,例如: 但我的建议是JCR:
您可以进行更深入的叶索引并获得非常灵活的查询

我不知道它是否理想,但您可以使用scipy。您可以尝试一个热编码和结果矩阵的表示。

Scikit learn的一个热编码器默认使用稀疏矩阵,因此精确的矩阵形状没有问题(因为它不会存储非零条目)


一些简单的sklearn算法(线性模型、树、朴素贝叶斯)能够处理此类稀疏数据-具体示例请参见第节或

谢谢你的回答,我不知道它们,现在我阅读了相关内容并尝试使用OneHotEncoding,然后拟合一些模型并获得“特征重要性”。使用前10-15%的功能进行培训,然后再次检查准确性和f分数。这将减少功能的数量。此外,准确度和f分数将略微降低。适用于监督学习。您可以尝试使用支持分类功能的梯度增强。查看CatBoost