Python 具有高基数的功能（如何将其矢量化？）_Python_Machine Learning_Scikit Learn_Apache Spark Mllib

Python 具有高基数的功能（如何将其矢量化？）

python machine-learning scikit-learn

Python 具有高基数的功能（如何将其矢量化？）,python,machine-learning,scikit-learn,apache-spark-mllib,Python,Machine Learning,Scikit Learn,Apache Spark Mllib,我试图在数据集上使用scikit learn运行一个机器学习问题，其中一列（功能）的基数很高，约为300K个唯一值。如何对此类功能进行矢量化。使用DictVectorizer并不是一个解决方案，因为机器内存不足我在几篇文章中读到，我可以将数字分配给所有这些字符串值，但会导致误导性的结果有没有人处理过这样的功能集。如果有，如何将其矢量化，以便我可以将其传递给培训模型？试试。它是DictVectorizer和CountVectorizer的低内存替代品，用于大规模（在线）学习和记忆紧张的情况

我试图在数据集上使用scikit learn运行一个机器学习问题，其中一列（功能）的基数很高，约为300K个唯一值。如何对此类功能进行矢量化。使用DictVectorizer并不是一个解决方案，因为机器内存不足

我在几篇文章中读到，我可以将数字分配给所有这些字符串值，但会导致误导性的结果

有没有人处理过这样的功能集。如果有，如何将其矢量化，以便我可以将其传递给培训模型？

试试。它

是DictVectorizer和CountVectorizer的低内存替代品，用于大规模（在线）学习和记忆紧张的情况，例如在嵌入式设备上运行预测代码