Python 具有高基数的功能(如何将其矢量化?)

Python 具有高基数的功能(如何将其矢量化?),python,machine-learning,scikit-learn,apache-spark-mllib,Python,Machine Learning,Scikit Learn,Apache Spark Mllib,我试图在数据集上使用scikit learn运行一个机器学习问题,其中一列(功能)的基数很高,约为300K个唯一值。如何对此类功能进行矢量化。使用DictVectorizer并不是一个解决方案,因为机器内存不足 我在几篇文章中读到,我可以将数字分配给所有这些字符串值,但会导致误导性的结果 有没有人处理过这样的功能集。如果有,如何将其矢量化,以便我可以将其传递给培训模型?试试。它 是DictVectorizer和CountVectorizer的低内存替代品,用于 大规模(在线)学习和记忆紧张的情况

我试图在数据集上使用scikit learn运行一个机器学习问题,其中一列(功能)的基数很高,约为300K个唯一值。如何对此类功能进行矢量化。使用DictVectorizer并不是一个解决方案,因为机器内存不足

我在几篇文章中读到,我可以将数字分配给所有这些字符串值,但会导致误导性的结果

有没有人处理过这样的功能集。如果有,如何将其矢量化,以便我可以将其传递给培训模型?

试试。它

是DictVectorizer和CountVectorizer的低内存替代品,用于 大规模(在线)学习和记忆紧张的情况,例如 在嵌入式设备上运行预测代码