Python 作为Scikit学习功能的关键字列表

Python 作为Scikit学习功能的关键字列表,python,scikit-learn,Python,Scikit Learn,我有一个具有许多特性的数据框架,其中一个特性是分隔空间的关键字列表。 在Weka中,可以将字段指定为字符串列表。 在scikit learn中解决这种情况的最佳方法是什么 编辑:请注意,我有很多关键字,手动为每个关键字创建一个功能实际上不是一个选项。如果有人能提出一种创建这些功能的方法,我有一个熊猫数据框架,这将非常棒。那么,如果WEKA没有为每个功能创建一个功能,它在内部会做什么呢?不幸的是,我不知道WEKA的详细信息,但如果它没有这样做,我会感到惊讶。我主要关心的是如何自动创建这些功能。我会

我有一个具有许多特性的数据框架,其中一个特性是分隔空间的关键字列表。 在Weka中,可以将字段指定为字符串列表。 在scikit learn中解决这种情况的最佳方法是什么


编辑:请注意,我有很多关键字,手动为每个关键字创建一个功能实际上不是一个选项。如果有人能提出一种创建这些功能的方法,我有一个熊猫数据框架,这将非常棒。

那么,如果WEKA没有为每个功能创建一个功能,它在内部会做什么呢?不幸的是,我不知道WEKA的详细信息,但如果它没有这样做,我会感到惊讶。我主要关心的是如何自动创建这些功能。我会澄清问题。可能是一个潜在客户,但不一定是一个完整的解决方案。您阅读并接受了答案吗?简而言之:使用DictVectorizer,不要害怕很多特性,使用一个可以处理稀疏矩阵的估计器。fit docstring将包含单词sparse。如果不起作用,请指定字符串的含义。我不知道Weka如何处理字符串列表。