Nlp 在scikit learn中将nltk搭配用作功能

Nlp 在scikit learn中将nltk搭配用作功能,nlp,nltk,text-processing,scikit-learn,feature-extraction,Nlp,Nltk,Text Processing,Scikit Learn,Feature Extraction,我试图使用nltk从语料库中提取搭配,然后将它们的出现作为scikit学习分类器的特征。 不幸的是,我对nltk不太熟悉,也没有找到一种简单的方法。 我走了这么远: 使用bigramconboundfinder从语料库中提取搭配 对于每个文档,提取所有的bigrams(使用nltk.bigrams),并检查它们是否是其中一个搭配 使用不执行任何操作的分析器创建TFIDFvectorier 以提取的bigram的形式向其提供文档 这对我来说太复杂了。还有一个问题是,bigramclaction

我试图使用nltk从语料库中提取搭配,然后将它们的出现作为scikit学习分类器的特征。 不幸的是,我对nltk不太熟悉,也没有找到一种简单的方法。 我走了这么远:

  • 使用
    bigramconboundfinder
    从语料库中提取搭配
  • 对于每个文档,提取所有的bigrams(使用
    nltk.bigrams
    ),并检查它们是否是其中一个搭配
  • 使用不执行任何操作的分析器创建
    TFIDFvectorier
  • 以提取的bigram的形式向其提供文档
这对我来说太复杂了。还有一个问题是,
bigramclactionfinder
有一个
window\u size
参数,用于跨越多个单词的bigram。标准的
nltk.bigrams
提取无法做到这一点

克服这一问题的一种方法是为每个文档实例化一个新的BigramColonmentFinder,然后再次提取Bigram,并将它们与我以前找到的匹配。。。但同样,这似乎很复杂。 当然,有一种更简单的方法可以做到这一点,我忽略了这一点


谢谢你的建议

larsmans已经为简单的非搭配特征提供了NLTK/scikit学习特征映射器。这可能会给你自己的问题带来一些灵感: