Nlp 在scikit learn中将nltk搭配用作功能_Nlp_Nltk_Text Processing_Scikit Learn_Feature Extraction

Nlp 在scikit learn中将nltk搭配用作功能

nlp scikit-learn

Nlp 在scikit learn中将nltk搭配用作功能,nlp,nltk,text-processing,scikit-learn,feature-extraction,Nlp,Nltk,Text Processing,Scikit Learn,Feature Extraction,我试图使用nltk从语料库中提取搭配，然后将它们的出现作为scikit学习分类器的特征。不幸的是，我对nltk不太熟悉，也没有找到一种简单的方法。我走了这么远：使用bigramconboundfinder从语料库中提取搭配对于每个文档，提取所有的bigrams（使用nltk.bigrams），并检查它们是否是其中一个搭配使用不执行任何操作的分析器创建TFIDFvectorier 以提取的bigram的形式向其提供文档这对我来说太复杂了。还有一个问题是，bigramclaction

我试图使用nltk从语料库中提取搭配，然后将它们的出现作为scikit学习分类器的特征。不幸的是，我对nltk不太熟悉，也没有找到一种简单的方法。我走了这么远：

使用
```
bigramconboundfinder
```
从语料库中提取搭配
对于每个文档，提取所有的bigrams（使用
```
nltk.bigrams
```
），并检查它们是否是其中一个搭配
使用不执行任何操作的分析器创建
```
TFIDFvectorier
```
以提取的bigram的形式向其提供文档

这对我来说太复杂了。还有一个问题是，

bigramclactionfinder

有一个

window\u size

参数，用于跨越多个单词的bigram。标准的

nltk.bigrams

提取无法做到这一点

克服这一问题的一种方法是为每个文档实例化一个新的BigramColonmentFinder，然后再次提取Bigram，并将它们与我以前找到的匹配。。。但同样，这似乎很复杂。当然，有一种更简单的方法可以做到这一点，我忽略了这一点

谢谢你的建议

larsmans已经为简单的非搭配特征提供了NLTK/scikit学习特征映射器。这可能会给你自己的问题带来一些灵感：