Python 如何使用nlp解析器中的.conll文件进行功能选择

Python 如何使用nlp解析器中的.conll文件进行功能选择,python,nlp,scikit-learn,feature-extraction,feature-selection,Python,Nlp,Scikit Learn,Feature Extraction,Feature Selection,我有一个从Malt解析器输出的.conll格式文件,它使用engmalt.linear-1.7.mco训练模型。我最初输入的是一个句子的大文本文件。如何使用此文件进行要素选择 我正在使用python和Scikit学习(目前使用tfidf词汇包来选择功能)。然而,我想利用nlp,例如,只搜索形容词。如何使用conll文件执行此操作?conll-X格式的解析器输出为词性标记提供了一个单独的列。例如,如果你分析这个句子 我只想选择形容词,不考虑其他标记 输出可能如下所示: 1i\uprp-PRP-ns

我有一个从Malt解析器输出的.conll格式文件,它使用engmalt.linear-1.7.mco训练模型。我最初输入的是一个句子的大文本文件。如何使用此文件进行要素选择


我正在使用python和Scikit学习(目前使用tfidf词汇包来选择功能)。然而,我想利用nlp,例如,只搜索形容词。如何使用conll文件执行此操作?

conll-X格式的解析器输出为词性标记提供了一个单独的列。例如,如果你分析这个句子

我只想选择形容词,不考虑其他标记

输出可能如下所示:

1i\uprp-PRP-nsubj\u_
2想要VB VBP u0 null 0_
3至4辅助_
4选择VB VB u2 xcomp_
5个形容词NN NNS u4 dobj u_
仅限6个RB RB 4个advmod_
7点,2点_
8和uuCC uu2 CC u_
9不理会_
10其他JJ JJ u11 amod u_
11个标签_
12  .           _   .   .   _   2点_
第4列和第5列分别显示了粗粒度和细粒度的词性标记。如果您只想选择形容词,那么只需要选择第4列中带有
JJ
作为粗略标记的单词

一旦你根据你的选择标准选择了特定的单词,你就可以按照通常的方式继续构建向量了


p.S.我假设您的查询主要与CoNLL格式有关,而不是关于如何提取形容词(当然,这可以通过制表符拆分行或正则表达式匹配来完成——关于这些,有几个问题和答案与pythonic方法有关).CoNLL-X格式的解析器的输出为词性标记提供了一个单独的列。例如,如果你分析这个句子

我只想选择形容词,不考虑其他标记

输出可能如下所示:

1i\uprp-PRP-nsubj\u_
2想要VB VBP u0 null 0_
3至4辅助_
4选择VB VB u2 xcomp_
5个形容词NN NNS u4 dobj u_
仅限6个RB RB 4个advmod_
7点,2点_
8和uuCC uu2 CC u_
9不理会_
10其他JJ JJ u11 amod u_
11个标签_
12  .           _   .   .   _   2点_
第4列和第5列分别显示了粗粒度和细粒度的词性标记。如果您只想选择形容词,那么只需要选择第4列中带有
JJ
作为粗略标记的单词

一旦你根据你的选择标准选择了特定的单词,你就可以按照通常的方式继续构建向量了


p.S.我假设您的查询主要与CoNLL格式有关,而不是关于如何提取形容词(当然,这可以通过制表符拆分行或正则表达式匹配来完成——关于这些,有几个问题和答案与pythonic方法有关).CoNLL-X格式的解析器的输出为词性标记提供了一个单独的列。例如,如果你分析这个句子

我只想选择形容词,不考虑其他标记

输出可能如下所示:

1i\uprp-PRP-nsubj\u_
2想要VB VBP u0 null 0_
3至4辅助_
4选择VB VB u2 xcomp_
5个形容词NN NNS u4 dobj u_
仅限6个RB RB 4个advmod_
7点,2点_
8和uuCC uu2 CC u_
9不理会_
10其他JJ JJ u11 amod u_
11个标签_
12  .           _   .   .   _   2点_
第4列和第5列分别显示了粗粒度和细粒度的词性标记。如果您只想选择形容词,那么只需要选择第4列中带有
JJ
作为粗略标记的单词

一旦你根据你的选择标准选择了特定的单词,你就可以按照通常的方式继续构建向量了


p.S.我假设您的查询主要与CoNLL格式有关,而不是关于如何提取形容词(当然,这可以通过制表符拆分行或正则表达式匹配来完成——关于这些,有几个问题和答案与pythonic方法有关).CoNLL-X格式的解析器的输出为词性标记提供了一个单独的列。例如,如果你分析这个句子

我只想选择形容词,不考虑其他标记

输出可能如下所示:

1i\uprp-PRP-nsubj\u_
2想要VB VBP u0 null 0_
3至4辅助_
4选择VB VB u2 xcomp_
5个形容词NN NNS u4 dobj u_
仅限6个RB RB 4个advmod_
7点,2点_
8和uuCC uu2 CC u_
9不理会_
10其他JJ JJ u11 amod u_
11个标签_
12  .           _   .   .   _   2点_
纵队