词性标注和实体识别-python

词性标注和实体识别-python,python,azure,named-entity-recognition,part-of-speech,azure-machine-learning-studio,Python,Azure,Named Entity Recognition,Part Of Speech,Azure Machine Learning Studio,我想在python中执行词性标注和实体识别,类似于R中openNLP的Maxent_POS_Tag_注释器和Maxent_entity_注释器函数。我更喜欢python中的代码,它将输入作为文本句子,并将输出作为不同的特征,如“CC”的数量、“CD”的数量、“DT”的数量等。。CC、CD、DT是宾州树状银行中使用的POS标签。因此,词性标记应该有36列/特征,对应于中的36个词性标记。我想在Azure ML“执行Python脚本”模块上实现这一点,Azure ML支持Python 2.7.7。我

我想在python中执行词性标注和实体识别,类似于R中openNLP的Maxent_POS_Tag_注释器和Maxent_entity_注释器函数。我更喜欢python中的代码,它将输入作为文本句子,并将输出作为不同的特征,如“CC”的数量、“CD”的数量、“DT”的数量等。。CC、CD、DT是宾州树状银行中使用的POS标签。因此,词性标记应该有36列/特征,对应于中的36个词性标记。我想在Azure ML“执行Python脚本”模块上实现这一点,Azure ML支持Python 2.7.7。我听说python中的nltk可以完成这项工作,但我是python的初学者。任何帮助都将不胜感激

看一看单词分类和标记部分

简单示例,它使用Penn Treebank标记集:

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]
然后你可以用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
    counts[tag] += 1
要获取频率,请执行以下操作:

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})
defaultdict(,{'JJ':2,'NN':1,'POS':1,'VBZ':1,'DT':2,'NNP':1})
查看“单词分类和标记”部分

简单示例,它使用Penn Treebank标记集:

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]
然后你可以用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
    counts[tag] += 1
要获取频率,请执行以下操作:

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})
defaultdict(,{'JJ':2,'NN':1,'POS':1,'VBZ':1,'DT':2,'NNP':1})
查看“单词分类和标记”部分

简单示例,它使用Penn Treebank标记集:

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]
然后你可以用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
    counts[tag] += 1
要获取频率,请执行以下操作:

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})
defaultdict(,{'JJ':2,'NN':1,'POS':1,'VBZ':1,'DT':2,'NNP':1})
查看“单词分类和标记”部分

简单示例,它使用Penn Treebank标记集:

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]
然后你可以用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
    counts[tag] += 1
要获取频率,请执行以下操作:

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})
defaultdict(,{'JJ':2,'NN':1,'POS':1,'VBZ':1,'DT':2,'NNP':1})


谢谢@hellpanderr。请您也指导一下如何在python中导入nltk的步骤好吗?我是python新手。Windows 7-64位。@ankur在python中导入nltk的步骤:1。打开cmd窗口;2.命令“cd”进入已安装Python的路径;3.命令“Scripts/pip.exe install ntlk”@PeterPan MSFT我正在使用python 2.7.7。未安装pip。它显示脚本错误未被识别为内部或外部命令。@PeterPan MSFT还有一个相关问题。如果我只想使用pos_标记,word_标记我应该在id下的nltk.download(info_或_If='')下放置什么选项?@ankur从页面下载pip-7.1.2.tar.gz,解压缩它并命令“python setup.py”安装pip。谢谢@hellpanderr。请您也指导一下如何在python中导入nltk的步骤好吗?我是python新手。Windows 7-64位。@ankur在python中导入nltk的步骤:1。打开cmd窗口;2.命令“cd”进入已安装Python的路径;3.命令“Scripts/pip.exe install ntlk”@PeterPan MSFT我正在使用python 2.7.7。未安装pip。它显示脚本错误未被识别为内部或外部命令。@PeterPan MSFT还有一个相关问题。如果我只想使用pos_标记,word_标记我应该在id下的nltk.download(info_或_If='')下放置什么选项?@ankur从页面下载pip-7.1.2.tar.gz,解压缩它并命令“python setup.py”安装pip。谢谢@hellpanderr。请您也指导一下如何在python中导入nltk的步骤好吗?我是python新手。Windows 7-64位。@ankur在python中导入nltk的步骤:1。打开cmd窗口;2.命令“cd”进入已安装Python的路径;3.命令“Scripts/pip.exe install ntlk”@PeterPan MSFT我正在使用python 2.7.7。未安装pip。它显示脚本错误未被识别为内部或外部命令。@PeterPan MSFT还有一个相关问题。如果我只想使用pos_标记,word_标记我应该在id下的nltk.download(info_或_If='')下放置什么选项?@ankur从页面下载pip-7.1.2.tar.gz,解压缩它并命令“python setup.py”安装pip。谢谢@hellpanderr。请您也指导一下如何在python中导入nltk的步骤好吗?我是python新手。Windows 7-64位。@ankur在python中导入nltk的步骤:1。打开cmd窗口;2.命令“cd”进入已安装Python的路径;3.命令“Scripts/pip.exe install ntlk”@PeterPan MSFT我正在使用python 2.7.7。未安装pip。它显示脚本错误未被识别为内部或外部命令。@PeterPan MSFT还有一个相关问题。如果我只想使用pos_标记,word_标记我应该在id下的nltk.download(info_或_If='')下放置什么选项?@ankur从页面下载pip-7.1.2.tar.gz,解压缩它并命令“python setup.py”安装pip。