词性标注和实体识别-python_Python_Azure_Named Entity Recognition_Part Of Speech_Azure Machine Learning Studio

词性标注和实体识别-python

python azure

词性标注和实体识别-python,python,azure,named-entity-recognition,part-of-speech,azure-machine-learning-studio,Python,Azure,Named Entity Recognition,Part Of Speech,Azure Machine Learning Studio,我想在python中执行词性标注和实体识别，类似于R中openNLP的Maxent_POS_Tag_注释器和Maxent_entity_注释器函数。我更喜欢python中的代码，它将输入作为文本句子，并将输出作为不同的特征，如“CC”的数量、“CD”的数量、“DT”的数量等。。CC、CD、DT是宾州树状银行中使用的POS标签。因此，词性标记应该有36列/特征，对应于中的36个词性标记。我想在Azure ML“执行Python脚本”模块上实现这一点，Azure ML支持Python 2.7.7。我

我想在python中执行词性标注和实体识别，类似于R中openNLP的Maxent_POS_Tag_注释器和Maxent_entity_注释器函数。我更喜欢python中的代码，它将输入作为文本句子，并将输出作为不同的特征，如“CC”的数量、“CD”的数量、“DT”的数量等。。CC、CD、DT是宾州树状银行中使用的POS标签。因此，词性标记应该有36列/特征，对应于中的36个词性标记。我想在Azure ML“执行Python脚本”模块上实现这一点，Azure ML支持Python 2.7.7。我听说python中的nltk可以完成这项工作，但我是python的初学者。任何帮助都将不胜感激

看一看单词分类和标记部分

简单示例，它使用Penn Treebank标记集：

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]

然后你可以用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
    counts[tag] += 1

要获取频率，请执行以下操作：

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})

defaultdict（，{'JJ'：2，'NN'：1，'POS'：1，'VBZ'：1，'DT'：2，'NNP'：1}）

查看“单词分类和标记”部分

简单示例，它使用Penn Treebank标记集：

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]

然后你可以用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
    counts[tag] += 1

要获取频率，请执行以下操作：

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})

defaultdict（，{'JJ'：2，'NN'：1，'POS'：1，'VBZ'：1，'DT'：2，'NNP'：1}）

查看“单词分类和标记”部分

简单示例，它使用Penn Treebank标记集：

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]

然后你可以用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
    counts[tag] += 1

要获取频率，请执行以下操作：

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})

defaultdict（，{'JJ'：2，'NN'：1，'POS'：1，'VBZ'：1，'DT'：2，'NNP'：1}）

查看“单词分类和标记”部分

简单示例，它使用Penn Treebank标记集：

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize
pos_tag(word_tokenize("John's big idea isn't all that bad.")) 

[('John', 'NNP'),
("'s", 'POS'),
 ('big', 'JJ'),
 ('idea', 'NN'),
 ('is', 'VBZ'),
 ("n't", 'RB'),
 ('all', 'DT'),
 ('that', 'DT'),
 ('bad', 'JJ'),
 ('.', '.')]

然后你可以用

from collections import defaultdict
counts = defaultdict(int)
for (word, tag) in pos_tag(word_tokenize("John's big idea isn't all that bad.")):
    counts[tag] += 1

要获取频率，请执行以下操作：

defaultdict(<type 'int'>, {'JJ': 2, 'NN': 1, 'POS': 1, '.': 1, 'RB': 1, 'VBZ': 1, 'DT': 2, 'NNP': 1})

defaultdict（，{'JJ'：2，'NN'：1，'POS'：1，'VBZ'：1，'DT'：2，'NNP'：1}）

谢谢@hellpanderr。请您也指导一下如何在python中导入nltk的步骤好吗？我是python新手。Windows 7-64位。@ankur在python中导入nltk的步骤：1。打开cmd窗口；2.命令“cd”进入已安装Python的路径；3.命令“Scripts/pip.exe install ntlk”@PeterPan MSFT我正在使用python 2.7.7。未安装pip。它显示脚本错误未被识别为内部或外部命令。@PeterPan MSFT还有一个相关问题。如果我只想使用pos_标记，word_标记我应该在id下的nltk.download（info_或_If=''）下放置什么选项？@ankur从页面下载pip-7.1.2.tar.gz，解压缩它并命令“python setup.py”安装pip。谢谢@hellpanderr。请您也指导一下如何在python中导入nltk的步骤好吗？我是python新手。Windows 7-64位。@ankur在python中导入nltk的步骤：1。打开cmd窗口；2.命令“cd”进入已安装Python的路径；3.命令“Scripts/pip.exe install ntlk”@PeterPan MSFT我正在使用python 2.7.7。未安装pip。它显示脚本错误未被识别为内部或外部命令。@PeterPan MSFT还有一个相关问题。如果我只想使用pos_标记，word_标记我应该在id下的nltk.download（info_或_If=''）下放置什么选项？@ankur从页面下载pip-7.1.2.tar.gz，解压缩它并命令“python setup.py”安装pip。谢谢@hellpanderr。请您也指导一下如何在python中导入nltk的步骤好吗？我是python新手。Windows 7-64位。@ankur在python中导入nltk的步骤：1。打开cmd窗口；2.命令“cd”进入已安装Python的路径；3.命令“Scripts/pip.exe install ntlk”@PeterPan MSFT我正在使用python 2.7.7。未安装pip。它显示脚本错误未被识别为内部或外部命令。@PeterPan MSFT还有一个相关问题。如果我只想使用pos_标记，word_标记我应该在id下的nltk.download（info_或_If=''）下放置什么选项？@ankur从页面下载pip-7.1.2.tar.gz，解压缩它并命令“python setup.py”安装pip。谢谢@hellpanderr。请您也指导一下如何在python中导入nltk的步骤好吗？我是python新手。Windows 7-64位。@ankur在python中导入nltk的步骤：1。打开cmd窗口；2.命令“cd”进入已安装Python的路径；3.命令“Scripts/pip.exe install ntlk”@PeterPan MSFT我正在使用python 2.7.7。未安装pip。它显示脚本错误未被识别为内部或外部命令。@PeterPan MSFT还有一个相关问题。如果我只想使用pos_标记，word_标记我应该在id下的nltk.download（info_或_If=''）下放置什么选项？@ankur从页面下载pip-7.1.2.tar.gz，解压缩它并命令“python setup.py”安装pip。