Nlp tweet文本处理工具_Nlp_Entity_Text Processing_Sentiment Analysis_Named Entity Recognition

Nlp tweet文本处理工具

nlp

Nlp tweet文本处理工具,nlp,entity,text-processing,sentiment-analysis,named-entity-recognition,Nlp,Entity,Text Processing,Sentiment Analysis,Named Entity Recognition,我每天收集数百万条与体育相关的推文。我想处理那些推文中的文本。我想识别实体，找到句子的情感，找到那些推文中的事件实体确认：例如： “鲁尼将在下一场比赛中代表英格兰出战” 从这条推文中，我想认出个人实体“鲁尼”和地方实体“英格兰” 情绪分析：我想找出一句话的感情。比如说切尔西踢了他们有史以来最糟糕的比赛罗纳尔多进了一个漂亮的球第一个应标记为“否定”句，后一个应标记为“肯定” 事件识别：我想从推特上找到“进球事件”。像“梅西上半场进了一球”和“杰拉尔德进了一个精彩的球”这样的句子应该标

我每天收集数百万条与体育相关的推文。我想处理那些推文中的文本。我想识别实体，找到句子的情感，找到那些推文中的事件

实体确认：

例如： “鲁尼将在下一场比赛中代表英格兰出战”

从这条推文中，我想认出个人实体“鲁尼”和地方实体“英格兰”

情绪分析：

我想找出一句话的感情。比如说

切尔西踢了他们有史以来最糟糕的比赛

罗纳尔多进了一个漂亮的球

第一个应标记为“否定”句，后一个应标记为“肯定”

事件识别：

我想从推特上找到“进球事件”。像“梅西上半场进了一球”和“杰拉尔德进了一个精彩的球”这样的句子应该标记为“进球事件”

我知道实体识别和情绪分析工具可用，我需要编写事件识别规则。我见过很多工具，比如斯坦福大学的NER，

炼金术api

，

开放加莱

，

意指云api

，

灵管

，

伊利诺伊州

等等。。我真的很困惑应该选择哪种工具？有没有不受每日费率限制的免费工具？我想每天处理数百万条推文，

java

是我更喜欢的语言

谢谢

考虑到您首选的语言是Java，我强烈建议您从斯坦福NLP项目开始。你的大部分基本需求，如清洁、分块、清洁，都可以在此基础上完成

继续进行情绪分析，你可以使用简单的分类器，比如朴素贝叶斯，然后增加复杂性。更多

对于事件提取，您可以使用语言学方法来识别动词及其与本体的关联

请记住，这只是让您开始学习，并不是一个广泛的答案。

考虑到您的首选语言是Java，我强烈建议您从斯坦福NLP项目开始。你的大部分基本需求，如清洁、分块、清洁，都可以在此基础上完成

继续进行情绪分析，你可以使用简单的分类器，比如朴素贝叶斯，然后增加复杂性。更多

对于事件提取，您可以使用语言学方法来识别动词及其与本体的关联

请记住，这只是一个开始，并不是一个广泛的答案。

对于NER，您还可以使用它作为门管道，这样您就可以使用Java中的门API。

没有可以无限调用的API。如果您想坚持使用java，请使用stanford软件包，并根据需要进行定制

如果您熟悉python，请查看

nltk

好的，对于

个人

，

组织

斯坦福大学将为您的输入查询工作：

Rooney will play for England in their next match
[Text=Rooney CharacterOffsetBegin=0 CharacterOffsetEnd=6 PartOfSpeech=NNP Lemma=Rooney NamedEntityTag=PERSON] [Text=will CharacterOffsetBegin=7 CharacterOffsetEnd=11 PartOfSpeech=MD Lemma=will NamedEntityTag=O] [Text=play CharacterOffsetBegin=12 CharacterOffsetEnd=16 PartOfSpeech=VB Lemma=play NamedEntityTag=O] [Text=for CharacterOffsetBegin=17 CharacterOffsetEnd=20 PartOfSpeech=IN Lemma=for NamedEntityTag=O] [Text=England CharacterOffsetBegin=21 CharacterOffsetEnd=28 PartOfSpeech=NNP Lemma=England NamedEntityTag=LOCATION] [Text=in CharacterOffsetBegin=29 CharacterOffsetEnd=31 PartOfSpeech=IN Lemma=in NamedEntityTag=O] [Text=their CharacterOffsetBegin=32 CharacterOffsetEnd=37 PartOfSpeech=PRP$ Lemma=they NamedEntityTag=O] [Text=next CharacterOffsetBegin=38 CharacterOffsetEnd=42 PartOfSpeech=JJ Lemma=next NamedEntityTag=O] [Text=match CharacterOffsetBegin=43 CharacterOffsetEnd=48 PartOfSpeech=NN Lemma=match NamedEntityTag=O]

如果还想添加

事件

识别，则需要使用extrac类重新训练stanford包，该类具有基于

事件

的数据集。它可以帮助您对基于事件的输入进行分类

NER是否使用词性标记

默认情况下，我们当前的机型都不使用pos标签。这在很大程度上是错误的因为Stanford POS标记器使用的功能非常相似对于那些在NER系统中使用的，因此没有什么好处使用POS标签

然而，培训使用POS的新车型当然是可能的标签。培训数据需要有一个额外的列，其中包含标记信息，然后将tag=X添加到map参数中

选中-

无API，可无限调用。如果您想坚持使用java，请使用stanford软件包，并根据需要进行定制