Nlp tweet文本处理工具
我每天收集数百万条与体育相关的推文。我想处理那些推文中的文本。我想识别实体,找到句子的情感,找到那些推文中的事件 实体确认: 例如: “鲁尼将在下一场比赛中代表英格兰出战” 从这条推文中,我想认出个人实体“鲁尼”和地方实体“英格兰” 情绪分析: 我想找出一句话的感情。比如说Nlp tweet文本处理工具,nlp,entity,text-processing,sentiment-analysis,named-entity-recognition,Nlp,Entity,Text Processing,Sentiment Analysis,Named Entity Recognition,我每天收集数百万条与体育相关的推文。我想处理那些推文中的文本。我想识别实体,找到句子的情感,找到那些推文中的事件 实体确认: 例如: “鲁尼将在下一场比赛中代表英格兰出战” 从这条推文中,我想认出个人实体“鲁尼”和地方实体“英格兰” 情绪分析: 我想找出一句话的感情。比如说 切尔西踢了他们有史以来最糟糕的比赛 罗纳尔多进了一个漂亮的球 第一个应标记为“否定”句,后一个应标记为“肯定” 事件识别: 我想从推特上找到“进球事件”。像“梅西上半场进了一球”和“杰拉尔德进了一个精彩的球”这样的句子应该标
炼金术api
,开放加莱
,意指云api
,灵管
,伊利诺伊州
等等。。
我真的很困惑应该选择哪种工具?有没有不受每日费率限制的免费工具?我想每天处理数百万条推文,java
是我更喜欢的语言
谢谢 考虑到您首选的语言是Java,我强烈建议您从斯坦福NLP项目开始。你的大部分基本需求,如清洁、分块、清洁,都可以在此基础上完成 继续进行情绪分析,你可以使用简单的分类器,比如朴素贝叶斯,然后增加复杂性。更多 对于事件提取,您可以使用语言学方法来识别动词及其与本体的关联
请记住,这只是让您开始学习,并不是一个广泛的答案。考虑到您的首选语言是Java,我强烈建议您从斯坦福NLP项目开始。你的大部分基本需求,如清洁、分块、清洁,都可以在此基础上完成 继续进行情绪分析,你可以使用简单的分类器,比如朴素贝叶斯,然后增加复杂性。更多 对于事件提取,您可以使用语言学方法来识别动词及其与本体的关联
请记住,这只是一个开始,并不是一个广泛的答案。对于NER,您还可以使用它作为门管道,这样您就可以使用Java中的门API。对于NER,您还可以使用它作为门管道,这样您就可以使用Java中的门API。没有可以无限调用的API。如果您想坚持使用java,请使用stanford软件包,并根据需要进行定制 如果您熟悉python,请查看
nltk
好的,对于个人
,组织
斯坦福大学将为您的输入查询工作:
Rooney will play for England in their next match
[Text=Rooney CharacterOffsetBegin=0 CharacterOffsetEnd=6 PartOfSpeech=NNP Lemma=Rooney NamedEntityTag=PERSON] [Text=will CharacterOffsetBegin=7 CharacterOffsetEnd=11 PartOfSpeech=MD Lemma=will NamedEntityTag=O] [Text=play CharacterOffsetBegin=12 CharacterOffsetEnd=16 PartOfSpeech=VB Lemma=play NamedEntityTag=O] [Text=for CharacterOffsetBegin=17 CharacterOffsetEnd=20 PartOfSpeech=IN Lemma=for NamedEntityTag=O] [Text=England CharacterOffsetBegin=21 CharacterOffsetEnd=28 PartOfSpeech=NNP Lemma=England NamedEntityTag=LOCATION] [Text=in CharacterOffsetBegin=29 CharacterOffsetEnd=31 PartOfSpeech=IN Lemma=in NamedEntityTag=O] [Text=their CharacterOffsetBegin=32 CharacterOffsetEnd=37 PartOfSpeech=PRP$ Lemma=they NamedEntityTag=O] [Text=next CharacterOffsetBegin=38 CharacterOffsetEnd=42 PartOfSpeech=JJ Lemma=next NamedEntityTag=O] [Text=match CharacterOffsetBegin=43 CharacterOffsetEnd=48 PartOfSpeech=NN Lemma=match NamedEntityTag=O]
如果还想添加事件
识别,则需要使用extrac类重新训练stanford包,该类具有基于事件
的数据集。它可以帮助您对基于事件的输入进行分类
NER是否使用词性标记
默认情况下,我们当前的机型都不使用pos标签。这在很大程度上是错误的
因为Stanford POS标记器使用的功能非常相似
对于那些在NER系统中使用的,因此没有什么好处
使用POS标签
然而,培训使用POS的新车型当然是可能的
标签。培训数据需要有一个额外的列,其中包含
标记信息,然后将tag=X添加到map参数中
选中-无API,可无限调用。如果您想坚持使用java,请使用stanford软件包,并根据需要进行定制 如果您熟悉python,请查看
nltk
好的,对于个人
,组织
斯坦福大学将为您的输入查询工作:
Rooney will play for England in their next match
[Text=Rooney CharacterOffsetBegin=0 CharacterOffsetEnd=6 PartOfSpeech=NNP Lemma=Rooney NamedEntityTag=PERSON] [Text=will CharacterOffsetBegin=7 CharacterOffsetEnd=11 PartOfSpeech=MD Lemma=will NamedEntityTag=O] [Text=play CharacterOffsetBegin=12 CharacterOffsetEnd=16 PartOfSpeech=VB Lemma=play NamedEntityTag=O] [Text=for CharacterOffsetBegin=17 CharacterOffsetEnd=20 PartOfSpeech=IN Lemma=for NamedEntityTag=O] [Text=England CharacterOffsetBegin=21 CharacterOffsetEnd=28 PartOfSpeech=NNP Lemma=England NamedEntityTag=LOCATION] [Text=in CharacterOffsetBegin=29 CharacterOffsetEnd=31 PartOfSpeech=IN Lemma=in NamedEntityTag=O] [Text=their CharacterOffsetBegin=32 CharacterOffsetEnd=37 PartOfSpeech=PRP$ Lemma=they NamedEntityTag=O] [Text=next CharacterOffsetBegin=38 CharacterOffsetEnd=42 PartOfSpeech=JJ Lemma=next NamedEntityTag=O] [Text=match CharacterOffsetBegin=43 CharacterOffsetEnd=48 PartOfSpeech=NN Lemma=match NamedEntityTag=O]
如果还想添加事件
识别,则需要使用extrac类重新训练stanford包,该类具有基于事件
的数据集。它可以帮助您对基于事件的输入进行分类
NER是否使用词性标记
默认情况下,我们当前的机型都不使用pos标签。这在很大程度上是错误的
因为Stanford POS标记器使用的功能非常相似
对于那些在NER系统中使用的,因此没有什么好处
使用POS标签
然而,培训使用POS的新车型当然是可能的
标签。培训数据需要有一个额外的列,其中包含
标记信息,然后将tag=X添加到map参数中
检查-Stanford NER和OPENNLP都是开源的,其模型在正式文章/文本中表现良好
但是他们的准确率在推特上显著下降(从正式文本的90%召回率下降到推特的40%。
推特的非正式性质(糟糕的大写字母、拼写、标点符号)、词语、方言和表情符号的不当使用使推特变得更加复杂
此外,tweet上的情绪分析和事件提取显然是其应用领域的一个研究热点。
看看这个:,看看这个twitter NLP和事件提取的演示:
谢谢斯坦福大学的NER和OPENNLP都是开源的,它们的模型在正式的文章/文本中表现良好
但是他们的准确率在推特上显著下降(从正式文本的90%召回率下降到推特的40%。
推特的非正式性质(糟糕的大写字母、拼写、标点符号)、词语、方言和表情符号的不当使用使推特变得更加复杂
在Twitter上进行情绪分析和事件提取是一个很好的解决方案