Nlp tweet文本处理工具

Nlp tweet文本处理工具,nlp,entity,text-processing,sentiment-analysis,named-entity-recognition,Nlp,Entity,Text Processing,Sentiment Analysis,Named Entity Recognition,我每天收集数百万条与体育相关的推文。我想处理那些推文中的文本。我想识别实体,找到句子的情感,找到那些推文中的事件 实体确认: 例如: “鲁尼将在下一场比赛中代表英格兰出战” 从这条推文中,我想认出个人实体“鲁尼”和地方实体“英格兰” 情绪分析: 我想找出一句话的感情。比如说 切尔西踢了他们有史以来最糟糕的比赛 罗纳尔多进了一个漂亮的球 第一个应标记为“否定”句,后一个应标记为“肯定” 事件识别: 我想从推特上找到“进球事件”。像“梅西上半场进了一球”和“杰拉尔德进了一个精彩的球”这样的句子应该标

我每天收集数百万条与体育相关的推文。我想处理那些推文中的文本。我想识别实体,找到句子的情感,找到那些推文中的事件

实体确认:

例如: “鲁尼将在下一场比赛中代表英格兰出战”

从这条推文中,我想认出个人实体“鲁尼”和地方实体“英格兰”

情绪分析:

我想找出一句话的感情。比如说

  • 切尔西踢了他们有史以来最糟糕的比赛
  • 罗纳尔多进了一个漂亮的球
  • 第一个应标记为“否定”句,后一个应标记为“肯定”

    事件识别:

    我想从推特上找到“进球事件”。像“梅西上半场进了一球”和“杰拉尔德进了一个精彩的球”这样的句子应该标记为“进球事件”

    我知道实体识别和情绪分析工具可用,我需要编写事件识别规则。我见过很多工具,比如斯坦福大学的NER,
    炼金术api
    开放加莱
    意指云api
    灵管
    伊利诺伊州
    等等。。 我真的很困惑应该选择哪种工具?有没有不受每日费率限制的免费工具?我想每天处理数百万条推文,
    java
    是我更喜欢的语言


    谢谢

    考虑到您首选的语言是Java,我强烈建议您从斯坦福NLP项目开始。你的大部分基本需求,如清洁、分块、清洁,都可以在此基础上完成

    继续进行情绪分析,你可以使用简单的分类器,比如朴素贝叶斯,然后增加复杂性。更多

    对于事件提取,您可以使用语言学方法来识别动词及其与本体的关联


    请记住,这只是让您开始学习,并不是一个广泛的答案。

    考虑到您的首选语言是Java,我强烈建议您从斯坦福NLP项目开始。你的大部分基本需求,如清洁、分块、清洁,都可以在此基础上完成

    继续进行情绪分析,你可以使用简单的分类器,比如朴素贝叶斯,然后增加复杂性。更多

    对于事件提取,您可以使用语言学方法来识别动词及其与本体的关联


    请记住,这只是一个开始,并不是一个广泛的答案。

    对于NER,您还可以使用它作为门管道,这样您就可以使用Java中的门API。

    对于NER,您还可以使用它作为门管道,这样您就可以使用Java中的门API。

    没有可以无限调用的API。如果您想坚持使用java,请使用stanford软件包,并根据需要进行定制

    如果您熟悉python,请查看
    nltk

    好的,对于
    个人
    组织
    斯坦福大学将为您的输入查询工作:

    Rooney will play for England in their next match
    [Text=Rooney CharacterOffsetBegin=0 CharacterOffsetEnd=6 PartOfSpeech=NNP Lemma=Rooney NamedEntityTag=PERSON] [Text=will CharacterOffsetBegin=7 CharacterOffsetEnd=11 PartOfSpeech=MD Lemma=will NamedEntityTag=O] [Text=play CharacterOffsetBegin=12 CharacterOffsetEnd=16 PartOfSpeech=VB Lemma=play NamedEntityTag=O] [Text=for CharacterOffsetBegin=17 CharacterOffsetEnd=20 PartOfSpeech=IN Lemma=for NamedEntityTag=O] [Text=England CharacterOffsetBegin=21 CharacterOffsetEnd=28 PartOfSpeech=NNP Lemma=England NamedEntityTag=LOCATION] [Text=in CharacterOffsetBegin=29 CharacterOffsetEnd=31 PartOfSpeech=IN Lemma=in NamedEntityTag=O] [Text=their CharacterOffsetBegin=32 CharacterOffsetEnd=37 PartOfSpeech=PRP$ Lemma=they NamedEntityTag=O] [Text=next CharacterOffsetBegin=38 CharacterOffsetEnd=42 PartOfSpeech=JJ Lemma=next NamedEntityTag=O] [Text=match CharacterOffsetBegin=43 CharacterOffsetEnd=48 PartOfSpeech=NN Lemma=match NamedEntityTag=O]
    
    如果还想添加
    事件
    识别,则需要使用extrac类重新训练stanford包,该类具有基于
    事件
    的数据集。它可以帮助您对基于事件的输入进行分类

    NER是否使用词性标记

    默认情况下,我们当前的机型都不使用pos标签。这在很大程度上是错误的 因为Stanford POS标记器使用的功能非常相似 对于那些在NER系统中使用的,因此没有什么好处 使用POS标签

    然而,培训使用POS的新车型当然是可能的 标签。培训数据需要有一个额外的列,其中包含 标记信息,然后将tag=X添加到map参数中


    选中-

    无API,可无限调用。如果您想坚持使用java,请使用stanford软件包,并根据需要进行定制

    如果您熟悉python,请查看
    nltk

    好的,对于
    个人
    组织
    斯坦福大学将为您的输入查询工作:

    Rooney will play for England in their next match
    [Text=Rooney CharacterOffsetBegin=0 CharacterOffsetEnd=6 PartOfSpeech=NNP Lemma=Rooney NamedEntityTag=PERSON] [Text=will CharacterOffsetBegin=7 CharacterOffsetEnd=11 PartOfSpeech=MD Lemma=will NamedEntityTag=O] [Text=play CharacterOffsetBegin=12 CharacterOffsetEnd=16 PartOfSpeech=VB Lemma=play NamedEntityTag=O] [Text=for CharacterOffsetBegin=17 CharacterOffsetEnd=20 PartOfSpeech=IN Lemma=for NamedEntityTag=O] [Text=England CharacterOffsetBegin=21 CharacterOffsetEnd=28 PartOfSpeech=NNP Lemma=England NamedEntityTag=LOCATION] [Text=in CharacterOffsetBegin=29 CharacterOffsetEnd=31 PartOfSpeech=IN Lemma=in NamedEntityTag=O] [Text=their CharacterOffsetBegin=32 CharacterOffsetEnd=37 PartOfSpeech=PRP$ Lemma=they NamedEntityTag=O] [Text=next CharacterOffsetBegin=38 CharacterOffsetEnd=42 PartOfSpeech=JJ Lemma=next NamedEntityTag=O] [Text=match CharacterOffsetBegin=43 CharacterOffsetEnd=48 PartOfSpeech=NN Lemma=match NamedEntityTag=O]
    
    如果还想添加
    事件
    识别,则需要使用extrac类重新训练stanford包,该类具有基于
    事件
    的数据集。它可以帮助您对基于事件的输入进行分类

    NER是否使用词性标记

    默认情况下,我们当前的机型都不使用pos标签。这在很大程度上是错误的 因为Stanford POS标记器使用的功能非常相似 对于那些在NER系统中使用的,因此没有什么好处 使用POS标签

    然而,培训使用POS的新车型当然是可能的 标签。培训数据需要有一个额外的列,其中包含 标记信息,然后将tag=X添加到map参数中


    检查-

    Stanford NER和OPENNLP都是开源的,其模型在正式文章/文本中表现良好
    但是他们的准确率在推特上显著下降(从正式文本的90%召回率下降到推特的40%。
    推特的非正式性质(糟糕的大写字母、拼写、标点符号)、词语、方言和表情符号的不当使用使推特变得更加复杂
    此外,tweet上的情绪分析和事件提取显然是其应用领域的一个研究热点。

    看看这个:,看看这个twitter NLP和事件提取的演示:

    谢谢

    斯坦福大学的NER和OPENNLP都是开源的,它们的模型在正式的文章/文本中表现良好
    但是他们的准确率在推特上显著下降(从正式文本的90%召回率下降到推特的40%。
    推特的非正式性质(糟糕的大写字母、拼写、标点符号)、词语、方言和表情符号的不当使用使推特变得更加复杂
    在Twitter上进行情绪分析和事件提取是一个很好的解决方案