Hadoop 猪:给推特赋予价值

Hadoop 猪:给推特赋予价值,hadoop,twitter,apache-pig,hiveql,Hadoop,Twitter,Apache Pig,Hiveql,我的目标是用拉丁语给推特打分。 我有3个单词列表可以用作词汇表(积极单词、消极单词和无关单词)。 我想用这本字典给推特列表打分。我必须分析推特上的每个字。 我必须通过搜索“法国的增长”来评价推特 例如: 列出积极的词:{好的,积极的,伟大的,…} 列出负面词汇:{糟糕,衰退,…} 列出不相关的词:{德国,西班牙,奥朗德,奥巴马,} 一条推特:“法国的增长又回来了,西班牙也回来了”=>分析每个词: 增长=>正,法国=>正,再次=>正,西班牙=>不相关 因此,这条推特是积极和相关的,因为积极+积

我的目标是用拉丁语给推特打分。 我有3个单词列表可以用作词汇表(积极单词、消极单词和无关单词)。 我想用这本字典给推特列表打分。我必须分析推特上的每个字。 我必须通过搜索“法国的增长”来评价推特

例如:

  • 列出积极的词:{好的,积极的,伟大的,…}
  • 列出负面词汇:{糟糕,衰退,…}
  • 列出不相关的词:{德国,西班牙,奥朗德,奥巴马,}
一条推特:“法国的增长又回来了,西班牙也回来了”=>分析每个词: 增长=>正,法国=>正,再次=>正,西班牙=>不相关 因此,这条推特是积极和相关的,因为积极+积极+积极+不相关=积极

我试着制作这个脚本。。。
抱歉用英语

您的脚本应该是什么样子的:

  • 从推特流中提取推特ID和文本字段

  • 在ID和文本中添加另一个字段,方法是使用flatte和tokenize-将文本标记为单词(您可以使用简单的空白标记器或更高级的NLTK,并在新记录中打断每个单词)

  • 将(2)的输出与您的字典结合起来,将推文中的每个单词标记为正、负或中性/不相关-您可能希望使用带符号的整数值,而不是正/负,这样可以更容易地将它们相加
  • 根据tweet ID对(3)的结果进行分组
  • 计算每条推文的情绪总和

    TweetsRaw=使用JsonLoader(…)加载“…”

    Tweets=FOREACH…生成TweetID,文本

    TokenizedTweets=FOREACH Tweets生成TweetID、Text、FLATTEN(tokenized(Text))作为单词

    字典=加载“…”为(DictWord:chararray,极性:int)

    标记的单词=按单词连接标记化的单词,按单词连接词典

    groupedtouction=按TwitterID、文本标记的单词组

    结果=FOREACH grouped情感生成展平(group),求和(标有单词极性)作为速率

    转储结果


  • 你的问题是什么?在Xplenty,我们刚刚为索契冬奥会做了一些Twitter分析,包括一个与你描述的类似的天真情绪分析。你遇到了什么困难?在写剧本时如果答案对你有帮助,请点击绿色复选标记将其标记为“接受”。