Hadoop 猪：给推特赋予价值_Hadoop_Twitter_Apache Pig_Hiveql

Hadoop 猪：给推特赋予价值

hadoop twitter apache-pig

Hadoop 猪：给推特赋予价值,hadoop,twitter,apache-pig,hiveql,Hadoop,Twitter,Apache Pig,Hiveql,我的目标是用拉丁语给推特打分。我有3个单词列表可以用作词汇表（积极单词、消极单词和无关单词）。我想用这本字典给推特列表打分。我必须分析推特上的每个字。我必须通过搜索“法国的增长”来评价推特例如：列出积极的词：{好的，积极的，伟大的，…} 列出负面词汇：{糟糕，衰退，…} 列出不相关的词：{德国，西班牙，奥朗德，奥巴马，} 一条推特：“法国的增长又回来了，西班牙也回来了”=>分析每个词：增长=>正，法国=>正，再次=>正，西班牙=>不相关因此，这条推特是积极和相关的，因为积极+积

我的目标是用拉丁语给推特打分。我有3个单词列表可以用作词汇表（积极单词、消极单词和无关单词）。我想用这本字典给推特列表打分。我必须分析推特上的每个字。我必须通过搜索“法国的增长”来评价推特

例如：

列出积极的词：{好的，积极的，伟大的，…}
列出负面词汇：{糟糕，衰退，…}
列出不相关的词：{德国，西班牙，奥朗德，奥巴马，}

一条推特：“法国的增长又回来了，西班牙也回来了”=>分析每个词：增长=>正，法国=>正，再次=>正，西班牙=>不相关因此，这条推特是积极和相关的，因为积极+积极+积极+不相关=积极

我试着制作这个脚本。。。

抱歉用英语

您的脚本应该是什么样子的：

从推特流中提取推特ID和文本字段

在ID和文本中添加另一个字段，方法是使用flatte和tokenize-将文本标记为单词（您可以使用简单的空白标记器或更高级的NLTK，并在新记录中打断每个单词）

将（2）的输出与您的字典结合起来，将推文中的每个单词标记为正、负或中性/不相关-您可能希望使用带符号的整数值，而不是正/负，这样可以更容易地将它们相加

根据tweet ID对（3）的结果进行分组

计算每条推文的情绪总和

TweetsRaw=使用JsonLoader（…）加载“…”

Tweets=FOREACH…生成TweetID，文本

TokenizedTweets=FOREACH Tweets生成TweetID、Text、FLATTEN（tokenized（Text））作为单词

字典=加载“…”为（DictWord:chararray，极性：int）

标记的单词=按单词连接标记化的单词，按单词连接词典

groupedtouction=按TwitterID、文本标记的单词组

结果=FOREACH grouped情感生成展平（group），求和（标有单词极性）作为速率

转储结果

你的问题是什么？在Xplenty，我们刚刚为索契冬奥会做了一些Twitter分析，包括一个与你描述的类似的天真情绪分析。你遇到了什么困难？在写剧本时如果答案对你有帮助，请点击绿色复选标记将其标记为“接受”。