Apache Twitter的情感分析

Apache Twitter的情感分析,apache,flume-twitter,Apache,Flume Twitter,先生,我想用ApacheHive和flume对twitter数据进行情感分析。现在我有了一个twitter帐户,并且我已经设置了conf文件。但是问题是数据的格式。它没有加载到hive中。请帮助我,我在其中工作了一个月。我认为您可以配置Flume代理从Twitter获取数据。您的问题是数据的格式 Apache Flume提供了几种水槽类型。其中两个对您的需求很有用 HDFS接收器 蜂巢水槽 使用HDFS接收器: 使用TwitterSource和HDFS接收器配置Flume代理。 提供您的Twit

先生,我想用ApacheHive和flume对twitter数据进行情感分析。现在我有了一个twitter帐户,并且我已经设置了conf文件。但是问题是数据的格式。它没有加载到hive中。请帮助我,我在其中工作了一个月。

我认为您可以配置Flume代理从Twitter获取数据。您的问题是数据的格式

Apache Flume提供了几种水槽类型。其中两个对您的需求很有用

HDFS接收器 蜂巢水槽 使用HDFS接收器:

使用TwitterSource和HDFS接收器配置Flume代理。 提供您的Twitter OAuth详细信息,即Flume代理的密钥。 完成代理配置后,启动它。 该代理将从Twitter获取数据,即tweets并将其存储 在HDFS路径中作为JSON文档。 一旦数据在HDFS中可用,就可以使用JSON SerDe with location子句创建配置单元外部表。 JSON SerDe代码链接:

使用配置单元接收器:

Flume允许使用配置单元接收器将数据写入配置单元表。因此,我们需要按如下方式配置Flume代理:

TwiiterSource --> Channel --> Hive Sink 使用TwitterSource和配置单元接收器配置Flume代理。 提供您的Twitter OAuth详细信息,即Flume代理的密钥。 完成代理配置后,启动它。 该代理将从Twitter获取数据,即tweets并将其存储 在蜂箱的桌子上。这使用JSON SerDe。 配置单元接收器具有名为serializer的参数,用于告知SerDe的类型

支持的序列化程序:分隔符和JSON

因此,请使用上述任一解决方案配置Flume代理

请使用此文档链接获取有关接收器参数HDFS+Hive的更多详细信息


您可以尝试添加这个jar文件

hive-serdes-1.0-SNAPSHOT.jar
您可以访问下面的博客,获取使用Hive执行情绪分析的完整参考


因此,用户可以为您提供帮助,尽量提供详细信息,以及以前尝试的示例以及失败的原因。感谢先生的回复,tweets存储在hdfs中。当我创建外部表和加载数据时,它会显示检查文件格式的错误。我正在使用Hive Snapshot 1.6 Serde jar。