Apache Twitter的情感分析_Apache_Flume Twitter

Apache Twitter的情感分析

apache

Apache Twitter的情感分析,apache,flume-twitter,Apache,Flume Twitter,先生，我想用ApacheHive和flume对twitter数据进行情感分析。现在我有了一个twitter帐户，并且我已经设置了conf文件。但是问题是数据的格式。它没有加载到hive中。请帮助我，我在其中工作了一个月。我认为您可以配置Flume代理从Twitter获取数据。您的问题是数据的格式 Apache Flume提供了几种水槽类型。其中两个对您的需求很有用 HDFS接收器蜂巢水槽使用HDFS接收器：使用TwitterSource和HDFS接收器配置Flume代理。提供您的Twit

先生，我想用ApacheHive和flume对twitter数据进行情感分析。现在我有了一个twitter帐户，并且我已经设置了conf文件。但是问题是数据的格式。它没有加载到hive中。请帮助我，我在其中工作了一个月。

我认为您可以配置Flume代理从Twitter获取数据。您的问题是数据的格式

Apache Flume提供了几种水槽类型。其中两个对您的需求很有用

HDFS接收器蜂巢水槽使用HDFS接收器：

使用TwitterSource和HDFS接收器配置Flume代理。提供您的Twitter OAuth详细信息，即Flume代理的密钥。完成代理配置后，启动它。该代理将从Twitter获取数据，即tweets并将其存储在HDFS路径中作为JSON文档。一旦数据在HDFS中可用，就可以使用JSON SerDe with location子句创建配置单元外部表。 JSON SerDe代码链接：

使用配置单元接收器：

Flume允许使用配置单元接收器将数据写入配置单元表。因此，我们需要按如下方式配置Flume代理：

TwiiterSource --> Channel --> Hive Sink 使用TwitterSource和配置单元接收器配置Flume代理。提供您的Twitter OAuth详细信息，即Flume代理的密钥。完成代理配置后，启动它。该代理将从Twitter获取数据，即tweets并将其存储在蜂箱的桌子上。这使用JSON SerDe。配置单元接收器具有名为serializer的参数，用于告知SerDe的类型

支持的序列化程序：分隔符和JSON

因此，请使用上述任一解决方案配置Flume代理

请使用此文档链接获取有关接收器参数HDFS+Hive的更多详细信息

您可以尝试添加这个jar文件

hive-serdes-1.0-SNAPSHOT.jar

您可以访问下面的博客，获取使用Hive执行情绪分析的完整参考

因此，用户可以为您提供帮助，尽量提供详细信息，以及以前尝试的示例以及失败的原因。感谢先生的回复，tweets存储在hdfs中。当我创建外部表和加载数据时，它会显示检查文件格式的错误。我正在使用Hive Snapshot 1.6 Serde jar。