Hadoop 如何从twitter读取flume生成的数据文件

Hadoop 如何从twitter读取flume生成的数据文件,hadoop,twitter,flume,Hadoop,Twitter,Flume,我在HDFS上使用flume生成了几个twitter数据日志文件,日志文件的实际格式是什么?我希望数据是json格式的。但是看起来 . 有人能帮我读一下这些数据吗?或者我这样做的方式有什么问题在配置单元中使用with serde创建一个表,然后将twitter日志数据加载到配置单元表中。然后分析它。从这个链接下载文件(hive-serdes-1.0-SNAPSHOT.jar) 然后将此文件放入$HIVE\u HOME/lib中 将罐子添加到蜂箱壳中 hive> ADD JAR file:/

我在HDFS上使用flume生成了几个twitter数据日志文件,日志文件的实际格式是什么?我希望数据是json格式的。但是看起来
. 有人能帮我读一下这些数据吗?或者我这样做的方式有什么问题

在配置单元中使用with serde创建一个表,然后将twitter日志数据加载到配置单元表中。然后分析它。

从这个链接下载文件(hive-serdes-1.0-SNAPSHOT.jar)

然后将此文件放入$HIVE\u HOME/lib中
将罐子添加到蜂箱壳中

hive> ADD JAR file:///home/hadoop/work/hive-0.10.0/lib/hive-serdes-1.0-SNAPSHOT.jar
在配置单元中创建表

hive> CREATE TABLE tweets (
id BIGINT,
created_at STRING,
source STRING,
favorited BOOLEAN,
retweeted_status STRUCT<
text:STRING,
user:STRUCT<screen_name:STRING,name:STRING>,
retweet_count:INT>,
entities STRUCT<
urls:ARRAY<STRUCT<expanded_url:STRING>>,
user_mentions:ARRAY<STRUCT<screen_name:STRING,name:STRING>>,
hashtags:ARRAY<STRUCT<text:STRING>>>,
text STRING,
user STRUCT<
screen_name:STRING,
name:STRING,
friends_count:INT,
followers_count:INT,
statuses_count:INT,
verified:BOOLEAN,
utc_offset:INT,
time_zone:STRING>,
in_reply_to_screen_name STRING
) 
ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe';
现在从这个表中分析twitter数据

hive> select id,text,user from tweets;

您完成了,但它是反序列化的数据,现在从配置单元表序列化。

您看到我得到的数据的图像了吗?真的是这样吗?非常感谢,这就是我看到的。
hive> select id,text,user from tweets;