在hadoop java中解析json输入

在hadoop java中解析json输入,java,hadoop,Java,Hadoop,我的输入数据是hdfs格式的。我只是想做字数统计,但有点不同。 数据是json格式的。 因此,每行数据都是: {"author":"foo", "text": "hello"} {"author":"foo123", "text": "hello world"} {"author":"foo234", "text": "hello this world"} 我只想做“文本”部分的字数统计 我该怎么做 到目前为止,我尝试了以下变体: public static class TokenCounte

我的输入数据是hdfs格式的。我只是想做字数统计,但有点不同。 数据是json格式的。 因此,每行数据都是:

{"author":"foo", "text": "hello"}
{"author":"foo123", "text": "hello world"}
{"author":"foo234", "text": "hello this world"}
我只想做“文本”部分的字数统计

我该怎么做

到目前为止,我尝试了以下变体:

public static class TokenCounterMapper
    extends Mapper<Object, Text, Text, IntWritable> {
    private static final Log log = LogFactory.getLog(TokenCounterMapper.class);
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context)
        throws IOException, InterruptedException {
        try {

            JSONObject jsn = new JSONObject(value.toString());

            //StringTokenizer itr = new StringTokenizer(value.toString());
            String text = (String) jsn.get("text");
            log.info("Logging data");
            log.info(text);
            StringTokenizer itr = new StringTokenizer(text);
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        } catch (JSONException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

似乎您忘了将JSon库嵌入Hadoop作业jar中。 您可以在那里查看如何使用该库构建工作:

有几种方法可以将外部JAR与map reduce代码一起使用:

  • 将引用的JAR包含在可提交JAR的lib子目录中:作业将从该lib子目录将JAR解压缩到相应TaskTracker节点上的jobcache中,并将任务指向该目录,以使JAR可供代码使用。如果罐子很小,经常更换,并且是特定于工作的,这是首选方法。这是他在回答中提出的

  • 在集群节点上安装JAR。最简单的方法是将JAR放入
    $HADOOP_HOME/lib
    目录中,因为当HADOOP守护进程启动时,该目录中的所有内容都包括在内。请注意,要使其有效,需要启动-停止

  • TASKTRACKER将使用外部JAR,因此您可以通过修改
    HADOOP env.sh
    配置文件中的
    HADOOP\u TASKTRACKER\u OPTS
    选项来提供外部JAR,并使其指向JAR。jar需要位于运行task tracker的所有节点上的同一路径上

  • 在hadoop JAR…命令的“
    -libjars
    ”命令行选项中包含JAR。jar将被放置在分布式缓存中,并可供作业的所有任务尝试使用。您的map reduce代码必须使用
    GenericOptionsParser
    。欲了解更多详情,请阅读

  • 比较:

    • 1是一种遗留方法,但不鼓励使用,因为它会带来很大的负性能成本。
    • 2和#3适用于私有集群,但这是一种相当蹩脚的做法,因为你不能指望最终用户会这么做。
    • 4是最推荐的选项。

    阅读Cloudera的文章。)

    他现在发布了代码,没有重复的代码,所以不要像一个五岁的孩子那样否决一切猪是个更好的选择。我也不知道为什么有些人会对否决投票感到非常高兴。如果你真的想这么做,请提供一些合理的理由。这就是人们迁移到其他地方的原因,比如库拉。但是我使用eclipse作为环境。。我能够在本地计算机上成功创建jar文件,但是我正在将这个jar sshing到我的集群??您在Eclispe中运行的代码可能会工作,因为您的类路径配置,但是您仍然需要将库嵌入部署在Hadoop集群上的最后一个作业中,或者在运行时找不到该类(因为它们实际上并不存在)。感谢您的洞察力..我添加了这个-D mapred.child.env=“LD_LIBRARY_PATH=/examples/wordcount/json-20090211.jar”,但仍然存在相同的错误:(当我在做一些Hadoop工作时,我发现了更容易使它工作的方法(如果您的库不是太大的话)是将它们直接嵌入JAR中,正如我之前提供的文章中所解释的。如果库太大,则根据Hadoop架构,通常有一个缓存系统允许您在其中加载库,但我从未使用过。
    Error: java.lang.ClassNotFoundException: org.json.JSONException
        at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
        at java.security.AccessController.doPrivileged(Native Method)
        at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
        at java.lang.Class.forName0(Native Method)
        at java.lang.Class.forName(Class.java:247)
        at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:820)
        at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:865)
        at org.apache.hadoop.mapreduce.JobContext.getMapperClass(JobContext.java:199)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:719)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1093)
        at org.apache.hadoop.mapred.Child.main(Child.java:249)