elasticsearch 正在将elasticsearch索引数据加载到pyspark rdd:错误,elasticsearch,pyspark,elasticsearch,Pyspark" /> elasticsearch 正在将elasticsearch索引数据加载到pyspark rdd:错误,elasticsearch,pyspark,elasticsearch,Pyspark" />

elasticsearch 正在将elasticsearch索引数据加载到pyspark rdd:错误

elasticsearch 正在将elasticsearch索引数据加载到pyspark rdd:错误,elasticsearch,pyspark,elasticsearch,Pyspark,我正在尝试使用以下代码将elasticsearch索引数据加载到pyspark rdd 版本:elasticsearch:2.3.4 火花:2.0 ElasticSearchHadoop(jar):2.3.4 运行Pypark: bin\pyspark --master local[2] --jars jars\elasticsearch-hadoop-2.3.4.jar 获取索引数据: es_read_conf = {"es.resource" : "index/type"} es_rd

我正在尝试使用以下代码将elasticsearch索引数据加载到pyspark rdd

版本:elasticsearch:2.3.4 火花:2.0 ElasticSearchHadoop(jar):2.3.4

运行Pypark:

bin\pyspark --master local[2] --jars jars\elasticsearch-hadoop-2.3.4.jar

获取索引数据:

es_read_conf = {"es.resource" : "index/type"}

es_rdd = sc.newAPIHadoopRDD(
    inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",
    keyClass="org.apache.hadoop.io.NullWritable", 
    valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable", 
    conf= es_read_conf)
代码正在运行,但返回空rdd,消息如下:

16/08/30 20:42:20 WARN EsInputFormat: Cannot determine task id...

我在这里遗漏了什么吗?

最新版本的elasticsearch 2.4.0有效。但这里的问题是,只有文档id返回空字典(不返回索引内容)。有什么建议吗?在最新版本的elasticsearch 2.4.0中,它起到了作用。但这里的问题是,只有文档id返回空字典(不返回索引内容)。有什么建议吗?