elasticsearch 正在将elasticsearch索引数据加载到pyspark rdd:错误
我正在尝试使用以下代码将elasticsearch索引数据加载到pyspark rdd 版本:elasticsearch:2.3.4 火花:2.0 ElasticSearchHadoop(jar):2.3.4 运行Pypark:elasticsearch 正在将elasticsearch索引数据加载到pyspark rdd:错误,elasticsearch,pyspark,elasticsearch,Pyspark,我正在尝试使用以下代码将elasticsearch索引数据加载到pyspark rdd 版本:elasticsearch:2.3.4 火花:2.0 ElasticSearchHadoop(jar):2.3.4 运行Pypark: bin\pyspark --master local[2] --jars jars\elasticsearch-hadoop-2.3.4.jar 获取索引数据: es_read_conf = {"es.resource" : "index/type"} es_rd
bin\pyspark --master local[2] --jars jars\elasticsearch-hadoop-2.3.4.jar
获取索引数据:
es_read_conf = {"es.resource" : "index/type"}
es_rdd = sc.newAPIHadoopRDD(
inputFormatClass="org.elasticsearch.hadoop.mr.EsInputFormat",
keyClass="org.apache.hadoop.io.NullWritable",
valueClass="org.elasticsearch.hadoop.mr.LinkedMapWritable",
conf= es_read_conf)
代码正在运行,但返回空rdd,消息如下:
16/08/30 20:42:20 WARN EsInputFormat: Cannot determine task id...
我在这里遗漏了什么吗?最新版本的elasticsearch 2.4.0有效。但这里的问题是,只有文档id返回空字典(不返回索引内容)。有什么建议吗?在最新版本的elasticsearch 2.4.0中,它起到了作用。但这里的问题是,只有文档id返回空字典(不返回索引内容)。有什么建议吗?