elasticsearch-spark,Pyspark,Pyspark Sql,elasticsearch Spark" /> elasticsearch-spark,Pyspark,Pyspark Sql,elasticsearch Spark" />

如何通过元数据字段(例如通过_id)过滤从Elasticsearch读取的PySpark SQL数据帧?

如何通过元数据字段(例如通过_id)过滤从Elasticsearch读取的PySpark SQL数据帧?,pyspark,pyspark-sql,elasticsearch-spark,Pyspark,Pyspark Sql,elasticsearch Spark,我正在从Elasticsearch索引中读取PySpark SQL数据帧,读取选项为es.read.metadata=True。我想按元数据字段上的条件筛选数据,但得到一个空结果,尽管应该有结果。有可能得到实际结果吗 当我在数据帧上使用limit时,我确实得到了结果,即使使用了非常大的数字,甚至比数据帧大小还要大 此外,我在使用其他非\u元数据相关字段时也得到了结果 例如: df.where(df.\u metadata.\u score>1.0)。选择(df.\u metadata.\u id

我正在从Elasticsearch索引中读取PySpark SQL数据帧,读取选项为
es.read.metadata=True
。我想按元数据字段上的条件筛选数据,但得到一个空结果,尽管应该有结果。有可能得到实际结果吗

当我在数据帧上使用
limit
时,我确实得到了结果,即使使用了非常大的数字,甚至比数据帧大小还要大

此外,我在使用其他非
\u元数据相关字段时也得到了结果

例如:

df.where(df.\u metadata.\u score>1.0)。选择(df.\u metadata.\u id)。show()
结果为空:

+--------------+
|_metadata[_id]|
+--------------+
+--------------+
但是当使用
限制时

df.limit(1000000)。其中(df.\u元数据.\u分数>1.0)。选择(df.\u元数据.\u id).show()
结果不是空的:

+--------------------+
|      _metadata[_id]|
+--------------------+
|cICqm2gBHl8Vy6RZyu_L|
+--------------------+