如何通过元数据字段（例如通过_id）过滤从Elasticsearch读取的PySpark SQL数据帧？_Pyspark_Pyspark Sql_<img Src="//i.stack.imgur.com/A3TTx.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch Spark

如何通过元数据字段（例如通过_id）过滤从Elasticsearch读取的PySpark SQL数据帧？

pyspark

如何通过元数据字段（例如通过_id）过滤从Elasticsearch读取的PySpark SQL数据帧？,pyspark,pyspark-sql,elasticsearch-spark,Pyspark,Pyspark Sql,elasticsearch Spark,我正在从Elasticsearch索引中读取PySpark SQL数据帧，读取选项为es.read.metadata=True。我想按元数据字段上的条件筛选数据，但得到一个空结果，尽管应该有结果。有可能得到实际结果吗当我在数据帧上使用limit时，我确实得到了结果，即使使用了非常大的数字，甚至比数据帧大小还要大此外，我在使用其他非\u元数据相关字段时也得到了结果例如： df.where（df.\u metadata.\u score>1.0）。选择（df.\u metadata.\u id

我正在从Elasticsearch索引中读取PySpark SQL数据帧，读取选项为

es.read.metadata=True

。我想按元数据字段上的条件筛选数据，但得到一个空结果，尽管应该有结果。有可能得到实际结果吗

当我在数据帧上使用

limit

时，我确实得到了结果，即使使用了非常大的数字，甚至比数据帧大小还要大

此外，我在使用其他非

\u元数据相关字段时也得到了结果
例如：
df.where（df.\u metadata.\u score>1.0）。选择（df.\u metadata.\u id）。show（）

结果为空：
+--------------+
|_metadata[_id]|
+--------------+
+--------------+

但是当使用限制时
：
df.limit（1000000）。其中（df.\u元数据.\u分数>1.0）。选择（df.\u元数据.\u id）.show（）

结果不是空的：
+--------------------+
|      _metadata[_id]|
+--------------------+
|cICqm2gBHl8Vy6RZyu_L|
+--------------------+