Apache spark spark dataframe.filter(…).select(…)是否使用顺序搜索或哈希算法?

Apache spark spark dataframe.filter(…).select(…)是否使用顺序搜索或哈希算法?,apache-spark,apache-spark-sql,spark-dataframe,Apache Spark,Apache Spark Sql,Spark Dataframe,场景:我创建了一个查找表(输入是大约50MB的JSON文件)并缓存在内存中,以便在处理输入文件的每一行(每个输入文件中大约10000个数据点)时可以查找它 问题:spark中的dataframe.filter(…).select(…)方法是否执行顺序搜索或哈希搜索?在这种情况下,我们如何更快地检索数据?另外,我想知道是否需要在它上面创建一个索引或创建一个哈希表(如果需要,我不知道如何为数据帧创建) 据我所知,他们两个都不是。在DataFrames中选择仅投影选定的列,它不选择特定的记录,因此不需

场景:我创建了一个查找表(输入是大约50MB的JSON文件)并缓存在内存中,以便在处理输入文件的每一行(每个输入文件中大约10000个数据点)时可以查找它


问题:spark中的dataframe.filter(…).select(…)方法是否执行顺序搜索或哈希搜索?在这种情况下,我们如何更快地检索数据?另外,我想知道是否需要在它上面创建一个索引或创建一个哈希表(如果需要,我不知道如何为数据帧创建)

据我所知,他们两个都不是。在DataFrames中选择仅投影选定的列,它不选择特定的记录,因此不需要搜索算法


要像在标准SQL中使用WHERE子句一样获取特定记录,必须
select()
您感兴趣的列,然后使用
filter()
方法对它们进行筛选。

My bad。我没有提到过滤器的使用。我已经更新了问题。我已经筛选了行并选择了所需的列。我相信它是按行计算的。然而,我想作为散列搜索快速搜索。那么,有没有可能创建它的索引或哈希表呢?