Apache spark spark dataframe.filter（…）.select（…）是否使用顺序搜索或哈希算法？_Apache Spark_Apache Spark Sql_Spark Dataframe

Apache spark spark dataframe.filter（…）.select（…）是否使用顺序搜索或哈希算法？

apache-spark

Apache spark spark dataframe.filter（…）.select（…）是否使用顺序搜索或哈希算法？,apache-spark,apache-spark-sql,spark-dataframe,Apache Spark,Apache Spark Sql,Spark Dataframe,场景：我创建了一个查找表（输入是大约50MB的JSON文件）并缓存在内存中，以便在处理输入文件的每一行（每个输入文件中大约10000个数据点）时可以查找它问题：spark中的dataframe.filter（…）.select（…）方法是否执行顺序搜索或哈希搜索？在这种情况下，我们如何更快地检索数据？另外，我想知道是否需要在它上面创建一个索引或创建一个哈希表（如果需要，我不知道如何为数据帧创建）据我所知，他们两个都不是。在DataFrames中选择仅投影选定的列，它不选择特定的记录，因此不需

场景：我创建了一个查找表（输入是大约50MB的JSON文件）并缓存在内存中，以便在处理输入文件的每一行（每个输入文件中大约10000个数据点）时可以查找它

问题：spark中的dataframe.filter（…）.select（…）方法是否执行顺序搜索或哈希搜索？在这种情况下，我们如何更快地检索数据？另外，我想知道是否需要在它上面创建一个索引或创建一个哈希表（如果需要，我不知道如何为数据帧创建）

据我所知，他们两个都不是。在DataFrames中选择仅投影选定的列，它不选择特定的记录，因此不需要搜索算法

要像在标准SQL中使用WHERE子句一样获取特定记录，必须

select（）

您感兴趣的列，然后使用

filter（）

方法对它们进行筛选。

My bad。我没有提到过滤器的使用。我已经更新了问题。我已经筛选了行并选择了所需的列。我相信它是按行计算的。然而，我想作为散列搜索快速搜索。那么，有没有可能创建它的索引或哈希表呢？