Apache spark Spark2日期时间查找高效数据结构_Apache Spark_Spark Streaming_Apache Spark 2.1.1

Apache spark Spark2日期时间查找高效数据结构

apache-spark

Apache spark Spark2日期时间查找高效数据结构,apache-spark,spark-streaming,apache-spark-2.1.1,Apache Spark,Spark Streaming,Apache Spark 2.1.1,我有一个Spark应用程序，其记录包含以下信息：散列-项目的某些唯一标识符位置项目的位置从开始-物品首次出现在现场的日期至-如果仍然存在，则为空；如果项目已停止在该位置，则为日期我只需要问一个问题：日期时间Y时项目X在哪里为这些信息建立索引以进行快速查找的最有效方法是什么？假设我每天有10亿条记录包含项目哈希，我需要用它们的位置来丰富这些记录我的简单方法是如上所述存储记录，通过散列进行分区（尽管可能有1000万条记录），并在散列相同的较大数据源上加入，其中date>From和

我有一个Spark应用程序，其记录包含以下信息：

散列-项目的某些唯一标识符
位置项目的位置
从开始-物品首次出现在现场的日期
至-如果仍然存在，则为空；如果项目已停止在该位置，则为日期

我只需要问一个问题：

日期时间Y时项目X在哪里

为这些信息建立索引以进行快速查找的最有效方法是什么？假设我每天有10亿条记录包含项目哈希，我需要用它们的位置来丰富这些记录

我的简单方法是如上所述存储记录，通过散列进行分区（尽管可能有1000万条记录），并在散列相同的较大数据源上加入，其中date>From和date

关于如何以更好、更高效的方式存储这些数据，有什么建议吗？

按1亿条记录进行分区并不好