Apache spark Spark2日期时间查找高效数据结构
我有一个Spark应用程序,其记录包含以下信息:Apache spark Spark2日期时间查找高效数据结构,apache-spark,spark-streaming,apache-spark-2.1.1,Apache Spark,Spark Streaming,Apache Spark 2.1.1,我有一个Spark应用程序,其记录包含以下信息: 散列-项目的某些唯一标识符 位置项目的位置 从开始-物品首次出现在现场的日期 至-如果仍然存在,则为空;如果项目已停止在该位置,则为日期 我只需要问一个问题: 日期时间Y时项目X在哪里 为这些信息建立索引以进行快速查找的最有效方法是什么?假设我每天有10亿条记录包含项目哈希,我需要用它们的位置来丰富这些记录 我的简单方法是如上所述存储记录,通过散列进行分区(尽管可能有1000万条记录),并在散列相同的较大数据源上加入,其中date>From和
- 散列-项目的某些唯一标识符
- 位置项目的位置
- 从开始-物品首次出现在现场的日期
- 至-如果仍然存在,则为空;如果项目已停止在该位置,则为日期
关于如何以更好、更高效的方式存储这些数据,有什么建议吗?按1亿条记录进行分区并不好