Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark2日期时间查找高效数据结构_Apache Spark_Spark Streaming_Apache Spark 2.1.1 - Fatal编程技术网

Apache spark Spark2日期时间查找高效数据结构

Apache spark Spark2日期时间查找高效数据结构,apache-spark,spark-streaming,apache-spark-2.1.1,Apache Spark,Spark Streaming,Apache Spark 2.1.1,我有一个Spark应用程序,其记录包含以下信息: 散列-项目的某些唯一标识符 位置项目的位置 从开始-物品首次出现在现场的日期 至-如果仍然存在,则为空;如果项目已停止在该位置,则为日期 我只需要问一个问题: 日期时间Y时项目X在哪里 为这些信息建立索引以进行快速查找的最有效方法是什么?假设我每天有10亿条记录包含项目哈希,我需要用它们的位置来丰富这些记录 我的简单方法是如上所述存储记录,通过散列进行分区(尽管可能有1000万条记录),并在散列相同的较大数据源上加入,其中date>From和

我有一个Spark应用程序,其记录包含以下信息:

  • 散列-项目的某些唯一标识符
  • 位置项目的位置
  • 开始-物品首次出现在现场的日期
  • -如果仍然存在,则为空;如果项目已停止在该位置,则为日期
我只需要问一个问题:

日期时间Y时项目X在哪里

为这些信息建立索引以进行快速查找的最有效方法是什么?假设我每天有10亿条记录包含项目哈希,我需要用它们的位置来丰富这些记录

我的简单方法是如上所述存储记录,通过散列进行分区(尽管可能有1000万条记录),并在散列相同的较大数据源上加入,其中date>From和date
关于如何以更好、更高效的方式存储这些数据,有什么建议吗?

按1亿条记录进行分区并不好