Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-apps-script/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
我可以使用Cassandra表名作为日期分割器吗?_Cassandra_Apache Spark_Datastax Enterprise - Fatal编程技术网

我可以使用Cassandra表名作为日期分割器吗?

我可以使用Cassandra表名作为日期分割器吗?,cassandra,apache-spark,datastax-enterprise,Cassandra,Apache Spark,Datastax Enterprise,我正在努力解决Cassandra/Spark数据建模问题。我将用户数据存储在Cassandra中,该数据按照web会话的会话id进行分区。每天,我都想运行一个Spark作业,分析当天的用户会话。我希望SCAP只考虑当前一天的数据,就像当我尝试为所有会话数据运行SCAPLE作业(目前我们在一个表中存储会话数据的60天),并且为当前的一天进行过滤时,需要很长时间。之所以选择用户id分区,是因为它还可以查询单个用户会话 为了使Spark的数据尽可能小,我考虑创建60个表,在接下来的60天中,每个表对应

我正在努力解决Cassandra/Spark数据建模问题。我将用户数据存储在Cassandra中,该数据按照web会话的会话id进行分区。每天,我都想运行一个Spark作业,分析当天的用户会话。我希望SCAP只考虑当前一天的数据,就像当我尝试为所有会话数据运行SCAPLE作业(目前我们在一个表中存储会话数据的60天),并且为当前的一天进行过滤时,需要很长时间。之所以选择用户id分区,是因为它还可以查询单个用户会话


为了使Spark的数据尽可能小,我考虑创建60个表,在接下来的60天中,每个表对应一天,并且只写入对应于每天的表。为了处理跨天会话,我将同时写入前一天的表和当前一天的表,其窗口等于我们分配给用户会话的最大时间(8分钟)。然后我可以移除Spark中的DUP。这听起来像是一个明智的计划吗?我在这里是不是用错了卡桑德拉或斯帕克?谢谢你的建议

您的表模式是什么?分区键中是否只包含会话id?为什么不将会话id和日期的组合作为分区键?通过这种方式,您只能从cassandra加载当天的数据。您的表模式是什么?分区键中是否只包含会话id?为什么不将会话id和日期的组合作为分区键?通过这种方式,您只能从cassandra加载当天的数据。您的表模式是什么?分区键中是否只包含会话id?为什么不将会话id和日期的组合作为分区键?通过这种方式,您只能从cassandra加载当天的数据。