Apache spark 如何每5分钟刷新流媒体应用中的元数据数据帧?
我正在使用spark sql 2.4.x版本,datastax spark cassandra连接器用于cassandra-3.x版本。还有卡夫卡 我有一个来自卡夫卡主题的一些财务数据的场景,比如financeDf 我需要重新映射从cassandra表加载的metaDataDf=//中的一些字段,以便查找。 但是这个cassandra表(metaDataDf)可以每小时更新一次 在spark sql Structured流媒体应用程序中,我应该如何每一小时从cassandra表中获取最新数据 我不想为我从主题(即financeDf)收到的每条记录加载此数据metaDataDfApache spark 如何每5分钟刷新流媒体应用中的元数据数据帧?,apache-spark,cassandra,apache-spark-sql,spark-structured-streaming,Apache Spark,Cassandra,Apache Spark Sql,Spark Structured Streaming,我正在使用spark sql 2.4.x版本,datastax spark cassandra连接器用于cassandra-3.x版本。还有卡夫卡 我有一个来自卡夫卡主题的一些财务数据的场景,比如financeDf 我需要重新映射从cassandra表加载的metaDataDf=//中的一些字段,以便查找。 但是这个cassandra表(metaDataDf)可以每小时更新一次 在spark sql Structured流媒体应用程序中,我应该如何每一小时从cassandra表中获取最新数据 我
这应该如何做/处理?请提供任何帮助。你有更多的选择如何做类似的事情,基本上当你在谷歌上搜索时,试着集中精力 .已经有一些关于堆栈溢出的答案 您面临的主要问题是数据刷新。这取决于您的需要,以及您是否可以牺牲一些精度,分别取决于您是否需要在更改Cassandra后直接重新映射。一些可能的解决办法:
当然,还有其他可能性,一切都取决于您的偏好。您是否考虑过
数据集。加入流式数据集(kafka)和批处理数据集(cassandra)?选项1取决于外部系统,或者我们可以将其称为cassandra的编写器。我不确定它是否在你们手中,但基本上你们可以在卡夫卡中引入新的主题,比如XYZSTATICDATA更新。正在更新此Cassandra的外部系统可以将事件发布到Kafka,只要它更改Cassandra,您就会立即读取它并更新缓存。当然,我不确定《卡桑德拉》的作者是否在你们手中,你们是否可以在卡夫卡中加入触发事件。