Apache spark 如何从另一个spark作业（B）查询spark作业（a）中的持久化数据帧_Apache Spark_Spark Streaming

Apache spark 如何从另一个spark作业（B）查询spark作业（a）中的持久化数据帧

apache-spark

Apache spark 如何从另一个spark作业（B）查询spark作业（a）中的持久化数据帧,apache-spark,spark-streaming,Apache Spark,Spark Streaming,有两个spark流媒体作业运行在不同的容器上——让我们称它们为教师作业和学生作业。两人都在读两个不同的卡夫卡主题。当学生消息进入student spark作业时，我需要“查询”教师作业的持久化数据，以检索与该学生关联的教师（在本例中，该学生只有一名教师，但一名教师可以有多名学生）。如何在教师作业中保留一个键值对（或教师数据框），然后在学生作业中检索/查找该教师，以便在知道该教师的情况下处理该学生？我可以在一个作业中使用persist（）而在另一个作业中使用unpersist（）吗？从证据来看，使

有两个spark流媒体作业运行在不同的容器上——让我们称它们为教师作业和学生作业。两人都在读两个不同的卡夫卡主题。当学生消息进入student spark作业时，我需要“查询”教师作业的持久化数据，以检索与该学生关联的教师（在本例中，该学生只有一名教师，但一名教师可以有多名学生）。如何在教师作业中保留一个键值对（或教师数据框），然后在学生作业中检索/查找该教师，以便在知道该教师的情况下处理该学生？我可以在一个作业中使用persist（）而在另一个作业中使用unpersist（）吗？

从证据来看，使用流-流连接的Spark结构化流与Kafka集成是一种可行的方法

很难理解你的散文。什么是流，什么是静态？关系stu-tch从何而来，对于流还是静态？试着用一个例子来重新组织这个问题，散文和提提的内容不同步，学生和老师的信息源源不断。学生作业实时获取学生消息流，教师作业实时获取消息流，但彼此异步。教师消息的有效负载中列出了一名学生。学生负载未在其负载中列出其教师。我需要为那个学生找老师——在学生火花流媒体工作的背景下。有趣的概念，我似乎没有遵循。如何解释持久化数据帧。您可以使用流连接。那不是更明智吗？我会调查的。我们已经建立并运行了大部分架构，我的任务是在学生工作中将学生和教师联系在一起。我是spark的新手，不知道从另一份spark工作中获取数据的选择是什么。如果spark有一种机制可以轻松完成我所需要的工作，我宁愿不必为了查找而建立一个中间数据库。我添加了一个图表来帮助澄清。Spark Kafka与结构化流媒体的集成