Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/extjs/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何从另一个spark作业(B)查询spark作业(a)中的持久化数据帧_Apache Spark_Spark Streaming - Fatal编程技术网

Apache spark 如何从另一个spark作业(B)查询spark作业(a)中的持久化数据帧

Apache spark 如何从另一个spark作业(B)查询spark作业(a)中的持久化数据帧,apache-spark,spark-streaming,Apache Spark,Spark Streaming,有两个spark流媒体作业运行在不同的容器上——让我们称它们为教师作业和学生作业。两人都在读两个不同的卡夫卡主题。当学生消息进入student spark作业时,我需要“查询”教师作业的持久化数据,以检索与该学生关联的教师(在本例中,该学生只有一名教师,但一名教师可以有多名学生)。如何在教师作业中保留一个键值对(或教师数据框),然后在学生作业中检索/查找该教师,以便在知道该教师的情况下处理该学生?我可以在一个作业中使用persist()而在另一个作业中使用unpersist()吗?从证据来看,使

有两个spark流媒体作业运行在不同的容器上——让我们称它们为教师作业和学生作业。两人都在读两个不同的卡夫卡主题。当学生消息进入student spark作业时,我需要“查询”教师作业的持久化数据,以检索与该学生关联的教师(在本例中,该学生只有一名教师,但一名教师可以有多名学生)。如何在教师作业中保留一个键值对(或教师数据框),然后在学生作业中检索/查找该教师,以便在知道该教师的情况下处理该学生?我可以在一个作业中使用persist()而在另一个作业中使用unpersist()吗?

从证据来看,使用流-流连接的Spark结构化流与Kafka集成是一种可行的方法

很难理解你的散文。什么是流,什么是静态?关系stu-tch从何而来,对于流还是静态?试着用一个例子来重新组织这个问题,散文和提提的内容不同步,学生和老师的信息源源不断。学生作业实时获取学生消息流,教师作业实时获取消息流,但彼此异步。教师消息的有效负载中列出了一名学生。学生负载未在其负载中列出其教师。我需要为那个学生找老师——在学生火花流媒体工作的背景下。有趣的概念,我似乎没有遵循。如何解释持久化数据帧。您可以使用流连接。那不是更明智吗?我会调查的。我们已经建立并运行了大部分架构,我的任务是在学生工作中将学生和教师联系在一起。我是spark的新手,不知道从另一份spark工作中获取数据的选择是什么。如果spark有一种机制可以轻松完成我所需要的工作,我宁愿不必为了查找而建立一个中间数据库。我添加了一个图表来帮助澄清。Spark Kafka与结构化流媒体的集成