Python 作为Spark scala应用程序的一部分运行pyspark脚本
我的用例如下所示:Python 作为Spark scala应用程序的一部分运行pyspark脚本,python,scala,pyspark,apache-spark-sql,py4j,Python,Scala,Pyspark,Apache Spark Sql,Py4j,我的用例如下所示: 在spark scala应用程序中读取一个或多个数据帧,并将其注册为表 获取一个python可调用函数,该函数将在这些数据帧上运行基于pyspark的转换 将转换后的数据帧作为表从pyspark可调用文件注册到spark会话中 从scala spark应用程序中读取这些转换后的数据帧,并对其进行可选的后处理 有人能帮助实现这种无缝的scala-pyspark集成吗?挑战在于能够从scala spark应用程序内部对数据帧运行基于python的转换 如能提供一个工作实例,将不胜
致以最诚挚的问候可以通过Py4J完成。我检查了Py4J,但它似乎不适合我的用例。你能分享一个例子或帖子吗?它可以通过Py4J来完成。我检查了Py4J,但它似乎不适合我的用例。你能分享一个例子或帖子吗?