Apache spark 按程序创建Spark RDD

Apache spark 按程序创建Spark RDD,apache-spark,Apache Spark,我需要创建一个SparkRDD(或者DataFrame,两者都可以),方法是重复调用一个自定义函数,该函数将逐个生成记录。可能吗 没有可以读取的文件,因为我正在与另一个系统交互,该系统管理一个复杂的管道来生成记录,而且生成的文件无论如何都太大(数百TB)对于我们考虑坚持磁盘。我不确定我是否完全解决了你的问题,但是你可以用流来解决这个问题,在那里你可以有你的自定义接收器(它具有自定义功能),它将产生记录,然后在流结束时你会得到DStreamRDD。让我看看这可能是我所需要的。谢谢!:-)

我需要创建一个Spark
RDD
(或者
DataFrame
,两者都可以),方法是重复调用一个自定义函数,该函数将逐个生成记录。可能吗


没有可以读取的文件,因为我正在与另一个系统交互,该系统管理一个复杂的管道来生成记录,而且生成的文件无论如何都太大(数百TB)对于我们考虑坚持磁盘。

我不确定我是否完全解决了你的问题,但是你可以用流来解决这个问题,在那里你可以有你的自定义接收器(它具有自定义功能),它将产生记录,然后在流结束时你会得到DStreamRDD。让我看看这可能是我所需要的。谢谢!:-)