Apache spark 有类似于Hadoop流媒体的ApacheSpark吗?
我有一些高度定制的处理逻辑,我想用C++实现。使我能够将C++编码的逻辑集成到MapReduce处理管道中。我想知道我是否可以用Apache Spark做同样的事情。最接近(但不是完全等效)的解决方案是方法: 将管道元素创建的RDD返回到分叉的外部流程。结果RDD是通过每个分区执行一次给定的进程来计算的。每个输入分区的所有元素都以换行符分隔的输入行形式写入进程的stdin。生成的分区由进程的标准输出组成,每行标准输出生成输出分区的一个元素。即使对于空分区,也会调用进程 可以通过提供两个功能自定义打印行为Apache spark 有类似于Hadoop流媒体的ApacheSpark吗?,apache-spark,hadoop,mapreduce,hadoop-streaming,Apache Spark,Hadoop,Mapreduce,Hadoop Streaming,我有一些高度定制的处理逻辑,我想用C++实现。使我能够将C++编码的逻辑集成到MapReduce处理管道中。我想知道我是否可以用Apache Spark做同样的事情。最接近(但不是完全等效)的解决方案是方法: 将管道元素创建的RDD返回到分叉的外部流程。结果RDD是通过每个分区执行一次给定的进程来计算的。每个输入分区的所有元素都以换行符分隔的输入行形式写入进程的stdin。生成的分区由进程的标准输出组成,每行标准输出生成输出分区的一个元素。即使对于空分区,也会调用进程 可以通过提供两个功能自定义
Spark提供了许多使用示例。是的,我想这样就可以了:)