Apache spark 数据流SparkPipelineRunner-有可用的示例吗?

Apache spark 数据流SparkPipelineRunner-有可用的示例吗?,apache-spark,google-cloud-platform,google-cloud-dataflow,Apache Spark,Google Cloud Platform,Google Cloud Dataflow,是否有人有使用ClouderaSparkPipelineRunner执行(在集群上)使用Dataflow SDK编写的管道的工作示例 我在或github回购协议中看不到任何内容 我们正在尝试评估在Spark群集上运行管道是否会比在GCP数据流服务上运行管道带来任何性能提升。在Beam站点上使用Beam Spark Runner的示例有: 您需要的依赖项是: <dependency> <groupId>org.apache.beam</groupId>

是否有人有使用Cloudera
SparkPipelineRunner
执行(在集群上)使用Dataflow SDK编写的管道的工作示例

我在或github回购协议中看不到任何内容


我们正在尝试评估在Spark群集上运行管道是否会比在GCP数据流服务上运行管道带来任何性能提升。

在Beam站点上使用Beam Spark Runner的示例有:

您需要的依赖项是:

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-spark</artifactId>
  <version>0.3.0-incubating</version>
</dependency>

嘿,波莉!Stack并不是询问示例、文档或教程的最佳场所。不过,我同意你的看法,这将是有益的。我做了彻底的研究,找不到任何例子。我能想到的最好的办法就是进入适当的文档页面,提出一个“发送反馈”的请求,要求将这些内容更新。我们的技术作者团队将很乐意调查您的请求。我不会在你关于BigQuery和Dataproc示例的问题上发表同样的观点,但同样的逻辑也适用于:)。一般来说,对于那些与Stack无关的问题,我建议在这里转到Google群组:并发表类似的请求。由于该组不是堆栈溢出,因此我们可以接受这里的主题之外的内容。干杯:)spark dataflow repo中的自述文件似乎给出了在本地和集群上调用WordCount的示例。你能详细说明一下你还想在一个例子中看到什么吗?虽然这不是一个详细的例子。让我困惑的是,使用普通的Dataflow runner,我可以运行我的Java应用程序,所有内容都将上传到GCP并执行。这与Spark runner相同,还是必须使用“Spark submit”命令(假设我已经启动了一个Dataproc集群并提供了spark://host:port 我自己还没有用过Spark runner,但我已经请它的作者解释一下这个问题。
spark-submit --class com.beam.examples.BeamPipeline --master spark://HOST:PORT target/beam-examples-1.0.0-shaded.jar --runner=SparkRunner