Apache spark 数据流SparkPipelineRunner-有可用的示例吗？_Apache Spark_Google Cloud Platform_Google Cloud Dataflow

Apache spark 数据流SparkPipelineRunner-有可用的示例吗？

apache-spark google-cloud-platform google-cloud-dataflow

Apache spark 数据流SparkPipelineRunner-有可用的示例吗？,apache-spark,google-cloud-platform,google-cloud-dataflow,Apache Spark,Google Cloud Platform,Google Cloud Dataflow,是否有人有使用ClouderaSparkPipelineRunner执行（在集群上）使用Dataflow SDK编写的管道的工作示例我在或github回购协议中看不到任何内容我们正在尝试评估在Spark群集上运行管道是否会比在GCP数据流服务上运行管道带来任何性能提升。在Beam站点上使用Beam Spark Runner的示例有：您需要的依赖项是： <dependency> <groupId>org.apache.beam</groupId>

是否有人有使用Cloudera

SparkPipelineRunner

执行（在集群上）使用Dataflow SDK编写的管道的工作示例

我在或github回购协议中看不到任何内容

我们正在尝试评估在Spark群集上运行管道是否会比在GCP数据流服务上运行管道带来任何性能提升。

在Beam站点上使用Beam Spark Runner的示例有：

您需要的依赖项是：

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-spark</artifactId>
  <version>0.3.0-incubating</version>
</dependency>

嘿，波莉！Stack并不是询问示例、文档或教程的最佳场所。不过，我同意你的看法，这将是有益的。我做了彻底的研究，找不到任何例子。我能想到的最好的办法就是进入适当的文档页面，提出一个“发送反馈”的请求，要求将这些内容更新。我们的技术作者团队将很乐意调查您的请求。我不会在你关于BigQuery和Dataproc示例的问题上发表同样的观点，但同样的逻辑也适用于：）。一般来说，对于那些与Stack无关的问题，我建议在这里转到Google群组：并发表类似的请求。由于该组不是堆栈溢出，因此我们可以接受这里的主题之外的内容。干杯：）spark dataflow repo中的自述文件似乎给出了在本地和集群上调用WordCount的示例。你能详细说明一下你还想在一个例子中看到什么吗？虽然这不是一个详细的例子。让我困惑的是，使用普通的Dataflow runner，我可以运行我的Java应用程序，所有内容都将上传到GCP并执行。这与Spark runner相同，还是必须使用“Spark submit”命令（假设我已经启动了一个Dataproc集群并提供了spark://host:port 我自己还没有用过Spark runner，但我已经请它的作者解释一下这个问题。

spark-submit --class com.beam.examples.BeamPipeline --master spark://HOST:PORT target/beam-examples-1.0.0-shaded.jar --runner=SparkRunner