Java 谷歌数据流&x27；由于IO调用缓慢，s的工作进程几乎处于空闲状态_Java_Google Cloud Dataflow_Apache Beam

Java 谷歌数据流&x27；由于IO调用缓慢，s的工作进程几乎处于空闲状态

java google-cloud-dataflow

Java 谷歌数据流&x27；由于IO调用缓慢，s的工作进程几乎处于空闲状态,java,google-cloud-dataflow,apache-beam,Java,Google Cloud Dataflow,Apache Beam,我们正在使用google数据流创建管道。我们的一个例子是调用第三方服务来持久化那里的数据问题是这个第三方服务速度慢（save相当复杂），但它可以处理许多并发连接我们发现，如果我们在ParDo中创建一个ThreadPoolExectutor（100），并进行异步调用而不是同步调用，那么每秒可以保存更多的数据。但这种方法并不好使用数据流的好方法是什么？显然，我们可以用100个工人来运行数据流，但这不是一个非常便宜的解决方案——特别是当每个工人使用5%的CPU时你对我有什么想法吗？我们曾考虑过

我们正在使用google数据流创建管道。我们的一个例子是调用第三方服务来持久化那里的数据

问题是这个第三方服务速度慢（save相当复杂），但它可以处理许多并发连接

我们发现，如果我们在ParDo中创建一个ThreadPoolExectutor（100），并进行异步调用而不是同步调用，那么每秒可以保存更多的数据。但这种方法并不好

使用数据流的好方法是什么？显然，我们可以用100个工人来运行数据流，但这不是一个非常便宜的解决方案——特别是当每个工人使用5%的CPU时

你对我有什么想法吗？我们曾考虑过使用PubSub来提供这项服务，但这会使我们的解决方案变得非常复杂

在direct runner中有一个参数，dataflow runner中是否有类似的内容？

或者，dataflow本身正在处理线程处理，而我的管道配置不好。我发现：这可能就是我的情况。然而，它并不漂亮。可能是它的复制品