Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/360.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 谷歌数据流&x27;由于IO调用缓慢,s的工作进程几乎处于空闲状态_Java_Google Cloud Dataflow_Apache Beam - Fatal编程技术网

Java 谷歌数据流&x27;由于IO调用缓慢,s的工作进程几乎处于空闲状态

Java 谷歌数据流&x27;由于IO调用缓慢,s的工作进程几乎处于空闲状态,java,google-cloud-dataflow,apache-beam,Java,Google Cloud Dataflow,Apache Beam,我们正在使用google数据流创建管道。我们的一个例子是调用第三方服务来持久化那里的数据 问题是这个第三方服务速度慢(save相当复杂),但它可以处理许多并发连接 我们发现,如果我们在ParDo中创建一个ThreadPoolExectutor(100),并进行异步调用而不是同步调用,那么每秒可以保存更多的数据。但这种方法并不好 使用数据流的好方法是什么?显然,我们可以用100个工人来运行数据流,但这不是一个非常便宜的解决方案——特别是当每个工人使用5%的CPU时 你对我有什么想法吗?我们曾考虑过

我们正在使用google数据流创建管道。我们的一个例子是调用第三方服务来持久化那里的数据

问题是这个第三方服务速度慢(save相当复杂),但它可以处理许多并发连接

我们发现,如果我们在ParDo中创建一个ThreadPoolExectutor(100),并进行异步调用而不是同步调用,那么每秒可以保存更多的数据。但这种方法并不好

使用数据流的好方法是什么?显然,我们可以用100个工人来运行数据流,但这不是一个非常便宜的解决方案——特别是当每个工人使用5%的CPU时

你对我有什么想法吗?我们曾考虑过使用PubSub来提供这项服务,但这会使我们的解决方案变得非常复杂


在direct runner中有一个参数,dataflow runner中是否有类似的内容?

或者,dataflow本身正在处理线程处理,而我的管道配置不好。我发现:这可能就是我的情况。然而,它并不漂亮。可能是它的复制品