Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform 分区读取器速度慢影响批量读取速度_Google Cloud Platform_Google Cloud Dataflow_Apache Beam_Google Cloud Spanner - Fatal编程技术网

Google cloud platform 分区读取器速度慢影响批量读取速度

Google cloud platform 分区读取器速度慢影响批量读取速度,google-cloud-platform,google-cloud-dataflow,apache-beam,google-cloud-spanner,Google Cloud Platform,Google Cloud Dataflow,Apache Beam,Google Cloud Spanner,我们一直在使用span.readAll在google数据流设置中扫描大量数据。传递给扳手的ReadOperations通过查询(query)和批处理(true)创建。我注意到,虽然最初吞吐量是正常的,但最终它下降到非常低的吞吐量,这可能是由于工作量较大的异常值造成的。看看代码,一个DoFn负责一个分区的所有批扫描工作。虽然在一个完美的世界中,我们应该假设生成的分区应该处理这个异常值问题,但在实践中,重新分割那些慢工作人员的工作是否有意义?正在使用的Cloud Paner实例中的“Monitor”

我们一直在使用
span.readAll
在google数据流设置中扫描大量数据。传递给扳手的
ReadOperation
s通过查询(query)和批处理(true)创建。我注意到,虽然最初吞吐量是正常的,但最终它下降到非常低的吞吐量,这可能是由于工作量较大的异常值造成的。看看代码,一个DoFn负责一个分区的所有批扫描工作。虽然在一个完美的世界中,我们应该假设生成的分区应该处理这个异常值问题,但在实践中,重新分割那些慢工作人员的工作是否有意义?

正在使用的Cloud Paner实例中的“Monitor”页面显示了什么?(这是在谷歌云控制台web UI上)CPU利用率是多少?您可能需要更多节点?可能是您的查询效率低下(您是否在web UI中运行查询并查看查询执行计划以查看是否触发了表扫描)?利用率非常低,我使用了5个节点,util最多为10%。查询很简单,基本上是前缀扫描,第一个主键设置为某个值。要理解这一点,需要进行更深入的研究。看起来如果你能为这个案子开一张支持票会更好。如果您没有付费支持包或试用期已过,我会要求您在公共问题跟踪程序上创建一个问题。然后我会把它公之于众。