Google cloud dataflow 谷歌云数据流:413请求实体太大

Google cloud dataflow 谷歌云数据流:413请求实体太大,google-cloud-dataflow,Google Cloud Dataflow,除了减少流中的转换数量(或者,很可能,减少流图中所有转换对象的总序列化大小)之外,还有什么关于如何解决此错误的建议吗 谢谢,您是否将大量数据序列化为管道规范的一部分?例如,是否使用从内联数据创建PCollection 您可以共享json文件吗?如果您不想公开共享,可以私下将其发送给Dataflow团队。Dataflow目前在我们的系统中有一个限制,将请求限制在1MB。作业的大小与管道的JSON表示形式密切相关;更大的管道意味着更大的请求 我们正在努力提高这一限制。同时,您可以通过将您的工作分解为

除了减少流中的转换数量(或者,很可能,减少流图中所有转换对象的总序列化大小)之外,还有什么关于如何解决此错误的建议吗


谢谢,

您是否将大量数据序列化为管道规范的一部分?例如,是否使用从内联数据创建PCollection


您可以共享json文件吗?如果您不想公开共享,可以私下将其发送给Dataflow团队。

Dataflow目前在我们的系统中有一个限制,将请求限制在1MB。作业的大小与管道的JSON表示形式密切相关;更大的管道意味着更大的请求

我们正在努力提高这一限制。同时,您可以通过将您的工作分解为更小的工作来克服此限制,使每个工作描述占用的内存少于1MB

要估计请求的大小,请使用选项运行管道

--dataflowJobFile = <path to output file>
--dataflowJobFile=
这将把作业的JSON表示形式写入文件。该文件的大小可以很好地估计请求的大小。由于作为请求一部分的附加信息,请求的实际大小将稍大

谢谢你的耐心


一旦限制增加,我们将更新此线程

已于2018年11月16日并入Beam。在将其包含在数据流中之前,时间不应该太长

dataflowJobFile
options为建议创建作业规范文件~2.3MB。我已经通过电子邮件将生成的json文件发送给dataflow团队。关于您的问题,a)请参阅我对原始问题的评论,b)否,但序列化的数据类型是否有任何区别?