Google cloud dataflow 使用BigQueryIO写入大(>;20KB)记录

Google cloud dataflow 使用BigQueryIO写入大(>;20KB)记录,google-cloud-dataflow,Google Cloud Dataflow,文档中没有明确说明这一点,但它似乎执行了流式写入,这反过来又将行大小限制为批处理数据流作业不将数据流式传输到BigQuery。数据被写入GCS,然后我们执行BigQuery导入作业来导入GCS文件。因此,流媒体限制不应适用 请注意,导入作业是由服务执行的,而不是由工作人员执行的,这就是为什么在BigQueryIO.write中看不到相关代码的原因。也许还有其他原因让我感到困惑。。当我尝试运行导入时,会出现以下错误“{”errors:[{”reason:“invalid”}],“index”:0}

文档中没有明确说明这一点,但它似乎执行了流式写入,这反过来又将行大小限制为批处理数据流作业不将数据流式传输到BigQuery。数据被写入GCS,然后我们执行BigQuery导入作业来导入GCS文件。因此,流媒体限制不应适用


请注意,导入作业是由服务执行的,而不是由工作人员执行的,这就是为什么在BigQueryIO.write中看不到相关代码的原因。

也许还有其他原因让我感到困惑。。当我尝试运行导入时,会出现以下错误“{”errors:[{”reason:“invalid”}],“index”:0}--没有太大帮助。一时兴起,我尝试将行大小减小到是否可能您的记录无效,并且索引:0是对无效列或字段的引用?在@igrigorik之前,我已经多次遇到此错误。检查表架构(包括类型),然后确保在转换的输出上设置了正确的字段和类型,例如ParDo