Python 数据流流作业-写入BigQuery时出错

Python 数据流流作业-写入BigQuery时出错,python,google-bigquery,google-cloud-dataflow,apache-beam,Python,Google Bigquery,Google Cloud Dataflow,Apache Beam,使用“文件加载”技术通过Apache Beam数据流作业写入BigQuery时出错。流式插入(else块)工作正常,符合预期。“文件加载”(if块)失败,代码后出现以下错误。存储桶中的GCS上的临时文件是有效的JSON对象 发布/订阅中的原始事件示例: "{'event': 'test', 'entityId': 13615316690, 'eventTime': '2020-08-12T15:56:07.130899+00:00', 'targetEntityId': 8947793

使用“文件加载”技术通过Apache Beam数据流作业写入BigQuery时出错。流式插入(else块)工作正常,符合预期。“文件加载”(if块)失败,代码后出现以下错误。存储桶中的GCS上的临时文件是有效的JSON对象

发布/订阅中的原始事件示例:

"{'event': 'test', 'entityId': 13615316690, 'eventTime': '2020-08-12T15:56:07.130899+00:00', 'targetEntityId': 8947793, 'targetEntityType': 'item', 'entityType': 'guest', 'properties': {}}" 
 
"{'event': 'test', 'entityId': 13615316690, 'eventTime': '2020-08-12T15:56:07.130899+00:00', 'targetEntityId': 8947793, 'targetEntityType': 'item', 'entityType': 'guest', 'properties': {‘action’: ‘delete’}}"  
数据流作业出错:

message: 'Error while reading data, error message: JSON table encountered too many errors, giving up. Rows: 1; errors: 1. Please look into the errors[] collection for more details.' reason: 'invalid'> [while running 'generatedPtransform-1801'] java.util.concurrent.CompletableFuture.reportGet(CompletableFuture.java:357) java.util.concurrent.CompletableFuture.get(CompletableFuture.java:1895) org.apache.beam.sdk.util.MoreFutures.get(MoreFutures.java:57)

该问题看起来是BigQuery的错误加载。我的建议是尝试在数据流之外进行测试加载作业,以确保您的模式和数据结构良好。你可以跟着

另外,我注意到您没有指定
schema
schema\u AUTODETECT
。我建议你具体说明一下

要了解错误,请尝试检查数据流作业日志,日志可能包含大量信息。如果您的加载作业失败,您可以在BigQuery中检查这些作业,它们还将为您获取有关失败内容的更多信息。您可以使用此StackDriver日志查找BQ加载作业ID:

resource.type="dataflow_step"
resource.labels.job_id= < YOUR DF JOB ID >
jsonPayload.message:("Triggering job" OR "beam_load")

我建议您尝试管道的一部分,而不是一次尝试所有内容,即,首先尝试只加载作业,如果它们失败,则检查它们失败的原因(在数据流日志、BigQuery日志或BigQuery UI中)。完成后,添加流式插入(或其他方式)。

问题看起来是BigQuery加载错误。我的建议是尝试在数据流之外进行测试加载作业,以确保您的模式和数据结构良好。你可以跟着

另外,我注意到您没有指定
schema
schema\u AUTODETECT
。我建议你具体说明一下

要了解错误,请尝试检查数据流作业日志,日志可能包含大量信息。如果您的加载作业失败,您可以在BigQuery中检查这些作业,它们还将为您获取有关失败内容的更多信息。您可以使用此StackDriver日志查找BQ加载作业ID:

resource.type="dataflow_step"
resource.labels.job_id= < YOUR DF JOB ID >
jsonPayload.message:("Triggering job" OR "beam_load")
我建议您尝试管道的一部分,而不是一次尝试所有内容,即,首先尝试只加载作业,如果它们失败,则检查它们失败的原因(在数据流日志、BigQuery日志或BigQuery UI中)。完成后,添加流式插入(或相反的方式)。

我面临同样的问题。 如果我从本地执行数据流作业,它将按预期运行。 但当我在云数据流环境中运行它时,它显示了这一点-

错误消息:JSON表遇到太多错误,放弃。行:9;错误:1。有关详细信息,请查看错误[]集合。'原因:'无效'>[在运行'WriteTable/BigQueryBatchFileLoads/WaitForDestinationLoadJobs/WaitForDestinationLoadJobs'时]

我已经确保本地和云SKD都在相同的apache beam版本2.27上,我面临相同的问题。 如果我从本地执行数据流作业,它将按预期运行。 但当我在云数据流环境中运行它时,它显示了这一点-

错误消息:JSON表遇到太多错误,放弃。行:9;错误:1。有关详细信息,请查看错误[]集合。'原因:'无效'>[在运行'WriteTable/BigQueryBatchFileLoads/WaitForDestinationLoadJobs/WaitForDestinationLoadJobs'时]


我已经确保本地和云SKD都在相同的apache beam版本2.27上

谢谢你,Inigo,今天将尝试它,并随时向你通报。感谢您的及时回复。谢谢您,Inigo,今天将尝试并与您保持联系。感谢您的及时回复。进展如何?你找到问题了吗?进展如何?你能找到问题吗?
        schema = {
            "fields":
                [
                    {
                        "name": "name",
                        "type": "STRING"
                    },
                    {
                        "name": "repeated",
                        "type": "RECORD",
                        "mode": "REPEATED",
                        "fields": [
                            {
                                "name": "spent",
                                "type": "INTEGER"
                            },
                            {
                                "name": "ts",
                                "type": "TIMESTAMP"
                            }
                        ]
                    }
                ]
            }

        def fake_parsing(element):
            # Using a fake parse so it's easier to reproduce
            properties = []

            rnd = random.random()
            if rnd < 0.25:
                dict_prop = {"spent": random.randint(0, 100),
                             "ts": datetime.now().strftime('%Y-%m-%d %H:%M:00')}
                properties.append(dict_prop)
            elif rnd > 0.75:
                # repeated
                dict_prop = {"spent": random.randint(0, 100),
                             "ts": datetime.now().strftime('%Y-%m-%d %H:%M:00')}
                properties += [dict_prop, dict_prop]
            elif 0.5 > rnd > 0.75:
                properties.append({"ts": datetime.now().strftime('%Y-%m-%d %H:%M:00')})

            return {"name": 'inigo',
                    "repeated": properties}

        pubsub = (p | "Read Topic" >> ReadFromPubSub(topic=known_args.topic)
                    | "To Dict" >> beam.Map(fake_parsing))

        pubsub | "Stream To BQ" >> WriteToBigQuery(
            table=f"{known_args.table}_streaming_insert",
            schema=schema,
            write_disposition=BigQueryDisposition.WRITE_APPEND,
            method="STREAMING_INSERTS")

        pubsub | "Load To BQ" >> WriteToBigQuery(
            table=f"{known_args.table}_load_job",
            schema=schema,
            write_disposition=BigQueryDisposition.WRITE_APPEND,
            method=WriteToBigQuery.Method.FILE_LOADS,
            triggering_frequency=known_args.triggering,
            insert_retry_strategy="RETRY_ON_TRANSIENT_ERROR")