Python 数据流流作业-写入BigQuery时出错_Python_Google Bigquery_Google Cloud Dataflow_Apache Beam

Python 数据流流作业-写入BigQuery时出错

python google-bigquery google-cloud-dataflow

Python 数据流流作业-写入BigQuery时出错,python,google-bigquery,google-cloud-dataflow,apache-beam,Python,Google Bigquery,Google Cloud Dataflow,Apache Beam,使用“文件加载”技术通过Apache Beam数据流作业写入BigQuery时出错。流式插入（else块）工作正常，符合预期。“文件加载”（if块）失败，代码后出现以下错误。存储桶中的GCS上的临时文件是有效的JSON对象发布/订阅中的原始事件示例： "{'event': 'test', 'entityId': 13615316690, 'eventTime': '2020-08-12T15:56:07.130899+00:00', 'targetEntityId': 8947793

使用“文件加载”技术通过Apache Beam数据流作业写入BigQuery时出错。流式插入（else块）工作正常，符合预期。“文件加载”（if块）失败，代码后出现以下错误。存储桶中的GCS上的临时文件是有效的JSON对象

发布/订阅中的原始事件示例：

"{'event': 'test', 'entityId': 13615316690, 'eventTime': '2020-08-12T15:56:07.130899+00:00', 'targetEntityId': 8947793, 'targetEntityType': 'item', 'entityType': 'guest', 'properties': {}}" 
 
"{'event': 'test', 'entityId': 13615316690, 'eventTime': '2020-08-12T15:56:07.130899+00:00', 'targetEntityId': 8947793, 'targetEntityType': 'item', 'entityType': 'guest', 'properties': {‘action’: ‘delete’}}"

数据流作业出错：

message: 'Error while reading data, error message: JSON table encountered too many errors, giving up. Rows: 1; errors: 1. Please look into the errors[] collection for more details.' reason: 'invalid'> [while running 'generatedPtransform-1801'] java.util.concurrent.CompletableFuture.reportGet(CompletableFuture.java:357) java.util.concurrent.CompletableFuture.get(CompletableFuture.java:1895) org.apache.beam.sdk.util.MoreFutures.get(MoreFutures.java:57)

该问题看起来是BigQuery的错误加载。我的建议是尝试在数据流之外进行测试加载作业，以确保您的模式和数据结构良好。你可以跟着

另外，我注意到您没有指定

schema

或

schema\u AUTODETECT

。我建议你具体说明一下

要了解错误，请尝试检查数据流作业日志，日志可能包含大量信息。如果您的加载作业失败，您可以在BigQuery中检查这些作业，它们还将为您获取有关失败内容的更多信息。您可以使用此StackDriver日志查找BQ加载作业ID：

resource.type="dataflow_step"
resource.labels.job_id= < YOUR DF JOB ID >
jsonPayload.message:("Triggering job" OR "beam_load")

我建议您尝试管道的一部分，而不是一次尝试所有内容，即，首先尝试只加载作业，如果它们失败，则检查它们失败的原因（在数据流日志、BigQuery日志或BigQuery UI中）。完成后，添加流式插入（或其他方式）。

问题看起来是BigQuery加载错误。我的建议是尝试在数据流之外进行测试加载作业，以确保您的模式和数据结构良好。你可以跟着

另外，我注意到您没有指定

schema

或

schema\u AUTODETECT

。我建议你具体说明一下

resource.type="dataflow_step"
resource.labels.job_id= < YOUR DF JOB ID >
jsonPayload.message:("Triggering job" OR "beam_load")

我建议您尝试管道的一部分，而不是一次尝试所有内容，即，首先尝试只加载作业，如果它们失败，则检查它们失败的原因（在数据流日志、BigQuery日志或BigQuery UI中）。完成后，添加流式插入（或相反的方式）。

我面临同样的问题。如果我从本地执行数据流作业，它将按预期运行。但当我在云数据流环境中运行它时，它显示了这一点-

错误消息：JSON表遇到太多错误，放弃。行：9；错误：1。有关详细信息，请查看错误[]集合。'原因：'无效'>[在运行'WriteTable/BigQueryBatchFileLoads/WaitForDestinationLoadJobs/WaitForDestinationLoadJobs'时]

我已经确保本地和云SKD都在相同的apache beam版本2.27上，我面临相同的问题。如果我从本地执行数据流作业，它将按预期运行。但当我在云数据流环境中运行它时，它显示了这一点-

错误消息：JSON表遇到太多错误，放弃。行：9；错误：1。有关详细信息，请查看错误[]集合。'原因：'无效'>[在运行'WriteTable/BigQueryBatchFileLoads/WaitForDestinationLoadJobs/WaitForDestinationLoadJobs'时]

我已经确保本地和云SKD都在相同的apache beam版本2.27上

谢谢你，Inigo，今天将尝试它，并随时向你通报。感谢您的及时回复。谢谢您，Inigo，今天将尝试并与您保持联系。感谢您的及时回复。进展如何？你找到问题了吗？进展如何？你能找到问题吗？

        schema = {
            "fields":
                [
                    {
                        "name": "name",
                        "type": "STRING"
                    },
                    {
                        "name": "repeated",
                        "type": "RECORD",
                        "mode": "REPEATED",
                        "fields": [
                            {
                                "name": "spent",
                                "type": "INTEGER"
                            },
                            {
                                "name": "ts",
                                "type": "TIMESTAMP"
                            }
                        ]
                    }
                ]
            }

        def fake_parsing(element):
            # Using a fake parse so it's easier to reproduce
            properties = []

            rnd = random.random()
            if rnd < 0.25:
                dict_prop = {"spent": random.randint(0, 100),
                             "ts": datetime.now().strftime('%Y-%m-%d %H:%M:00')}
                properties.append(dict_prop)
            elif rnd > 0.75:
                # repeated
                dict_prop = {"spent": random.randint(0, 100),
                             "ts": datetime.now().strftime('%Y-%m-%d %H:%M:00')}
                properties += [dict_prop, dict_prop]
            elif 0.5 > rnd > 0.75:
                properties.append({"ts": datetime.now().strftime('%Y-%m-%d %H:%M:00')})

            return {"name": 'inigo',
                    "repeated": properties}

        pubsub = (p | "Read Topic" >> ReadFromPubSub(topic=known_args.topic)
                    | "To Dict" >> beam.Map(fake_parsing))

        pubsub | "Stream To BQ" >> WriteToBigQuery(
            table=f"{known_args.table}_streaming_insert",
            schema=schema,
            write_disposition=BigQueryDisposition.WRITE_APPEND,
            method="STREAMING_INSERTS")

        pubsub | "Load To BQ" >> WriteToBigQuery(
            table=f"{known_args.table}_load_job",
            schema=schema,
            write_disposition=BigQueryDisposition.WRITE_APPEND,
            method=WriteToBigQuery.Method.FILE_LOADS,
            triggering_frequency=known_args.triggering,
            insert_retry_strategy="RETRY_ON_TRANSIENT_ERROR")