Python 数据流流作业-写入BigQuery时出错
使用“文件加载”技术通过Apache Beam数据流作业写入BigQuery时出错。流式插入(else块)工作正常,符合预期。“文件加载”(if块)失败,代码后出现以下错误。存储桶中的GCS上的临时文件是有效的JSON对象 发布/订阅中的原始事件示例:Python 数据流流作业-写入BigQuery时出错,python,google-bigquery,google-cloud-dataflow,apache-beam,Python,Google Bigquery,Google Cloud Dataflow,Apache Beam,使用“文件加载”技术通过Apache Beam数据流作业写入BigQuery时出错。流式插入(else块)工作正常,符合预期。“文件加载”(if块)失败,代码后出现以下错误。存储桶中的GCS上的临时文件是有效的JSON对象 发布/订阅中的原始事件示例: "{'event': 'test', 'entityId': 13615316690, 'eventTime': '2020-08-12T15:56:07.130899+00:00', 'targetEntityId': 8947793
"{'event': 'test', 'entityId': 13615316690, 'eventTime': '2020-08-12T15:56:07.130899+00:00', 'targetEntityId': 8947793, 'targetEntityType': 'item', 'entityType': 'guest', 'properties': {}}"
"{'event': 'test', 'entityId': 13615316690, 'eventTime': '2020-08-12T15:56:07.130899+00:00', 'targetEntityId': 8947793, 'targetEntityType': 'item', 'entityType': 'guest', 'properties': {‘action’: ‘delete’}}"
数据流作业出错:
message: 'Error while reading data, error message: JSON table encountered too many errors, giving up. Rows: 1; errors: 1. Please look into the errors[] collection for more details.' reason: 'invalid'> [while running 'generatedPtransform-1801'] java.util.concurrent.CompletableFuture.reportGet(CompletableFuture.java:357) java.util.concurrent.CompletableFuture.get(CompletableFuture.java:1895) org.apache.beam.sdk.util.MoreFutures.get(MoreFutures.java:57)
该问题看起来是BigQuery的错误加载。我的建议是尝试在数据流之外进行测试加载作业,以确保您的模式和数据结构良好。你可以跟着 另外,我注意到您没有指定
schema
或schema\u AUTODETECT
。我建议你具体说明一下
要了解错误,请尝试检查数据流作业日志,日志可能包含大量信息。如果您的加载作业失败,您可以在BigQuery中检查这些作业,它们还将为您获取有关失败内容的更多信息。您可以使用此StackDriver日志查找BQ加载作业ID:
resource.type="dataflow_step"
resource.labels.job_id= < YOUR DF JOB ID >
jsonPayload.message:("Triggering job" OR "beam_load")
我建议您尝试管道的一部分,而不是一次尝试所有内容,即,首先尝试只加载作业,如果它们失败,则检查它们失败的原因(在数据流日志、BigQuery日志或BigQuery UI中)。完成后,添加流式插入(或其他方式)。问题看起来是BigQuery加载错误。我的建议是尝试在数据流之外进行测试加载作业,以确保您的模式和数据结构良好。你可以跟着 另外,我注意到您没有指定
schema
或schema\u AUTODETECT
。我建议你具体说明一下
要了解错误,请尝试检查数据流作业日志,日志可能包含大量信息。如果您的加载作业失败,您可以在BigQuery中检查这些作业,它们还将为您获取有关失败内容的更多信息。您可以使用此StackDriver日志查找BQ加载作业ID:
resource.type="dataflow_step"
resource.labels.job_id= < YOUR DF JOB ID >
jsonPayload.message:("Triggering job" OR "beam_load")
我建议您尝试管道的一部分,而不是一次尝试所有内容,即,首先尝试只加载作业,如果它们失败,则检查它们失败的原因(在数据流日志、BigQuery日志或BigQuery UI中)。完成后,添加流式插入(或相反的方式)。我面临同样的问题。
如果我从本地执行数据流作业,它将按预期运行。
但当我在云数据流环境中运行它时,它显示了这一点-
错误消息:JSON表遇到太多错误,放弃。行:9;错误:1。有关详细信息,请查看错误[]集合。'原因:'无效'>[在运行'WriteTable/BigQueryBatchFileLoads/WaitForDestinationLoadJobs/WaitForDestinationLoadJobs'时]
我已经确保本地和云SKD都在相同的apache beam版本2.27上,我面临相同的问题。
如果我从本地执行数据流作业,它将按预期运行。
但当我在云数据流环境中运行它时,它显示了这一点-
错误消息:JSON表遇到太多错误,放弃。行:9;错误:1。有关详细信息,请查看错误[]集合。'原因:'无效'>[在运行'WriteTable/BigQueryBatchFileLoads/WaitForDestinationLoadJobs/WaitForDestinationLoadJobs'时]
我已经确保本地和云SKD都在相同的apache beam版本2.27上谢谢你,Inigo,今天将尝试它,并随时向你通报。感谢您的及时回复。谢谢您,Inigo,今天将尝试并与您保持联系。感谢您的及时回复。进展如何?你找到问题了吗?进展如何?你能找到问题吗?
schema = {
"fields":
[
{
"name": "name",
"type": "STRING"
},
{
"name": "repeated",
"type": "RECORD",
"mode": "REPEATED",
"fields": [
{
"name": "spent",
"type": "INTEGER"
},
{
"name": "ts",
"type": "TIMESTAMP"
}
]
}
]
}
def fake_parsing(element):
# Using a fake parse so it's easier to reproduce
properties = []
rnd = random.random()
if rnd < 0.25:
dict_prop = {"spent": random.randint(0, 100),
"ts": datetime.now().strftime('%Y-%m-%d %H:%M:00')}
properties.append(dict_prop)
elif rnd > 0.75:
# repeated
dict_prop = {"spent": random.randint(0, 100),
"ts": datetime.now().strftime('%Y-%m-%d %H:%M:00')}
properties += [dict_prop, dict_prop]
elif 0.5 > rnd > 0.75:
properties.append({"ts": datetime.now().strftime('%Y-%m-%d %H:%M:00')})
return {"name": 'inigo',
"repeated": properties}
pubsub = (p | "Read Topic" >> ReadFromPubSub(topic=known_args.topic)
| "To Dict" >> beam.Map(fake_parsing))
pubsub | "Stream To BQ" >> WriteToBigQuery(
table=f"{known_args.table}_streaming_insert",
schema=schema,
write_disposition=BigQueryDisposition.WRITE_APPEND,
method="STREAMING_INSERTS")
pubsub | "Load To BQ" >> WriteToBigQuery(
table=f"{known_args.table}_load_job",
schema=schema,
write_disposition=BigQueryDisposition.WRITE_APPEND,
method=WriteToBigQuery.Method.FILE_LOADS,
triggering_frequency=known_args.triggering,
insert_retry_strategy="RETRY_ON_TRANSIENT_ERROR")