Google cloud dataflow 使用Beam Python SDK读取复杂XML

Google cloud dataflow 使用Beam Python SDK读取复杂XML,google-cloud-dataflow,apache-beam,Google Cloud Dataflow,Apache Beam,如何最好地编写Python SDK的源代码,它应该读取嵌套的XML文件并将内容拆分为多行。现有的源代码都在行级别工作,这不是我在XML上下文中所需要的 这是一组XML文件,每个文件都构成一个交易,必须分解为多个记录(订单行、付款等)。您可以使用此模式读取TensorFlow记录,作为编写自己的源代码的模型: 可以使用Python将XML解析为元素 请记住,源将写入只能包含一种元素类型的PCollection,因此您的源无法发出某些付款记录和某些订单记录。您需要发出单个事务记录,或者围绕每个记录

如何最好地编写Python SDK的源代码,它应该读取嵌套的XML文件并将内容拆分为多行。现有的源代码都在行级别工作,这不是我在XML上下文中所需要的


这是一组XML文件,每个文件都构成一个交易,必须分解为多个记录(订单行、付款等)。

您可以使用此模式读取TensorFlow记录,作为编写自己的源代码的模型:

可以使用Python将XML解析为元素


请记住,源将写入只能包含一种元素类型的PCollection,因此您的源无法发出某些付款记录和某些订单记录。您需要发出单个事务记录,或者围绕每个记录子类型创建一个包装器,并在以后对内容进行过滤。

干杯,这真的很有帮助,是的,您是对的,不同的记录类型必须被视为单独的PColl。