Tensorflow apachebeam中的嵌套管道

Tensorflow apachebeam中的嵌套管道,tensorflow,apache-beam,tensorflow-transform,Tensorflow,Apache Beam,Tensorflow Transform,我希望通过apache beam完成以下工作。 特别是一个tensorflow神经网络的预处理 对于文件夹中的每个文件。 对于文件中的每一行 流程线至1d浮点数列表 我需要每个返回都是每个文件的二维浮动列表 我想我可以通过创建嵌套管道来实现这一点。 我可以在另一条管道的ParDo中创建并运行一条管道 这似乎效率低下,但我的问题似乎是一个相当标准的用例 在ApacheBeam中有没有更好的工具 有没有办法重组我的问题,使它在ApacheBeam中更好地工作 嵌套管道没有我想象的那么糟

我希望通过apache beam完成以下工作。
特别是一个tensorflow神经网络的预处理

  • 对于文件夹中的每个文件。
    • 对于文件中的每一行
      • 流程线至1d浮点数列表
我需要每个返回都是每个文件的二维浮动列表

我想我可以通过创建嵌套管道来实现这一点。
我可以在另一条管道的ParDo中创建并运行一条管道

这似乎效率低下,但我的问题似乎是一个相当标准的用例

  • 在ApacheBeam中有没有更好的工具
  • 有没有办法重组我的问题,使它在ApacheBeam中更好地工作
  • 嵌套管道没有我想象的那么糟糕吗

感谢

Apache Beam是使用Tensorflow对机器学习数据进行预处理的绝佳工具。有关此通用用例和
tf.Transform
的更多信息,请参阅本文档

没有任何描述表明需要“嵌套管道”。处理目录中每个文件的每一行是一个简单的
TextIO.Read
转换。现在还不清楚您的需求是什么,但是,一般来说,将线路分为浮点数并与其他线路连接是简单的ParDo和分组操作


作为一般指导,我会避免嵌套管道,并尝试将问题分解为单个管道。

谢谢,我不理解分组函数。