Tensorflow apachebeam中的嵌套管道
我希望通过apache beam完成以下工作。Tensorflow apachebeam中的嵌套管道,tensorflow,apache-beam,tensorflow-transform,Tensorflow,Apache Beam,Tensorflow Transform,我希望通过apache beam完成以下工作。 特别是一个tensorflow神经网络的预处理 对于文件夹中的每个文件。 对于文件中的每一行 流程线至1d浮点数列表 我需要每个返回都是每个文件的二维浮动列表 我想我可以通过创建嵌套管道来实现这一点。 我可以在另一条管道的ParDo中创建并运行一条管道 这似乎效率低下,但我的问题似乎是一个相当标准的用例 在ApacheBeam中有没有更好的工具 有没有办法重组我的问题,使它在ApacheBeam中更好地工作 嵌套管道没有我想象的那么糟
特别是一个tensorflow神经网络的预处理
- 对于文件夹中的每个文件。
- 对于文件中的每一行
- 流程线至1d浮点数列表
- 对于文件中的每一行
我可以在另一条管道的ParDo中创建并运行一条管道 这似乎效率低下,但我的问题似乎是一个相当标准的用例
- 在ApacheBeam中有没有更好的工具李>
- 有没有办法重组我的问题,使它在ApacheBeam中更好地工作李>
- 嵌套管道没有我想象的那么糟糕吗李>
感谢Apache Beam是使用Tensorflow对机器学习数据进行预处理的绝佳工具。有关此通用用例和
tf.Transform
的更多信息,请参阅本文档
没有任何描述表明需要“嵌套管道”。处理目录中每个文件的每一行是一个简单的TextIO.Read
转换。现在还不清楚您的需求是什么,但是,一般来说,将线路分为浮点数并与其他线路连接是简单的ParDo和分组操作
作为一般指导,我会避免嵌套管道,并尝试将问题分解为单个管道。谢谢,我不理解分组函数。