一旦ApacheBeam支持Python3，tf.data会集成到tf.Transform中吗？_Python_Tensorflow_Keras_Tensorflow Datasets_Tensorflow Transform

一旦ApacheBeam支持Python3，tf.data会集成到tf.Transform中吗？

python tensorflow keras

一旦ApacheBeam支持Python3，tf.data会集成到tf.Transform中吗？,python,tensorflow,keras,tensorflow-datasets,tensorflow-transform,Python,Tensorflow,Keras,Tensorflow Datasets,Tensorflow Transform,读到关于TFX，Kubeflow，Beam，Flink和我越来越困惑。我很好奇TensorFlow团队打算向规范化ETL API推广什么，以用于培训Keras模型我目前对tf.keras中的tf.data支持非常满意，但有两件事非常缺失：用于标准化特征/目标的数据集缩减完整数据集洗牌和持久的每元素缓存（例如，相当于使用numy memmap进行索引排列）我的直觉是tf.data的存在是因为tf.Transform。一旦这个问题最终得到解决，tf.data的未来是什么？它将被集成到tf.T

读到关于TFX，Kubeflow，Beam，Flink和我越来越困惑。我很好奇TensorFlow团队打算向规范化ETL API推广什么，以用于培训Keras模型

我目前对

tf.keras

中的

tf.data

支持非常满意，但有两件事非常缺失：

用于标准化特征/目标的数据集缩减

完整数据集洗牌和持久的每元素缓存（例如，相当于使用numy memmap进行索引排列）

我的直觉是

tf.data

的存在是因为

tf.Transform

。一旦这个问题最终得到解决，tf.data的未来是什么？它将被集成到

tf.Transform

中，还是反过来？

tf.data

最终会独立于Apache Beam的状态获得上述功能吗

TL；DR：培训Keras模型的标准ETL API是什么？TensorFlower能否澄清TensorFlow生态系统的计划以及如何将其整合在一起？

PS：

tensorflow\u io

和

tensorflow\u数据集

在哪里适合所有这些？他们似乎对轮子做了很多改造，而不是依赖于

tf.Transform

我没有看到任何地方说tf-Transform只在Python 2中工作。他们和中的徽章都建议Python2.7+和Python3.5+应该可以工作。我也是。我不认为这就是为什么它是一个单独的包的原因，我认为原因是大多数TF用户不需要或不想安装ApacheBeam<代码>tf。数据已经成为tf的核心，因此我认为它不会很快出现在任何地方。关于

tensorflow\u io

，它实际上只是支持数据源。对于不使用Beam或类似工具的人来说，它也很有用，我认为它添加了太多“特定于供应商”的内容，无法成为主流TF

tensorflow_数据集

只是一组具有特定API的数据集。再一次，我认为它对于主TF来说太具体了，甚至只是它的通用部分，而且它或多或少地与TF的其余部分断开连接，直到

as\u dataset

。也就是说，似乎有一些加倍的努力最终可能会被重构。