一旦ApacheBeam支持Python3,tf.data会集成到tf.Transform中吗?
读到关于TFX,Kubeflow,Beam,Flink和我越来越困惑。我很好奇TensorFlow团队打算向规范化ETL API推广什么,以用于培训Keras模型 我目前对一旦ApacheBeam支持Python3,tf.data会集成到tf.Transform中吗?,python,tensorflow,keras,tensorflow-datasets,tensorflow-transform,Python,Tensorflow,Keras,Tensorflow Datasets,Tensorflow Transform,读到关于TFX,Kubeflow,Beam,Flink和我越来越困惑。我很好奇TensorFlow团队打算向规范化ETL API推广什么,以用于培训Keras模型 我目前对tf.keras中的tf.data支持非常满意,但有两件事非常缺失: 用于标准化特征/目标的数据集缩减 完整数据集洗牌和持久的每元素缓存(例如,相当于使用numy memmap进行索引排列) 我的直觉是tf.data的存在是因为tf.Transform。一旦这个问题最终得到解决,tf.data的未来是什么?它将被集成到tf.T
tf.keras
中的tf.data
支持非常满意,但有两件事非常缺失:
tf.data
的存在是因为tf.Transform
。一旦这个问题最终得到解决,tf.data的未来是什么?它将被集成到tf.Transform
中,还是反过来?tf.data
最终会独立于Apache Beam的状态获得上述功能吗
TL;DR:培训Keras模型的标准ETL API是什么?TensorFlower能否澄清TensorFlow生态系统的计划以及如何将其整合在一起?
PS:
tensorflow\u io
和tensorflow\u数据集
在哪里适合所有这些?他们似乎对轮子做了很多改造,而不是依赖于tf.Transform
我没有看到任何地方说tf-Transform只在Python 2中工作。他们和中的徽章都建议Python2.7+和Python3.5+应该可以工作。我也是。我不认为这就是为什么它是一个单独的包的原因,我认为原因是大多数TF用户不需要或不想安装ApacheBeam<代码>tf。数据已经成为tf的核心,因此我认为它不会很快出现在任何地方。关于tensorflow\u io
,它实际上只是支持数据源。对于不使用Beam或类似工具的人来说,它也很有用,我认为它添加了太多“特定于供应商”的内容,无法成为主流TFtensorflow_数据集
只是一组具有特定API的数据集。再一次,我认为它对于主TF来说太具体了,甚至只是它的通用部分,而且它或多或少地与TF的其余部分断开连接,直到as\u dataset
。也就是说,似乎有一些加倍的努力最终可能会被重构。