Python 将从tensorflow.keras.preprocessing.text\u dataset\u from_directory()获得的数据集保存在外部文件中
我可以将从tensorflow.keras.preprocessing.text\u dataset\u从目录()中获取的数据集保存在外部文件中吗? 我正在看报纸,但我不确定这是否可能Python 将从tensorflow.keras.preprocessing.text\u dataset\u from_directory()获得的数据集保存在外部文件中,python,tensorflow,keras,Python,Tensorflow,Keras,我可以将从tensorflow.keras.preprocessing.text\u dataset\u从目录()中获取的数据集保存在外部文件中吗? 我正在看报纸,但我不确定这是否可能 对@Lescurel问题的回答 我之所以要这样做,是因为我想避免每次都进行预处理,并且在预处理完成时必须等待。而且,因为我想看看这个新保存的文件是否占用了我计算机中更少的空间 实际上,我不在乎格式。我认为,如果可以做到这一点,它将已经有了一个每个人都使用的标准格式 非常感谢。从技术上讲,这是可能的 但你不想这
对@Lescurel问题的回答 我之所以要这样做,是因为我想避免每次都进行预处理,并且在预处理完成时必须等待。而且,因为我想看看这个新保存的文件是否占用了我计算机中更少的空间 实际上,我不在乎格式。我认为,如果可以做到这一点,它将已经有了一个每个人都使用的标准格式
非常感谢。从技术上讲,这是可能的 但你不想这样,因为:
预处理.text\u dataset\u from\u目录
创建一个基于生成器的数据集,该数据集支持
- 实时加载数据
- 每个历元后洗牌(用于训练)
- 预取和其他功能
for..in
)或pickle写入二进制对象。。。但我重复我自己:你不想那样做
如果您想预先进行预处理,请使用一个可处理文本文件的程序,并再次将其保存为文本文件(例如,用于清理等)-但请注意,您以后必须对测试和生产数据执行相同的操作,因此从(keras)管道中删除的所有内容都必须考虑您自己。您能详细说明吗?您希望以什么格式保存数据集,原因是什么?@Lescurel我已经在问题本身中回答了!谢谢非常感谢。我不确定我是否想要它,这是一个想法,我想知道其他人是否想要它。因此,非常感谢您的解释。:)
from tensorflow.keras import preprocessing
train_ds = preprocessing.text_dataset_from_directory(
directory = 'aclImdb/train',
validation_split= 0.2,
subset= 'training', # Estamos en training
shuffle = True,
seed= 689
)
val_ds = preprocessing.text_dataset_from_directory(
directory = 'aclImdb/train',
validation_split= 0.2,
subset= 'validation',
shuffle = True,
seed= 689
)
test_ds = preprocessing.text_dataset_from_directory(
directory = 'aclImdb/test'
)