Python 将从tensorflow.keras.preprocessing.text\u dataset\u from_directory（）获得的数据集保存在外部文件中_Python_Tensorflow_Keras

Python 将从tensorflow.keras.preprocessing.text\u dataset\u from_directory（）获得的数据集保存在外部文件中

python tensorflow keras

Python 将从tensorflow.keras.preprocessing.text\u dataset\u from_directory（）获得的数据集保存在外部文件中,python,tensorflow,keras,Python,Tensorflow,Keras,我可以将从tensorflow.keras.preprocessing.text\u dataset\u从目录（）中获取的数据集保存在外部文件中吗？我正在看报纸，但我不确定这是否可能对@Lescurel问题的回答我之所以要这样做，是因为我想避免每次都进行预处理，并且在预处理完成时必须等待。而且，因为我想看看这个新保存的文件是否占用了我计算机中更少的空间实际上，我不在乎格式。我认为，如果可以做到这一点，它将已经有了一个每个人都使用的标准格式非常感谢。从技术上讲，这是可能的但你不想这

我可以将从tensorflow.keras.preprocessing.text\u dataset\u从目录（）中获取的数据集保存在外部文件中吗？

我正在看报纸，但我不确定这是否可能

对@Lescurel问题的回答

我之所以要这样做，是因为我想避免每次都进行预处理，并且在预处理完成时必须等待。而且，因为我想看看这个新保存的文件是否占用了我计算机中更少的空间

实际上，我不在乎格式。我认为，如果可以做到这一点，它将已经有了一个每个人都使用的标准格式

非常感谢。

从技术上讲，这是可能的

但你不想这样，因为：

预处理.text\u dataset\u from\u目录

创建一个基于生成器的数据集，该数据集支持

实时加载数据
每个历元后洗牌（用于训练）
预取和其他功能

如果您只是将一个无序数据集保存为计算机上的文件，则必须再次执行此操作。如果数据集将/变得比RAM大，您也必须关心这一点

如果您仍然想这样做：您可以使用dataset.take（1）获取批数据，然后保存所有单个字符串（使用

for..in

）或pickle写入二进制对象。。。但我重复我自己：你不想那样做

如果您想预先进行预处理，请使用一个可处理文本文件的程序，并再次将其保存为文本文件（例如，用于清理等）-但请注意，您以后必须对测试和生产数据执行相同的操作，因此从（keras）管道中删除的所有内容都必须考虑您自己。

您能详细说明吗？您希望以什么格式保存数据集，原因是什么？@Lescurel我已经在问题本身中回答了！谢谢非常感谢。我不确定我是否想要它，这是一个想法，我想知道其他人是否想要它。因此，非常感谢您的解释。：）

from tensorflow.keras import preprocessing

train_ds = preprocessing.text_dataset_from_directory(
    directory = 'aclImdb/train',
    validation_split= 0.2,
    subset= 'training', # Estamos en training
    shuffle = True,
    seed= 689
)

val_ds = preprocessing.text_dataset_from_directory(
    directory = 'aclImdb/train',
    validation_split= 0.2,
    subset= 'validation',
    shuffle = True,
    seed= 689
)

test_ds = preprocessing.text_dataset_from_directory(
    directory = 'aclImdb/test'
)