Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/293.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/tensorflow/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 将从tensorflow.keras.preprocessing.text\u dataset\u from_directory()获得的数据集保存在外部文件中_Python_Tensorflow_Keras - Fatal编程技术网

Python 将从tensorflow.keras.preprocessing.text\u dataset\u from_directory()获得的数据集保存在外部文件中

Python 将从tensorflow.keras.preprocessing.text\u dataset\u from_directory()获得的数据集保存在外部文件中,python,tensorflow,keras,Python,Tensorflow,Keras,我可以将从tensorflow.keras.preprocessing.text\u dataset\u从目录()中获取的数据集保存在外部文件中吗? 我正在看报纸,但我不确定这是否可能 对@Lescurel问题的回答 我之所以要这样做,是因为我想避免每次都进行预处理,并且在预处理完成时必须等待。而且,因为我想看看这个新保存的文件是否占用了我计算机中更少的空间 实际上,我不在乎格式。我认为,如果可以做到这一点,它将已经有了一个每个人都使用的标准格式 非常感谢。从技术上讲,这是可能的 但你不想这

我可以将从tensorflow.keras.preprocessing.text\u dataset\u从目录()中获取的数据集保存在外部文件中吗?

我正在看报纸,但我不确定这是否可能


对@Lescurel问题的回答

我之所以要这样做,是因为我想避免每次都进行预处理,并且在预处理完成时必须等待。而且,因为我想看看这个新保存的文件是否占用了我计算机中更少的空间

实际上,我不在乎格式。我认为,如果可以做到这一点,它将已经有了一个每个人都使用的标准格式



非常感谢。

从技术上讲,这是可能的

但你不想这样,因为:
预处理.text\u dataset\u from\u目录
创建一个基于生成器的数据集,该数据集支持

  • 实时加载数据
  • 每个历元后洗牌(用于训练)
  • 预取和其他功能
如果您只是将一个无序数据集保存为计算机上的文件,则必须再次执行此操作。如果数据集将/变得比RAM大,您也必须关心这一点

如果您仍然想这样做:您可以使用dataset.take(1)获取批数据,然后保存所有单个字符串(使用
for..in
)或pickle写入二进制对象。。。但我重复我自己:你不想那样做


如果您想预先进行预处理,请使用一个可处理文本文件的程序,并再次将其保存为文本文件(例如,用于清理等)-但请注意,您以后必须对测试和生产数据执行相同的操作,因此从(keras)管道中删除的所有内容都必须考虑您自己。

您能详细说明吗?您希望以什么格式保存数据集,原因是什么?@Lescurel我已经在问题本身中回答了!谢谢非常感谢。我不确定我是否想要它,这是一个想法,我想知道其他人是否想要它。因此,非常感谢您的解释。:)
from tensorflow.keras import preprocessing

train_ds = preprocessing.text_dataset_from_directory(
    directory = 'aclImdb/train',
    validation_split= 0.2,
    subset= 'training', # Estamos en training
    shuffle = True,
    seed= 689
)

val_ds = preprocessing.text_dataset_from_directory(
    directory = 'aclImdb/train',
    validation_split= 0.2,
    subset= 'validation',
    shuffle = True,
    seed= 689
)

test_ds = preprocessing.text_dataset_from_directory(
    directory = 'aclImdb/test'
)