Optimization 将文件转换为HDF5格式

Optimization 将文件转换为HDF5格式,optimization,text,hdf5,binaries,Optimization,Text,Hdf5,Binaries,我想在我的大学提供的hpc集群上培训我的word2vec模型。但是,有人告诉我,为了优化集群上的存储,我必须将数据转换为HDF5,并将数据上传到集群中。我的数据由txt文件组成(基本上是我想训练word2vec的txt文件)。我应该如何将txt文件转换为HDF5 我正在浏览,但似乎找不到用于txt文件的工具,或者我应该编写特定脚本吗?您的重点应该放在文本文件中的数据上。你有什么样的数据,你想如何组织它?这将帮助您定义所需的HDF5模式/结构。在HDF5中,组和数据集组织数据。一旦定义了这些文件,

我想在我的大学提供的hpc集群上培训我的word2vec模型。但是,有人告诉我,为了优化集群上的存储,我必须将数据转换为HDF5,并将数据上传到集群中。我的数据由txt文件组成(基本上是我想训练word2vec的txt文件)。我应该如何将txt文件转换为HDF5


我正在浏览,但似乎找不到用于txt文件的工具,或者我应该编写特定脚本吗?

您的重点应该放在文本文件中的数据上。你有什么样的数据,你想如何组织它?这将帮助您定义所需的HDF5模式/结构。在HDF5中,组和数据集组织数据。一旦定义了这些文件,您就可以使用它们来保存和访问数据。@kcw78我有大量的txt文件,每个文件都描述了我想要训练word2vec模型的特定文档。将所有txt文件作为字符串列表并从中创建hd5f字符串数据集是一种好方法吗?我处理科学数据(主要是浮动数据),因此不能对字符串数据进行评论。可变长度字符串在加载到HDF5时会进行特殊处理。您可能看不到文件大小有多大的减少。在做出重大努力之前,我建议使用您的数据子集进行一些测试。