Stream 存储处理后的文本数据以流式传输到gensim的最佳方式?

Stream 存储处理后的文本数据以流式传输到gensim的最佳方式?,stream,nlp,storage,gensim,word2vec,Stream,Nlp,Storage,Gensim,Word2vec,我有几百个pandas数据帧,每个数据帧都有一列非常长的字符串,在使用word2vec建模之前,需要对这些字符串进行处理/判刑并最终标记 我可以将它们以任何格式存储在磁盘上,然后构建流将它们传递给gensim的word2vec函数 什么格式最好,为什么?最重要的标准是性能对比培训(这将需要很多天),但文件系统的一致结构也很好 存储数百万甚至数十亿个文本文件,每个文件包含一句话,这会是疯狂的吗?或者某种数据库?如果这是数字数据,我会使用hdf5。但它是文本。最干净的方法是将它们存储在原始数据帧中,

我有几百个pandas数据帧,每个数据帧都有一列非常长的字符串,在使用word2vec建模之前,需要对这些字符串进行处理/判刑并最终标记

我可以将它们以任何格式存储在磁盘上,然后构建流将它们传递给gensim的word2vec函数

什么格式最好,为什么?最重要的标准是性能对比培训(这将需要很多天),但文件系统的一致结构也很好

存储数百万甚至数十亿个文本文件,每个文件包含一句话,这会是疯狂的吗?或者某种数据库?如果这是数字数据,我会使用hdf5。但它是文本。最干净的方法是将它们存储在原始数据帧中,但从i/o的角度来看,这似乎不太理想,因为我必须在每个历元中加载每个数据帧(更大)


这里最有意义的是什么?

当您对希望成为单个培训课程一部分的所有源数据进行预处理/标记化时,请将结果附加到单个纯文本文件中

使用空格分隔的单词,并以换行符结束每个“句子”(或任何其他长度小于10000单词的有用文本块)

然后,您可以使用
corpus\u文件
选项指定预先标记的培训数据,并将获得最大可能的多线程好处。(该模式将引导每个线程在单个文件的范围内打开自己的视图,所以在任何分发线程上都并没有阻塞。)