Stream 存储处理后的文本数据以流式传输到gensim的最佳方式？_Stream_Nlp_Storage_Gensim_Word2vec

Stream 存储处理后的文本数据以流式传输到gensim的最佳方式？

stream nlp

Stream 存储处理后的文本数据以流式传输到gensim的最佳方式？,stream,nlp,storage,gensim,word2vec,Stream,Nlp,Storage,Gensim,Word2vec,我有几百个pandas数据帧，每个数据帧都有一列非常长的字符串，在使用word2vec建模之前，需要对这些字符串进行处理/判刑并最终标记我可以将它们以任何格式存储在磁盘上，然后构建流将它们传递给gensim的word2vec函数什么格式最好，为什么？最重要的标准是性能对比培训（这将需要很多天），但文件系统的一致结构也很好存储数百万甚至数十亿个文本文件，每个文件包含一句话，这会是疯狂的吗？或者某种数据库？如果这是数字数据，我会使用hdf5。但它是文本。最干净的方法是将它们存储在原始数据帧中，

我有几百个pandas数据帧，每个数据帧都有一列非常长的字符串，在使用word2vec建模之前，需要对这些字符串进行处理/判刑并最终标记

我可以将它们以任何格式存储在磁盘上，然后构建流将它们传递给gensim的word2vec函数

什么格式最好，为什么？最重要的标准是性能对比培训（这将需要很多天），但文件系统的一致结构也很好

存储数百万甚至数十亿个文本文件，每个文件包含一句话，这会是疯狂的吗？或者某种数据库？如果这是数字数据，我会使用hdf5。但它是文本。最干净的方法是将它们存储在原始数据帧中，但从i/o的角度来看，这似乎不太理想，因为我必须在每个历元中加载每个数据帧（更大）

这里最有意义的是什么？

当您对希望成为单个培训课程一部分的所有源数据进行预处理/标记化时，请将结果附加到单个纯文本文件中

使用空格分隔的单词，并以换行符结束每个“句子”（或任何其他长度小于10000单词的有用文本块）

然后，您可以使用

corpus\u文件

选项指定预先标记的培训数据，并将获得最大可能的多线程好处。（该模式将引导每个线程在单个文件的范围内打开自己的视图，所以在任何分发线程上都并没有阻塞。）