Lua 在大数据集上训练单词嵌入时如何处理内存问题？_Lua_Deep Learning_Lua Table_Torch_Word Embedding

Lua 在大数据集上训练单词嵌入时如何处理内存问题？

lua deep-learning

Lua 在大数据集上训练单词嵌入时如何处理内存问题？,lua,deep-learning,lua-table,torch,word-embedding,Lua,Deep Learning,Lua Table,Torch,Word Embedding,我想训练一个单词可预测性任务来生成单词嵌入。文档集合包含243k个文档。代码实现在torch中。我正在与庞大的数据集作斗争，需要了解如何在这样一个包含243000个全文文档的大型数据集上训练单词嵌入。研究计算资源是定时的，因此短时间访问GPU节点，因此选择增量模型培训：增量模型训练：在整个数据集上训练的一种方法是使用增量模型训练，即在一块数据上训练模型并保存它。稍后，选择相同的预训练模型，并开始对其下一块数据进行训练。在这种方法中，我面临的问题是如何维护词汇表/词汇词典。在单词嵌入方法中，di

我想训练一个单词可预测性任务来生成单词嵌入。文档集合包含243k个文档。代码实现在torch中。我正在与庞大的数据集作斗争，需要了解如何在这样一个包含243000个全文文档的大型数据集上训练单词嵌入。研究计算资源是定时的，因此短时间访问GPU节点，因此选择增量模型培训：

增量模型训练：在整个数据集上训练的一种方法是使用增量模型训练，即在一块数据上训练模型并保存它。稍后，选择相同的预训练模型，并开始对其下一块数据进行训练。在这种方法中，我面临的问题是如何维护词汇表/词汇词典。在单词嵌入方法中，dictionary/vocab起着重要的作用。我们扫描所有文档，创建计数大于最小设置频率的单词的vocab。现在，实际上这个vocab是一个hash映射，它有与每个单词相关联的索引，在训练样本中，为了简化模型，我们在vocab中将单词替换为它们的索引。在增量培训的情况下，如何增量创建字典？我是否必须首先在整个文档上创建vocab/字典，然后逐步进行培训？或者，在增量训练中，这也是扩展vocab的一种方法

另一个问题是vocab数据结构大小的内存限制。我正在基于LUA的Torch中实现我的模型。所以，LUA限制了表的大小，我不能在一个表中加载整个文档的vocab。如何克服这些记忆问题

从手套向量中获得灵感。在他们的论文中，他们说“我们在五个不同规模的语料库上训练了我们的模型：2010年维基百科转储10亿个令牌；2014年维基百科转储16亿个to-kens；Gigaword5有43亿个令牌；Gigaword5+Wikipedia2014组合有60亿个令牌；以及420亿个web数据令牌，来自普通爬网5。我们标记化和小写使用斯坦福标记器（Stanford tokenizer）创建一个语料库，构建一个包含400000个最常用单词的词汇表6，然后构建一个共现计数矩阵X”。关于手套向量如何在如此大的语料库和词汇表上进行训练，以及如何处理其情况下的内存限制，有什么想法吗？参考文献-

如何限制生成单词嵌入的数据集的大小？随着文档数量的增加或减少，它会如何影响单词嵌入的性能或覆盖率？使用采样技术从数据集中采样文档是否是一个好主意？如果是，请建议一些采样技术部分回答如下：