Lua 在大数据集上训练单词嵌入时如何处理内存问题?
我想训练一个单词可预测性任务来生成单词嵌入。文档集合包含243k个文档。代码实现在torch中。我正在与庞大的数据集作斗争,需要了解如何在这样一个包含243000个全文文档的大型数据集上训练单词嵌入。研究计算资源是定时的,因此短时间访问GPU节点,因此选择增量模型培训:Lua 在大数据集上训练单词嵌入时如何处理内存问题?,lua,deep-learning,lua-table,torch,word-embedding,Lua,Deep Learning,Lua Table,Torch,Word Embedding,我想训练一个单词可预测性任务来生成单词嵌入。文档集合包含243k个文档。代码实现在torch中。我正在与庞大的数据集作斗争,需要了解如何在这样一个包含243000个全文文档的大型数据集上训练单词嵌入。研究计算资源是定时的,因此短时间访问GPU节点,因此选择增量模型培训: 增量模型训练:在整个数据集上训练的一种方法是使用增量模型训练,即在一块数据上训练模型并保存它。稍后,选择相同的预训练模型,并开始对其下一块数据进行训练。在这种方法中,我面临的问题是如何维护词汇表/词汇词典。在单词嵌入方法中,di