Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/lua/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Lua 在大数据集上训练单词嵌入时如何处理内存问题?_Lua_Deep Learning_Lua Table_Torch_Word Embedding - Fatal编程技术网

Lua 在大数据集上训练单词嵌入时如何处理内存问题?

Lua 在大数据集上训练单词嵌入时如何处理内存问题?,lua,deep-learning,lua-table,torch,word-embedding,Lua,Deep Learning,Lua Table,Torch,Word Embedding,我想训练一个单词可预测性任务来生成单词嵌入。文档集合包含243k个文档。代码实现在torch中。我正在与庞大的数据集作斗争,需要了解如何在这样一个包含243000个全文文档的大型数据集上训练单词嵌入。研究计算资源是定时的,因此短时间访问GPU节点,因此选择增量模型培训: 增量模型训练:在整个数据集上训练的一种方法是使用增量模型训练,即在一块数据上训练模型并保存它。稍后,选择相同的预训练模型,并开始对其下一块数据进行训练。在这种方法中,我面临的问题是如何维护词汇表/词汇词典。在单词嵌入方法中,di

我想训练一个单词可预测性任务来生成单词嵌入。文档集合包含243k个文档。代码实现在torch中。我正在与庞大的数据集作斗争,需要了解如何在这样一个包含243000个全文文档的大型数据集上训练单词嵌入。研究计算资源是定时的,因此短时间访问GPU节点,因此选择增量模型培训:

  • 增量模型训练:在整个数据集上训练的一种方法是使用增量模型训练,即在一块数据上训练模型并保存它。稍后,选择相同的预训练模型,并开始对其下一块数据进行训练。在这种方法中,我面临的问题是如何维护词汇表/词汇词典。在单词嵌入方法中,dictionary/vocab起着重要的作用。我们扫描所有文档,创建计数大于最小设置频率的单词的vocab。现在,实际上这个vocab是一个hash映射,它有与每个单词相关联的索引,在训练样本中,为了简化模型,我们在vocab中将单词替换为它们的索引。在增量培训的情况下,如何增量创建字典?我是否必须首先在整个文档上创建vocab/字典,然后逐步进行培训?或者,在增量训练中,这也是扩展vocab的一种方法
  • 另一个问题是vocab数据结构大小的内存限制。我正在基于LUA的Torch中实现我的模型。所以,LUA限制了表的大小,我不能在一个表中加载整个文档的vocab。如何克服这些记忆问题
  • 从手套向量中获得灵感。在他们的论文中,他们说“我们在五个不同规模的语料库上训练了我们的模型:2010年维基百科转储10亿个令牌;2014年维基百科转储16亿个to-kens;Gigaword5有43亿个令牌;Gigaword5+Wikipedia2014组合有60亿个令牌;以及420亿个web数据令牌,来自普通爬网5。我们标记化和小写使用斯坦福标记器(Stanford tokenizer)创建一个语料库,构建一个包含400000个最常用单词的词汇表6,然后构建一个共现计数矩阵X”。关于手套向量如何在如此大的语料库和词汇表上进行训练,以及如何处理其情况下的内存限制,有什么想法吗?参考文献-
  • 如何限制生成单词嵌入的数据集的大小?随着文档数量的增加或减少,它会如何影响单词嵌入的性能或覆盖率?使用采样技术从数据集中采样文档是否是一个好主意?如果是,请建议一些采样技术 部分回答如下: