Nlp 使用GoogleNews向量模型的GENIM内存错误_Nlp_Gensim_Word2vec

Nlp 使用GoogleNews向量模型的GENIM内存错误

nlp

Nlp 使用GoogleNews向量模型的GENIM内存错误,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,当我使用GoogleNews-vectors-negative300.bin或尝试使用wikipedia数据集语料库（1GB）使用Gensim训练模型时，我遇到内存错误。我的系统中有4GB内存。有没有办法绕过这个我们可以把它放在AWS这样的云服务上以获得更好的速度吗？4GB对于那个向量集来说非常紧凑；您应该有8GB或更大的容量来加载完整的数据集。或者，您可以使用可选的limit参数load\u word2vec\u format（）来加载一些向量。例如，limit=500000只加载前5000

当我使用GoogleNews-vectors-negative300.bin或尝试使用wikipedia数据集语料库（1GB）使用Gensim训练模型时，我遇到内存错误。我的系统中有4GB内存。有没有办法绕过这个

我们可以把它放在AWS这样的云服务上以获得更好的速度吗？

4GB对于那个向量集来说非常紧凑；您应该有8GB或更大的容量来加载完整的数据集。或者，您可以使用可选的

limit

参数

load\u word2vec\u format（）

来加载一些向量。例如，

limit=500000

只加载前500000（而不是全部300万）。由于文件似乎将出现频率更高的标记放在第一位，这对于许多目的来说可能已经足够了

没有办法摆脱4G。

我可以在8G RAM Macbook Pro上加载并计算GoogleNews-vectors-negative300.bin。然而，当我在AWS上加载这个巨大的预训练向量时，我不得不将它升级到16G RAM，因为它同时为一个webapp服务。因此，基本上，如果你想在webapp上使用它，并且有安全边际，你需要16G。

加载整个谷歌新闻向量预训练模型是非常困难的。我用Jupyter笔记本在8GB的Ubuntu机器上加载了大约50000个（占总数的1/60）。是的，正如预期的那样，内存/资源的使用达到了顶点。

因此，至少使用16 GB加载整个模型是安全的，否则使用@gojomo建议的

limit=30000

作为参数。

我的应用程序使用完整的GoogleNews模型。它是停靠的。我试图通过限制分配给容器的RAM来启动我的应用程序。尝试了不同的值，发现5GB是GoogleNews模型加载和正常工作所需的最小值。