Nlp 使用GoogleNews向量模型的GENIM内存错误

Nlp 使用GoogleNews向量模型的GENIM内存错误,nlp,gensim,word2vec,Nlp,Gensim,Word2vec,当我使用GoogleNews-vectors-negative300.bin或尝试使用wikipedia数据集语料库(1GB)使用Gensim训练模型时,我遇到内存错误。我的系统中有4GB内存。有没有办法绕过这个 我们可以把它放在AWS这样的云服务上以获得更好的速度吗?4GB对于那个向量集来说非常紧凑;您应该有8GB或更大的容量来加载完整的数据集。或者,您可以使用可选的limit参数load\u word2vec\u format()来加载一些向量。例如,limit=500000只加载前5000

当我使用GoogleNews-vectors-negative300.bin或尝试使用wikipedia数据集语料库(1GB)使用Gensim训练模型时,我遇到内存错误。我的系统中有4GB内存。有没有办法绕过这个


我们可以把它放在AWS这样的云服务上以获得更好的速度吗?

4GB对于那个向量集来说非常紧凑;您应该有8GB或更大的容量来加载完整的数据集。或者,您可以使用可选的
limit
参数
load\u word2vec\u format()
来加载一些向量。例如,
limit=500000
只加载前500000(而不是全部300万)。由于文件似乎将出现频率更高的标记放在第一位,这对于许多目的来说可能已经足够了

没有办法摆脱4G。
我可以在8G RAM Macbook Pro上加载并计算GoogleNews-vectors-negative300.bin。然而,当我在AWS上加载这个巨大的预训练向量时,我不得不将它升级到16G RAM,因为它同时为一个webapp服务。因此,基本上,如果你想在webapp上使用它,并且有安全边际,你需要16G。

加载整个谷歌新闻向量预训练模型是非常困难的。我用Jupyter笔记本在8GB的Ubuntu机器上加载了大约50000个(占总数的1/60)。是的,正如预期的那样,内存/资源的使用达到了顶点。
因此,至少使用16 GB加载整个模型是安全的,否则使用@gojomo建议的
limit=30000
作为参数。

我的应用程序使用完整的GoogleNews模型。它是停靠的。我试图通过限制分配给容器的RAM来启动我的应用程序。尝试了不同的值,发现5GB是GoogleNews模型加载和正常工作所需的最小值。