Apache spark 在100+上训练Word2Vec;GB数据

Apache spark 在100+上训练Word2Vec;GB数据,apache-spark,tensorflow,nlp,word2vec,Apache Spark,Tensorflow,Nlp,Word2vec,我有超过100Gb的文本数据存储在s3的多拼花文件中。我需要在这方面训练Word2Vec模型。我尝试使用Spark,但它遇到超过10GB数据的内存错误 我的下一个选择是在EMR上使用TensorFlow进行训练。但我无法决定在这种情况下,什么样的培训策略才是正确的?一个大节点或多个小节点,该节点的大小应该是多少。tensorflow如何管理分布式数据?批量培训是一种选择吗?请注意:在Spark中,W2Vec培训不受培训数据集大小的限制(我指的是文档的数量或长度)。限制因素(通常)是必须适合一个节

我有超过100Gb的文本数据存储在s3的多拼花文件中。我需要在这方面训练Word2Vec模型。我尝试使用Spark,但它遇到超过10GB数据的内存错误


我的下一个选择是在EMR上使用TensorFlow进行训练。但我无法决定在这种情况下,什么样的培训策略才是正确的?一个大节点或多个小节点,该节点的大小应该是多少。tensorflow如何管理分布式数据?批量培训是一种选择吗?

请注意:在Spark中,W2Vec培训不受培训数据集大小的限制(我指的是文档的数量或长度)。限制因素(通常)是必须适合一个节点的最终矩阵的大小。它的大小是
{distinct words}*{dimensions}*{size of float}
。如果您的OutOfMemory失败,可能是因为您的训练集中有太多不同的单词,柠檬化和/或阈值化通常会有所帮助。您能详细介绍一下培训数据集的性质吗?谢谢,这里有很多不同的词。仅英语就超过300万人。事实上,我也需要考虑二重唱和三重唱,因此不同的词会爆炸。我正在youtube评论数据上进行培训。请注意:在Spark中,W2Vec培训不受培训数据集大小的限制(我指的是文档的数量或长度)。限制因素(通常)是必须适合一个节点的最终矩阵的大小。它的大小是
{distinct words}*{dimensions}*{size of float}
。如果您的OutOfMemory失败,可能是因为您的训练集中有太多不同的单词,柠檬化和/或阈值化通常会有所帮助。您能详细介绍一下培训数据集的性质吗?谢谢,这里有很多不同的词。仅英语就超过300万人。事实上,我也需要考虑二重唱和三重唱,因此不同的词会爆炸。我正在接受youtube评论数据培训。