Apache spark 在100+上训练Word2Vec；GB数据_Apache Spark_Tensorflow_Nlp_Word2vec

Apache spark 在100+上训练Word2Vec；GB数据

apache-spark tensorflow nlp

Apache spark 在100+上训练Word2Vec；GB数据,apache-spark,tensorflow,nlp,word2vec,Apache Spark,Tensorflow,Nlp,Word2vec,我有超过100Gb的文本数据存储在s3的多拼花文件中。我需要在这方面训练Word2Vec模型。我尝试使用Spark，但它遇到超过10GB数据的内存错误我的下一个选择是在EMR上使用TensorFlow进行训练。但我无法决定在这种情况下，什么样的培训策略才是正确的？一个大节点或多个小节点，该节点的大小应该是多少。tensorflow如何管理分布式数据？批量培训是一种选择吗？请注意：在Spark中，W2Vec培训不受培训数据集大小的限制（我指的是文档的数量或长度）。限制因素（通常）是必须适合一个节

我有超过100Gb的文本数据存储在s3的多拼花文件中。我需要在这方面训练Word2Vec模型。我尝试使用Spark，但它遇到超过10GB数据的内存错误

我的下一个选择是在EMR上使用TensorFlow进行训练。但我无法决定在这种情况下，什么样的培训策略才是正确的？一个大节点或多个小节点，该节点的大小应该是多少。tensorflow如何管理分布式数据？批量培训是一种选择吗？

请注意：在Spark中，W2Vec培训不受培训数据集大小的限制（我指的是文档的数量或长度）。限制因素（通常）是必须适合一个节点的最终矩阵的大小。它的大小是

{distinct words}*{dimensions}*{size of float}

。如果您的OutOfMemory失败，可能是因为您的训练集中有太多不同的单词，柠檬化和/或阈值化通常会有所帮助。您能详细介绍一下培训数据集的性质吗？谢谢，这里有很多不同的词。仅英语就超过300万人。事实上，我也需要考虑二重唱和三重唱，因此不同的词会爆炸。我正在youtube评论数据上进行培训。请注意：在Spark中，W2Vec培训不受培训数据集大小的限制（我指的是文档的数量或长度）。限制因素（通常）是必须适合一个节点的最终矩阵的大小。它的大小是

{distinct words}*{dimensions}*{size of float}

。如果您的OutOfMemory失败，可能是因为您的训练集中有太多不同的单词，柠檬化和/或阈值化通常会有所帮助。您能详细介绍一下培训数据集的性质吗？谢谢，这里有很多不同的词。仅英语就超过300万人。事实上，我也需要考虑二重唱和三重唱，因此不同的词会爆炸。我正在接受youtube评论数据培训。