Apache spark Apache spark Word2Vec中的迭代次数和分区数量是如何关联的?
根据文献[1]:Apache spark Apache spark Word2Vec中的迭代次数和分区数量是如何关联的?,apache-spark,apache-spark-mllib,word2vec,Apache Spark,Apache Spark Mllib,Word2vec,根据文献[1]: def setNumIterations(numIterations: Int): Word2Vec.this.type 设置迭代次数(默认值:1),迭代次数应小于或等于分区数 设置分区数(默认值:1)。使用一个小的数字以确保准确性 但在此[2]中: 为了使我们的实现更具可伸缩性,我们训练每个分区 在每次迭代后分别合并每个分区的模型。 为了使模型更精确,可能需要多次迭代 问题: 参数numIterations和numPartitions如何影响算法的内部工作 考虑到以下规则
def setNumIterations(numIterations: Int): Word2Vec.this.type
设置迭代次数(默认值:1),迭代次数应小于或等于分区数
设置分区数(默认值:1)。使用一个小的数字以确保准确性
但在此[2]中:
为了使我们的实现更具可伸缩性,我们训练每个分区
在每次迭代后分别合并每个分区的模型。
为了使模型更精确,可能需要多次迭代
问题:
- 参数numIterations和numPartitions如何影响算法的内部工作
- 考虑到以下规则,在设置分区数量和迭代次数之间是否存在权衡
- 更准确->更多迭代a/c到[2]
- 更多迭代->更多分区a/c到[1]
- 更多的分区->更少的精度
def setNumPartitions(numPartitions: Int): Word2Vec.this.type