Apache spark Spark的ALS中唯一项目的数量限制是多少?

Apache spark Spark的ALS中唯一项目的数量限制是多少?,apache-spark,Apache Spark,我正在使用Spark的ALS recommender实现工作中的一个项目,关于它将如何处理规模,有很多讨论正在进行。但不包括活动的数量,也不包括产品目录中的项目数量 我关心的是Spark RowMatrix对象在分解任务中可以处理的列数有一个硬限制。显然,ALS采用RDD形式的稀疏矩阵: 然而,我在任何地方都找不到任何关于它是否在后端构建密集矩阵的讨论,因为>65k项,我可能会遇到列限制。关于Spark的ALS实施的实际局限性是否有任何讨论或文档记录?基本上是RowMatrix.computeP

我正在使用Spark的ALS recommender实现工作中的一个项目,关于它将如何处理规模,有很多讨论正在进行。但不包括活动的数量,也不包括产品目录中的项目数量

我关心的是Spark RowMatrix对象在分解任务中可以处理的列数有一个硬限制。显然,ALS采用RDD形式的稀疏矩阵:

然而,我在任何地方都找不到任何关于它是否在后端构建密集矩阵的讨论,因为>65k项,我可能会遇到列限制。关于Spark的ALS实施的实际局限性是否有任何讨论或文档记录?

基本上是RowMatrix.computePrincipalComponents与流程完全无关。ml.ALS不使用mllib.linalg数据结构。ml.ALS使用自己的分块算法


理论极限是标识符Int或Long的范围,具体取决于专业化,但我怀疑它是否曾经针对这样的数据集进行过测试。

我很感激后续的工作。computePrincipalComponents函数是链接,因为它提到了列限制。我知道在分解过程中没有用到它,但我只是想指出一些引用65k列限制的文档。不过,我不知道分块算法。这在一定程度上让我安心。。。但是我想负载测试是这里唯一的答案?
sc.parallelize([(usr, itm, rtg), (usr2, itm2, rtg)])