Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Mahout recommender、Flink、Spark MLLib和#x27;灰盒&x27;_Apache Spark_Apache Flink_Mahout Recommender - Fatal编程技术网

Apache spark Mahout recommender、Flink、Spark MLLib和#x27;灰盒&x27;

Apache spark Mahout recommender、Flink、Spark MLLib和#x27;灰盒&x27;,apache-spark,apache-flink,mahout-recommender,Apache Spark,Apache Flink,Mahout Recommender,我是Mahout轮回的新手,我试图理解不同项目的“领域”以及它们之间的关系。 我知道ApacheMahout Samsara不赞成许多MapReduce算法,并且它将基于ApacheFlink或Spark或其他引擎,如h2o(基于“ApacheMahout:Beyond MapReduce”一书的介绍) 我想尝试一些推荐算法,但我不太确定什么是新的,什么是“不推荐的”。我看到以下链接 参考spark row similarity和spark items similarity。(我不明白这

我是Mahout轮回的新手,我试图理解不同项目的“领域”以及它们之间的关系。 我知道ApacheMahout Samsara不赞成许多MapReduce算法,并且它将基于ApacheFlink或Spark或其他引擎,如h2o(基于“ApacheMahout:Beyond MapReduce”一书的介绍)

我想尝试一些推荐算法,但我不太确定什么是新的,什么是“不推荐的”。我看到以下链接

参考
spark row similarity
spark items similarity
。(我不明白这些链接是在谈论一种脱离自我的算法还是一种设计……这可能是一种设计,因为它们没有列在mahout dot apachedot org/users/basics/algorithms.html上……总之……)

同时,ApacheFlink(或者是SparkMLLIB?)实现了ALS推荐算法(和)

一般问题:

  • 是因为mahout.apache.org中的这些算法已被弃用,并且正在将它们迁移到Flink/Spark MLLib,以便Flink/Spark MLLib的ML库和支持将增长吗

  • Flink/Spark MLLib更像是一个引擎还是引擎+算法库,对算法有很好的支持

其他有助于对话的链接:

具体问题:

  • 我想尝试一个推荐算法作为“灰盒”(一部分是“黑盒”,因为我不想深入到数学中去,另一部分是“白盒”,因为我想调整模型和数学到需要改进结果的程度)

  • 我对其他ML算法还不感兴趣。我考虑从现成的开始,然后改变MLLib的ALS实现。这是一个好办法吗?还有其他建议吗


    • Spark itemsimilarity和Spark RowSimilarity是命令行可访问的驱动程序。它们是基于《Mahout轮回》中的课程。这些说明适用于自v0.10.0起支持的运行代码

      该链接显示哪个“计算引擎”支持哪些算法。“Mapreduce”列中的任何内容都将被弃用

      也就是说,与0.10.0之前的Mahout相比,Mahout轮回不是一个算法集合。它现在有一个类似于R的DSL,其中包括广义张量数学,大多数Mahout轮回算法都是从这个DSL构建的。所以,把Mahout想象成一个“滚动你自己的数学和算法”工具。但每种产品都可以根据您选择的计算引擎进行扩展。引擎本身也可以本地使用,因此您不必只使用抽象的DSL

      关于Mahout轮回与MLlib或任何algo lib的关系,将会有重叠,并且可以在代码中互换使用

      关于推荐人,新的SimilarityAnalysis.coccurrence实现了一项重大创新,称为交叉出现,它允许推荐人吸收关于用户或用户上下文的几乎任何已知信息,甚至可以解释项目内容的相似性。Mahout轮回部分是相关交叉发生的引擎。请参见此处描述算法的一些幻灯片:


      使用PredictionIO框架(PIO本身现在是一个提议的Apache孵化器项目)对此有一个完整的端到端实现,该框架已经成熟,可以使用以下说明进行安装:

      Spark itemsimilarity和Spark RowSimilarity是命令行可访问的驱动程序。它们是基于《Mahout轮回》中的课程。这些说明适用于自v0.10.0起支持的运行代码

      该链接显示哪个“计算引擎”支持哪些算法。“Mapreduce”列中的任何内容都将被弃用

      也就是说,与0.10.0之前的Mahout相比,Mahout轮回不是一个算法集合。它现在有一个类似于R的DSL,其中包括广义张量数学,大多数Mahout轮回算法都是从这个DSL构建的。所以,把Mahout想象成一个“滚动你自己的数学和算法”工具。但每种产品都可以根据您选择的计算引擎进行扩展。引擎本身也可以本地使用,因此您不必只使用抽象的DSL

      关于Mahout轮回与MLlib或任何algo lib的关系,将会有重叠,并且可以在代码中互换使用

      关于推荐人,新的SimilarityAnalysis.coccurrence实现了一项重大创新,称为交叉出现,它允许推荐人吸收关于用户或用户上下文的几乎任何已知信息,甚至可以解释项目内容的相似性。Mahout轮回部分是相关交叉发生的引擎。请参见此处描述算法的一些幻灯片:


      使用PredictionIO框架有一个完整的端到端实现(PIO本身现在是一个提议的Apache孵化器项目)这已经很成熟了,可以按照以下说明安装:

      我在Flink上使用ML已经有一段时间了,我正在做大量的侦察工作,我正在监视这个生态系统中发生的事情。你所问的意味着项目之间的合理协调,而这根本不存在。算法一次又一次地被重新实现,就我所见,这样做比与不同的框架集成更容易。轮回它实际上是最可移植的解决方案之一,但它只适用于少数应用程序

      是因为mahout.apache.org中的这些算法已被弃用,并且正在将它们迁移到Flink/Spark MLLib,以便Flink/Spark MLLib的ML库和支持将增长吗

      正如我所说,这需要项目之间的协调,而这不是一件事

      Flink/Spark MLLib更像是一个引擎还是引擎+算法库,对算法有很好的支持

      它们应该是ide中的第一件事