Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm Mahout算法建议_Algorithm_Mahout - Fatal编程技术网

Algorithm Mahout算法建议

Algorithm Mahout算法建议,algorithm,mahout,Algorithm,Mahout,实际上我需要的只是一个我可以从哪里开始的提示 至少在理论上,我对收银员有点熟悉。我知道它是如何工作的,如何设置它,等等,我可以构建一个基于协同过滤的简单推荐系统 然而,现在我正在尝试做一些更复杂的事情,即使在读了很多关于不同算法的书之后,我也不确定该往哪个方向走 很快,我想做的是: 最终目标是基于一些“已知”实体定义一组实体中每一个实体的一个标量(“分数”)。实体之间相互作用,已知分数影响并定义未知分数。您可以用下面的示例进行想象 我有很多白色的衣服和几件色彩鲜艳的衣服;红,蓝,绿。。。我把它们

实际上我需要的只是一个我可以从哪里开始的提示

至少在理论上,我对收银员有点熟悉。我知道它是如何工作的,如何设置它,等等,我可以构建一个基于协同过滤的简单推荐系统

然而,现在我正在尝试做一些更复杂的事情,即使在读了很多关于不同算法的书之后,我也不确定该往哪个方向走

很快,我想做的是:

最终目标是基于一些“已知”实体定义一组实体中每一个实体的一个标量(“分数”)。实体之间相互作用,已知分数影响并定义未知分数。您可以用下面的示例进行想象

我有很多白色的衣服和几件色彩鲜艳的衣服;红,蓝,绿。。。我把它们放进洗衣机里。我想知道白色的洗后会变成什么颜色

需要考虑的事项:

  • 我们和不同的“演员”一起洗了一系列衣服。。。有些衣服在第一次和第三次洗涤时洗涤,有些只在第二次洗涤时洗涤,有些则全部洗涤
  • 在连续洗涤中,以前是白色但现在是彩色的衣服也会影响其他衣服,但没有那么强烈(因为它们没有颜色)
  • 有些颜色不像其他颜色那样“着色”。例如,红色对大多数衣服都有很强的影响,但绿色影响不大
  • 染色效果还取决于一次洗涤多少件衣服。如果你用一件白色t恤洗一件红色的t恤,它会比100件其他白色t恤的颜色更鲜艳
  • 衣服在影响他人时不会“失去”颜色
您可以看到,在计算时,实体实际上有两个指定的标量:

  • 颜色色调(这也定义了上面提到的“着色能力”)。色调可以表示为一个数字,比如说从0到1。着色力与色数之间的相关性不是线性的。它更像是刻度的末端有更多的着色能力(0和1),而中间(0.5)的着色能力更小
  • 颜色“亮度”(一个实体被着色的程度,对于最初着色的衣服它是1,对于白色的衣服它是0),这同时也定义了着色能力,不管色调如何
所以,再一次,我知道:

  • 哪些衣服在哪里洗,在哪些地方连续洗
  • 我知道其中一些的原色,其余的一开始是白色的
我想知道的是: -洗完衣服后所有衣服的颜色

问题是,我不知道应该从什么(类型)算法开始。如果您能阅读到目前为止的内容,请给我一些建议(或进一步阅读)

显然,我并没有要求任何详细的东西,再一次,只是一些暗示


谢谢大家!

我能想到的唯一一件事听起来像是这个问题是PageRank。它是通过一种迭代模拟来计算的。每个页面都有一些影响(颜色),这些影响通过其链接(用其清洗的袜子)流动,在某个点上,页面影响达到稳定状态(最终颜色)。您可以查找PageRank算法,但本质上是计算一个大的、erm的、袜子颜色矩阵的特征向量的问题。

这听起来不像是一个机器学习问题;听起来你可以编写一个模拟器。。。在每个洗涤周期中,您将根据其他衣服的颜色和着色能力更新白色衣服的颜色和着色能力。这并不难编码,而且听起来你有所有的信息可以这么做,不是吗?机器学习用于从数据中推断概率分布(将其视为模式)。我看不出这在这里是怎么应用的。AFAIK Mahout不仅仅适用于机器学习问题。我认为这是一个合适的工具,因为我处理大量的数据,并且输出与经典的Mahout工作具有相似的特征。我认为上面的一个问题可以用MapReduce实现,但我不知道是否有任何现有的类似算法。我需要这是可伸缩的,这就是为什么我认为Hadoop的MapReduce功能之上的Mahout是一个合适的解决方案。