Algorithm 如何预测数据的质量?

Algorithm 如何预测数据的质量?,algorithm,math,statistics,analytics,bayesian,Algorithm,Math,Statistics,Analytics,Bayesian,我很抱歉,如果我事先写错了,但我有一个大的数据集,我正在尝试分析它,但大多数数据都不正确,需要一些帮助来确定如何选择正确的数据 这里有更多的信息来澄清它。例如,我有以下几点: color value quantity red 20 2 blue 5 8 green 10 2 total 100 如果只给出数值和总数,我会发现有36个可能的答案: #1 Found : 20.0*0.0 red + 5.0*0.0 blue + 10.0*10

我很抱歉,如果我事先写错了,但我有一个大的数据集,我正在尝试分析它,但大多数数据都不正确,需要一些帮助来确定如何选择正确的数据

这里有更多的信息来澄清它。例如,我有以下几点:

color  value   quantity
red       20    2
blue    5   8
green   10  2

total       100
如果只给出数值和总数,我会发现有36个可能的答案:

#1 Found : 20.0*0.0 red + 5.0*0.0 blue + 10.0*10.0 green = 100.0
#2 Found : 20.0*0.0 red + 5.0*2.0 blue + 10.0*9.0 green = 100.0
#3 Found : 20.0*0.0 red + 5.0*4.0 blue + 10.0*8.0 green = 100.0
#4 Found : 20.0*0.0 red + 5.0*6.0 blue + 10.0*7.0 green = 100.0
#5 Found : 20.0*0.0 red + 5.0*8.0 blue + 10.0*6.0 green = 100.0
#6 Found : 20.0*0.0 red + 5.0*10.0 blue + 10.0*5.0 green = 100.0
#7 Found : 20.0*0.0 red + 5.0*12.0 blue + 10.0*4.0 green = 100.0
#8 Found : 20.0*0.0 red + 5.0*14.0 blue + 10.0*3.0 green = 100.0
#9 Found : 20.0*0.0 red + 5.0*16.0 blue + 10.0*2.0 green = 100.0
#10 Found : 20.0*0.0 red + 5.0*18.0 blue + 10.0*1.0 green = 100.0
#11 Found : 20.0*0.0 red + 5.0*20.0 blue + 10.0*0.0 green = 100.0
#12 Found : 20.0*1.0 red + 5.0*0.0 blue + 10.0*8.0 green = 100.0
#13 Found : 20.0*1.0 red + 5.0*2.0 blue + 10.0*7.0 green = 100.0
#14 Found : 20.0*1.0 red + 5.0*4.0 blue + 10.0*6.0 green = 100.0
#15 Found : 20.0*1.0 red + 5.0*6.0 blue + 10.0*5.0 green = 100.0
#16 Found : 20.0*1.0 red + 5.0*8.0 blue + 10.0*4.0 green = 100.0
#17 Found : 20.0*1.0 red + 5.0*10.0 blue + 10.0*3.0 green = 100.0
#18 Found : 20.0*1.0 red + 5.0*12.0 blue + 10.0*2.0 green = 100.0
#19 Found : 20.0*1.0 red + 5.0*14.0 blue + 10.0*1.0 green = 100.0
#20 Found : 20.0*1.0 red + 5.0*16.0 blue + 10.0*0.0 green = 100.0
#21 Found : 20.0*2.0 red + 5.0*0.0 blue + 10.0*6.0 green = 100.0
#22 Found : 20.0*2.0 red + 5.0*2.0 blue + 10.0*5.0 green = 100.0
#23 Found : 20.0*2.0 red + 5.0*4.0 blue + 10.0*4.0 green = 100.0
#24 Found : 20.0*2.0 red + 5.0*6.0 blue + 10.0*3.0 green = 100.0
#25 Found : 20.0*2.0 red + 5.0*8.0 blue + 10.0*2.0 green = 100.0
#26 Found : 20.0*2.0 red + 5.0*10.0 blue + 10.0*1.0 green = 100.0
#27 Found : 20.0*2.0 red + 5.0*12.0 blue + 10.0*0.0 green = 100.0
#28 Found : 20.0*3.0 red + 5.0*0.0 blue + 10.0*4.0 green = 100.0
#29 Found : 20.0*3.0 red + 5.0*2.0 blue + 10.0*3.0 green = 100.0
#30 Found : 20.0*3.0 red + 5.0*4.0 blue + 10.0*2.0 green = 100.0
#31 Found : 20.0*3.0 red + 5.0*6.0 blue + 10.0*1.0 green = 100.0
#32 Found : 20.0*3.0 red + 5.0*8.0 blue + 10.0*0.0 green = 100.0
#33 Found : 20.0*4.0 red + 5.0*0.0 blue + 10.0*2.0 green = 100.0
#34 Found : 20.0*4.0 red + 5.0*2.0 blue + 10.0*1.0 green = 100.0
#35 Found : 20.0*4.0 red + 5.0*4.0 blue + 10.0*0.0 green = 100.0
#36 Found : 20.0*5.0 red + 5.0*0.0 blue + 10.0*0.0 green = 100.0
正如你所看到的,在可能性中,我得到了正确的答案,但也有许多其他的答案。现在假设我再加上一个红色(总的红色是3),那么我现在有49个结果,但是如果考虑到与第一个结果集的关系,第二个结果集中的一些结果是不可能的。我假设当我得到更多的数据结果时,我可以更准确地删除不起作用的结果

我试图找出是否有任何研究或标准方法可以将结果缩小到更有意义的范围。我不是100%确定,但我想谷歌可能就是一个例子,因为每个查询不仅是针对数据,而且还针对你的历史(我有一个排名很低的网站,当我点击它,然后再次搜索它时,它总是出现在顶部……但当我在我朋友的电脑上搜索时,相同的网站出现在底部)。我想也许谷歌与我们的多个搜索查询建立关系的方式,我可以使用类似的方法从我上面的数据中删除不正确的结果

对不起,误会了。我对algo有点陌生,我很难解释这一点。如果没有道理,请告诉我


提前谢谢

如果我答对了,你可以为我解这样的方程

R*r + G*g + B*b = 100
对于给定的整数值R,G,B,并且约束R,G,B也是整数值

因为只有一个方程和3个变量,所以得到的是一个解空间而不是一个解,现在需要应用一些算法来选择正确或最佳的解

你似乎也有r0,g0,b0的值,它们很可能是r,g和b的值

你需要的是一个适应度函数,它告诉你你的候选解决方案是好是坏

一个例子是(值越低意味着解决方案越好)

基本上说,当一个解决方案更接近可能的值时,它会更好

一种变体可能是

(r-r0)^2 +(g-g0)^2 +(b-b0)^2 + c*C
其中C是一个常数,由您选择,C是与可能的解不同的值的数量。这将为只改变一个值的候选对象提供更高的适应度,而不是改变两个或三个值的候选对象


一旦你有了适应度函数,选择适应度最低的解。

这个问题称为线性丢番图方程。
你可以找到更多的信息。

我还不能给出一个完整的答案,但听起来像是一个线性代数问题。让我说清楚,你想要a,o,p,这样
20a+5o+10p=100
?其中a是苹果的数量,o是桔子的数量,p是梨的数量?您是否想要确定什么是合理的解决方案,或者有多少合理的解决方案?对不起,如果我完全误解了。你说的“这可能有36种组合”是什么意思?你是说“总热量”还是“总食物对象”?嘿,伙计们,很抱歉我误解了。问题对我来说很清楚,但我真的不知道如何表述它。我在上面添加了一个结果样本和一个区间的答案(如果变量和总和的值发生变化,结果会有所不同),我要做的是找出如何利用区间之间的关系来预测最有可能是正确的量。再次抱歉,问题是:找到满足方程式的所有数量和卡路里组合,使数量和卡路里都是整数,并且至少有一个卡路里值是非零的。通常,适应度函数表示具有更高值的更好解决方案。当较低的值更可取时,您可能希望将其称为成本函数。通常是有用的建议,否则,所以我会投赞成票。谢谢你,Jens。这就是我一直在寻找的解决方案(我只是解释得很糟糕)。我做了一些健身功能的介绍性阅读,它看起来真的很好。对于这类问题还有其他解决方法吗?可能的适应度/成本函数的数量是无限的。因为你似乎在使用颜色,所以两种颜色之间可能存在某种感知距离,这可能对你有用。当您的数据量和可能的解决方案数量变得巨大时,您可能需要寻找比排序选项和选择第一个选项更智能的优化算法。可能使用的算法可以找到一个好的但并不总是最好的解决方案。谢谢Jens!你知道这些优化算法的类别叫什么吗?在你的帖子之后,我读了一篇关于遗传算法的介绍,我想这是我需要的领域。还有什么可以帮助我完成这个项目吗?太棒了,非常感谢你,Jens。你给我指出了一个我甚至不知道存在的领域,并给了我一个新的参考点来思考如何解决我的问题。万分感谢!谢谢你,克拉斯。我明白,问题更多的是如何根据数据历史选择更现实的结果。
(r-r0)^2 +(g-g0)^2 +(b-b0)^2 + c*C