Machine learning 自动学习集群

Machine learning 自动学习集群,machine-learning,artificial-intelligence,cluster-computing,cluster-analysis,supervised-learning,Machine Learning,Artificial Intelligence,Cluster Computing,Cluster Analysis,Supervised Learning,大家好,这里有一个完整的新手问题:我有一个由两列组成的表。第一列属于“箱子”,按果蝇生活的地方编码。第二列不是0就是1,分别是中性的和真正像糖的。我有两个问题 1) 如果我怀疑有一个单一的变量,他们生活的地方决定了他们是否喜欢糖。有没有办法把电脑分成两个集群?所有喜欢糖和中性的箱子。这样我们就可以做进一步的实验来确定垃圾箱到底是怎么回事 2) 自动确定驱动此行为的集群数量?例如,可能有4个变量(4个集群)可以决定糖偏好的结果 如果这是微不足道的,我道歉。下表所列为:。谢谢 Bin sugar 1

大家好,这里有一个完整的新手问题:我有一个由两列组成的表。第一列属于“箱子”,按果蝇生活的地方编码。第二列不是0就是1,分别是中性的和真正像糖的。我有两个问题

1) 如果我怀疑有一个单一的变量,他们生活的地方决定了他们是否喜欢糖。有没有办法把电脑分成两个集群?所有喜欢糖和中性的箱子。这样我们就可以做进一步的实验来确定垃圾箱到底是怎么回事

2) 自动确定驱动此行为的集群数量?例如,可能有4个变量(4个集群)可以决定糖偏好的结果

如果这是微不足道的,我道歉。下表所列为:。谢谢

Bin sugar
1   1
1   1
1   0
1   0
2   1
2   0
2   0
3   1
3   0
3   1
3   1
4   1
4   1
4   1
5   1
5   0
5   1
6   0
6   0
6   0
7   0
7   1
7   1
8   1
8   0
8   1
9   1
9   0
9   0
9   0
10  0
10  0
10  0
11  1
11  1
11  1
12  0
12  0
12  0
12  0
13  0
13  0
13  1
13  0
13  0
14  0
14  0
14  0
14  0
15  1
15  0
15  0
16  1
16  1
17  1
17  1
18  0
18  1
18  1
17  1
19  1
20  1
20  0
20  0
20  1
21  0
21  0
21  1
21  0
22  1
22  0
22  1
22  1
23  1
23  1
24  1
24  0
25  0
25  1
25  0
26  1
26  1
27  1
27  1

好吧,假设我理解你的意思,解决问题1)的一种方法应该使用贝叶斯过滤。 假设事件L是“苍蝇喜欢糖”,事件B是“苍蝇在B仓”

因此,你得到的是:

number of flies = 84    
size of each bins = (eg size of bin 1: 4)    
苍蝇喜欢糖的概率:

P(L) = flies that like sugar / total number of flies = 43/84
苍蝇不喜欢糖的概率:

P(notL) = 1 - P(L) = 41/84
苍蝇在给定垃圾箱中的概率:

P(B) = size of the bin / sum of the sizes of all bins = 4/84 (for bin 1)
苍蝇不在给定垃圾箱中的概率:

P(notB) = 1 - P(B) = 80/84 (for bin 1)
苍蝇喜欢糖的概率,知道糖在B仓:

P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)
P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80
苍蝇喜欢糖的概率,知道它不在B仓:

P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)
P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80
你想知道一只苍蝇在一个给定的箱子里的概率,知道它喜欢糖,你可以通过以下方式获得:

P(B|L) = (P(L|B) * P(B)) / (P(L|B) * P(B) + P(L|notB) * P(notB))
如果你计算每个箱子的p(B | L)和p(B | notL),那么你就知道哪个箱子含有喜欢糖的苍蝇的概率最高。然后你可以进一步研究那些垃圾箱

希望我是清楚的,我的统计数据有点生疏,我甚至不确定我做的每件事都是正确的。把它当作一个提示,告诉你解决问题的正确方向

您可以参考以获得更准确的推理和结果


至于问题2)。。。我得再考虑一下。

1)问题不清楚,如果你问你能不能给一个箱子,一只喜欢吃糖的苍蝇分类,答案是肯定的。2) 同样不清楚的是,您是否希望根据“喜欢糖”列查找垃圾箱集群?答案是肯定的。你能把问题说清楚一点吗?@mp85抱歉措辞不好。所以对于1)我想要的是有两个集群;每一种都代表中性或类似糖。在每个集群中都应该有一个容器列表。如果我将所有表示“落入中性”的箱子都伪码为1,将“类似糖”中的箱子都伪码为0,那么当我运行回归时,它应该会给我提供可能的最强预测。对于第二种情况,如果计算机能告诉我什么是最佳集群,以及在这些集群中哪些垃圾箱落在它下面,那就太好了。当我做上面类似的回归时,应该给出最强的关系。不要认为聚类分析是“学习”一些变量。然后你要做的是分类,而不是结构发现。对于聚类分析,请考虑定义结构。谢谢这是一个巧妙的利用-我认为它会对我很有用。