Machine learning 自动学习集群
大家好,这里有一个完整的新手问题:我有一个由两列组成的表。第一列属于“箱子”,按果蝇生活的地方编码。第二列不是0就是1,分别是中性的和真正像糖的。我有两个问题 1) 如果我怀疑有一个单一的变量,他们生活的地方决定了他们是否喜欢糖。有没有办法把电脑分成两个集群?所有喜欢糖和中性的箱子。这样我们就可以做进一步的实验来确定垃圾箱到底是怎么回事 2) 自动确定驱动此行为的集群数量?例如,可能有4个变量(4个集群)可以决定糖偏好的结果 如果这是微不足道的,我道歉。下表所列为:。谢谢Machine learning 自动学习集群,machine-learning,artificial-intelligence,cluster-computing,cluster-analysis,supervised-learning,Machine Learning,Artificial Intelligence,Cluster Computing,Cluster Analysis,Supervised Learning,大家好,这里有一个完整的新手问题:我有一个由两列组成的表。第一列属于“箱子”,按果蝇生活的地方编码。第二列不是0就是1,分别是中性的和真正像糖的。我有两个问题 1) 如果我怀疑有一个单一的变量,他们生活的地方决定了他们是否喜欢糖。有没有办法把电脑分成两个集群?所有喜欢糖和中性的箱子。这样我们就可以做进一步的实验来确定垃圾箱到底是怎么回事 2) 自动确定驱动此行为的集群数量?例如,可能有4个变量(4个集群)可以决定糖偏好的结果 如果这是微不足道的,我道歉。下表所列为:。谢谢 Bin sugar 1
Bin sugar
1 1
1 1
1 0
1 0
2 1
2 0
2 0
3 1
3 0
3 1
3 1
4 1
4 1
4 1
5 1
5 0
5 1
6 0
6 0
6 0
7 0
7 1
7 1
8 1
8 0
8 1
9 1
9 0
9 0
9 0
10 0
10 0
10 0
11 1
11 1
11 1
12 0
12 0
12 0
12 0
13 0
13 0
13 1
13 0
13 0
14 0
14 0
14 0
14 0
15 1
15 0
15 0
16 1
16 1
17 1
17 1
18 0
18 1
18 1
17 1
19 1
20 1
20 0
20 0
20 1
21 0
21 0
21 1
21 0
22 1
22 0
22 1
22 1
23 1
23 1
24 1
24 0
25 0
25 1
25 0
26 1
26 1
27 1
27 1
好吧,假设我理解你的意思,解决问题1)的一种方法应该使用贝叶斯过滤。 假设事件L是“苍蝇喜欢糖”,事件B是“苍蝇在B仓” 因此,你得到的是:
number of flies = 84
size of each bins = (eg size of bin 1: 4)
苍蝇喜欢糖的概率:
P(L) = flies that like sugar / total number of flies = 43/84
苍蝇不喜欢糖的概率:
P(notL) = 1 - P(L) = 41/84
苍蝇在给定垃圾箱中的概率:
P(B) = size of the bin / sum of the sizes of all bins = 4/84 (for bin 1)
苍蝇不在给定垃圾箱中的概率:
P(notB) = 1 - P(B) = 80/84 (for bin 1)
苍蝇喜欢糖的概率,知道糖在B仓:
P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)
P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80
苍蝇喜欢糖的概率,知道它不在B仓:
P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)
P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80
你想知道一只苍蝇在一个给定的箱子里的概率,知道它喜欢糖,你可以通过以下方式获得:
P(B|L) = (P(L|B) * P(B)) / (P(L|B) * P(B) + P(L|notB) * P(notB))
如果你计算每个箱子的p(B | L)和p(B | notL),那么你就知道哪个箱子含有喜欢糖的苍蝇的概率最高。然后你可以进一步研究那些垃圾箱
希望我是清楚的,我的统计数据有点生疏,我甚至不确定我做的每件事都是正确的。把它当作一个提示,告诉你解决问题的正确方向
您可以参考以获得更准确的推理和结果
至于问题2)。。。我得再考虑一下。1)问题不清楚,如果你问你能不能给一个箱子,一只喜欢吃糖的苍蝇分类,答案是肯定的。2) 同样不清楚的是,您是否希望根据“喜欢糖”列查找垃圾箱集群?答案是肯定的。你能把问题说清楚一点吗?@mp85抱歉措辞不好。所以对于1)我想要的是有两个集群;每一种都代表中性或类似糖。在每个集群中都应该有一个容器列表。如果我将所有表示“落入中性”的箱子都伪码为1,将“类似糖”中的箱子都伪码为0,那么当我运行回归时,它应该会给我提供可能的最强预测。对于第二种情况,如果计算机能告诉我什么是最佳集群,以及在这些集群中哪些垃圾箱落在它下面,那就太好了。当我做上面类似的回归时,应该给出最强的关系。不要认为聚类分析是“学习”一些变量。然后你要做的是分类,而不是结构发现。对于聚类分析,请考虑定义结构。谢谢这是一个巧妙的利用-我认为它会对我很有用。