Machine learning 自动学习集群_Machine Learning_Artificial Intelligence_Cluster Computing_Cluster Analysis_Supervised Learning

Machine learning 自动学习集群

machine-learning artificial-intelligence cluster-computing

Machine learning 自动学习集群,machine-learning,artificial-intelligence,cluster-computing,cluster-analysis,supervised-learning,Machine Learning,Artificial Intelligence,Cluster Computing,Cluster Analysis,Supervised Learning,大家好，这里有一个完整的新手问题：我有一个由两列组成的表。第一列属于“箱子”，按果蝇生活的地方编码。第二列不是0就是1，分别是中性的和真正像糖的。我有两个问题 1）如果我怀疑有一个单一的变量，他们生活的地方决定了他们是否喜欢糖。有没有办法把电脑分成两个集群？所有喜欢糖和中性的箱子。这样我们就可以做进一步的实验来确定垃圾箱到底是怎么回事 2）自动确定驱动此行为的集群数量？例如，可能有4个变量（4个集群）可以决定糖偏好的结果如果这是微不足道的，我道歉。下表所列为：。谢谢 Bin sugar 1

大家好，这里有一个完整的新手问题：我有一个由两列组成的表。第一列属于“箱子”，按果蝇生活的地方编码。第二列不是0就是1，分别是中性的和真正像糖的。我有两个问题

1）如果我怀疑有一个单一的变量，他们生活的地方决定了他们是否喜欢糖。有没有办法把电脑分成两个集群？所有喜欢糖和中性的箱子。这样我们就可以做进一步的实验来确定垃圾箱到底是怎么回事

2）自动确定驱动此行为的集群数量？例如，可能有4个变量（4个集群）可以决定糖偏好的结果

如果这是微不足道的，我道歉。下表所列为：。谢谢

好吧，假设我理解你的意思，解决问题1）的一种方法应该使用贝叶斯过滤。假设事件L是“苍蝇喜欢糖”，事件B是“苍蝇在B仓”

因此，你得到的是：

number of flies = 84    
size of each bins = (eg size of bin 1: 4)

苍蝇喜欢糖的概率：

P(L) = flies that like sugar / total number of flies = 43/84

苍蝇不喜欢糖的概率：

P(notL) = 1 - P(L) = 41/84

苍蝇在给定垃圾箱中的概率：

P(B) = size of the bin / sum of the sizes of all bins = 4/84 (for bin 1)

苍蝇不在给定垃圾箱中的概率：

P(notB) = 1 - P(B) = 80/84 (for bin 1)

苍蝇喜欢糖的概率，知道糖在B仓：

P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)

P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80

苍蝇喜欢糖的概率，知道它不在B仓：

P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)

P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80

你想知道一只苍蝇在一个给定的箱子里的概率，知道它喜欢糖，你可以通过以下方式获得：

P(B|L) = (P(L|B) * P(B)) / (P(L|B) * P(B) + P(L|notB) * P(notB))

如果你计算每个箱子的p（B | L）和p（B | notL），那么你就知道哪个箱子含有喜欢糖的苍蝇的概率最高。然后你可以进一步研究那些垃圾箱

希望我是清楚的，我的统计数据有点生疏，我甚至不确定我做的每件事都是正确的。把它当作一个提示，告诉你解决问题的正确方向

您可以参考以获得更准确的推理和结果

至于问题2）。。。我得再考虑一下。

1）问题不清楚，如果你问你能不能给一个箱子，一只喜欢吃糖的苍蝇分类，答案是肯定的。2）同样不清楚的是，您是否希望根据“喜欢糖”列查找垃圾箱集群？答案是肯定的。你能把问题说清楚一点吗？@mp85抱歉措辞不好。所以对于1）我想要的是有两个集群；每一种都代表中性或类似糖。在每个集群中都应该有一个容器列表。如果我将所有表示“落入中性”的箱子都伪码为1，将“类似糖”中的箱子都伪码为0，那么当我运行回归时，它应该会给我提供可能的最强预测。对于第二种情况，如果计算机能告诉我什么是最佳集群，以及在这些集群中哪些垃圾箱落在它下面，那就太好了。当我做上面类似的回归时，应该给出最强的关系。不要认为聚类分析是“学习”一些变量。然后你要做的是分类，而不是结构发现。对于聚类分析，请考虑定义结构。谢谢这是一个巧妙的利用-我认为它会对我很有用。