Statistics 概率:组合多个概率以达到一个组合

Statistics 概率:组合多个概率以达到一个组合,statistics,probability,Statistics,Probability,下面我已经包含了一个数据库中的数据。什么是综合概率的方法,比如说:一个18岁的黑人男性 没有足够的信息来确定一个组合组中到底有多少人拥有一部手机,因为我们不知道这些组是如何重叠的 让我们考虑一个更简单的例子:在100个人中,50是男人,50是奶酪。有多少人喜欢奶酪 显然,我们没有足够的信息,因为从任何地方的男人到所有的男人都不喜欢奶酪 同样的概念也适用于手机数据,而且甚至很难提出各种可能性 例如,考虑有多少西班牙裔男性拥有手机。应该在95%到98%之间,对吗?错了!想象一下,调查中有10000名

下面我已经包含了一个数据库中的数据。什么是综合概率的方法,比如说:一个18岁的黑人男性


没有足够的信息来确定一个组合组中到底有多少人拥有一部手机,因为我们不知道这些组是如何重叠的

让我们考虑一个更简单的例子:在100个人中,50是男人,50是奶酪。有多少人喜欢奶酪

显然,我们没有足够的信息,因为从任何地方的男人到所有的男人都不喜欢奶酪

同样的概念也适用于手机数据,而且甚至很难提出各种可能性

例如,考虑有多少西班牙裔男性拥有手机。应该在95%到98%之间,对吗?错了!想象一下,调查中有10000名男性,990名拉美裔女性,但只有10名拉美裔男性。我们可以有950名非西班牙裔男性、980名西班牙裔女性和0名拥有手机的西班牙裔男性——这意味着0%的西班牙裔男性拥有手机。或者通过类似的推理,我们可以构建一个100%的西班牙裔男性拥有手机的案例


然而,如果我们有每一组被调查人数的确切数据,你可能会得出一些可能的范围,这些范围小于0-100%。例如,在喜欢奶酪的男性中,如果60%的人是男性,那么我们可以说至少有10个人一定喜欢奶酪。

没有足够的信息来确定一个组合中有多少人有手机,因为我们不知道这些组合的重叠情况

让我们考虑一个更简单的例子:在100个人中,50是男人,50是奶酪。有多少人喜欢奶酪

显然,我们没有足够的信息,因为从任何地方的男人到所有的男人都不喜欢奶酪

同样的概念也适用于手机数据,而且甚至很难提出各种可能性

例如,考虑有多少西班牙裔男性拥有手机。应该在95%到98%之间,对吗?错了!想象一下,调查中有10000名男性,990名拉美裔女性,但只有10名拉美裔男性。我们可以有950名非西班牙裔男性、980名西班牙裔女性和0名拥有手机的西班牙裔男性——这意味着0%的西班牙裔男性拥有手机。或者通过类似的推理,我们可以构建一个100%的西班牙裔男性拥有手机的案例


然而,如果我们有每一组被调查人数的确切数据,你可能会得出一些可能的范围,这些范围小于0-100%。例如,在喜欢奶酪的男性中,如果60%的人是男性,那么我们可以说至少有10个人一定喜欢奶酪。

正如伊姆兰所指出的,我们无法从有限的可用数据中推断出答案。如果你愿意做一个简单的假设,你就能取得进步。然而,请注意,这个假设是否有效只能通过获得更详细的数据来回答

我们开始吧。OP要求P(手机|年龄、种族、性别)。根据贝叶斯规则,这是:

P(cell phone|age, race, gender)
  = P(age, race, gender, cell phone) / P(age, race, gender)
  = P(age, race, gender|cell phone) P(cell phone) / P(age, race, gender)
简化的假设是,考虑到手机状态,年龄、种族和性别是独立的。同样,这是否有效不能用可用的数据来回答。假设如此,我们有:

P(age, race, gender|cell phone)
  = P(age|cell phone) P(race|cell phone) P(gender|cell phone)
现在将贝叶斯规则应用于每个术语:

P(age|cell phone) = P(cell phone|age) P(age) / P(cell phone)
P(race|cell phone) = P(cell phone|race) P(race) / P(cell phone)
P(gender|cell phone) = P(cell phone|gender) P(gender) / P(cell phone)
在这一点上,我们有:

P(age, race, gender, cell phone)
  = P(cell phone|age) P(cell phone|race) P(cell phone|gender)
    P(age) P(race) P(gender) / P(cell phone)^2
让P1=p(年龄、种族、性别、手机)和P0=p(年龄、种族、性别、无手机)。然后P(年龄、种族、性别)=P1+P0,以及

P(cell phone|age, race, gender) = P1/(P1 + P0) = 1/(1 + P0/P1)
现在,令人高兴的是,有些条款取消了:

P0/P1 = foo/bar

一些例子:

P(cell phone|age = 18-29, race=black, gender=male)
  = 1 / (1 + ((0 * 0.02 * 0.05) / 0.05^2) / ((1 * 0.98 * 0.95) / 0.95^2))
  = 1

P(cell phone|age = 30-49, race=black, gender=male)
  = 1 / (1 + ((0.02 * 0.02 * 0.05) / 0.05^2) / ((0.98 * 0.98 * 0.95) / 0.95^2))
  = 0.992

P(cell phone|age = 65+, race=white, gender=female)
  = 1 / (1 + ((0.15 * 0.06 * 0.06) / 0.05^2) / ((0.85 * 0.94 * 0.94) / 0.95^2))
  = 0.794

所以,有一些结果。同样,请记住,这些结果取决于一个只能用更多数据验证的假设。

正如Imran所指出的,我们无法从有限的可用数据中推断出答案。如果你愿意做一个简单的假设,你就能取得进步。然而,请注意,这个假设是否有效只能通过获得更详细的数据来回答

我们开始吧。OP要求P(手机|年龄、种族、性别)。根据贝叶斯规则,这是:

P(cell phone|age, race, gender)
  = P(age, race, gender, cell phone) / P(age, race, gender)
  = P(age, race, gender|cell phone) P(cell phone) / P(age, race, gender)
简化的假设是,考虑到手机状态,年龄、种族和性别是独立的。同样,这是否有效不能用可用的数据来回答。假设如此,我们有:

P(age, race, gender|cell phone)
  = P(age|cell phone) P(race|cell phone) P(gender|cell phone)
现在将贝叶斯规则应用于每个术语:

P(age|cell phone) = P(cell phone|age) P(age) / P(cell phone)
P(race|cell phone) = P(cell phone|race) P(race) / P(cell phone)
P(gender|cell phone) = P(cell phone|gender) P(gender) / P(cell phone)
在这一点上,我们有:

P(age, race, gender, cell phone)
  = P(cell phone|age) P(cell phone|race) P(cell phone|gender)
    P(age) P(race) P(gender) / P(cell phone)^2
让P1=p(年龄、种族、性别、手机)和P0=p(年龄、种族、性别、无手机)。然后P(年龄、种族、性别)=P1+P0,以及

P(cell phone|age, race, gender) = P1/(P1 + P0) = 1/(1 + P0/P1)
现在,令人高兴的是,有些条款取消了:

P0/P1 = foo/bar

一些例子:

P(cell phone|age = 18-29, race=black, gender=male)
  = 1 / (1 + ((0 * 0.02 * 0.05) / 0.05^2) / ((1 * 0.98 * 0.95) / 0.95^2))
  = 1

P(cell phone|age = 30-49, race=black, gender=male)
  = 1 / (1 + ((0.02 * 0.02 * 0.05) / 0.05^2) / ((0.98 * 0.98 * 0.95) / 0.95^2))
  = 0.992

P(cell phone|age = 65+, race=white, gender=female)
  = 1 / (1 + ((0.15 * 0.06 * 0.06) / 0.05^2) / ((0.85 * 0.94 * 0.94) / 0.95^2))
  = 0.794

所以,有一些结果。同样,请记住,这些结果取决于一个只能通过更多数据验证的假设。

看看。谢谢你,对于一个30岁的黑人来说,概率为.95*.98*.98=.91?有“手机”吗?是的。根据这个计算,65岁以上的白人女性拥有手机的几率只有75%。。。当一个65岁以上的人仍然有85%的机会时,这似乎是没有意义的,对吗?@abybaddi009对不起,这完全是错误的。该表显示了P(手机种族)、P(手机年龄)、P(手机性别)。这三个因素与P(手机|种族、年龄、性别)之间的关系比简单地将它们相乘还要复杂,即使假设是独立的。我会找到一个答案。看看。谢谢你,对于一个30岁的黑人来说,概率是.95*.98*.98=.91?有“手机”吗?是的。根据这个计算,65岁以上的白人女性拥有手机的几率只有75%。。。当一个65岁以上的人仍然有85%的机会时,这似乎是没有意义的,对吗?@abybaddi009对不起,这完全是错误的。该表显示了P(手机种族)、P(手机年龄)、P(手机性别)。这三个因素与P(手机|种族、年龄、性别)之间的关系比其他因素更为复杂