Algorithm 如果你有很好的特征提取,你的第二段就可以了。同样在groupby案例中,如果您有总计数,那么获得不同值的近似百分比会更有意义。除非你之前的方差很小(即α+β与样本量在同一数量级上),否则后验平均值和最大似然估计值(我所建议的)在大多数实际情况下是相同的。我

Algorithm 如果你有很好的特征提取,你的第二段就可以了。同样在groupby案例中,如果您有总计数,那么获得不同值的近似百分比会更有意义。除非你之前的方差很小(即α+β与样本量在同一数量级上),否则后验平均值和最大似然估计值(我所建议的)在大多数实际情况下是相同的。我,algorithm,statistics,machine-learning,probability,graph-algorithm,Algorithm,Statistics,Machine Learning,Probability,Graph Algorithm,如果你有很好的特征提取,你的第二段就可以了。同样在groupby案例中,如果您有总计数,那么获得不同值的近似百分比会更有意义。除非你之前的方差很小(即α+β与样本量在同一数量级上),否则后验平均值和最大似然估计值(我所建议的)在大多数实际情况下是相同的。我不清楚贝叶斯方法在这里有什么好处(这就是为什么我没有回答问题的那部分:)同意。OP可以通过使用适当的先验知识或/和仅对其数据的一小部分进行采样来利用贝叶斯方法。否则,后验均值和最大似然估计几乎相同。 if group == 'group1':


如果你有很好的特征提取,你的第二段就可以了。同样在groupby案例中,如果您有总计数,那么获得不同值的近似百分比会更有意义。除非你之前的方差很小(即α+β与样本量在同一数量级上),否则后验平均值和最大似然估计值(我所建议的)在大多数实际情况下是相同的。我不清楚贝叶斯方法在这里有什么好处(这就是为什么我没有回答问题的那部分:)同意。OP可以通过使用适当的先验知识或/和仅对其数据的一小部分进行采样来利用贝叶斯方法。否则,后验均值和最大似然估计几乎相同。
if group == 'group1':
    alpha = alpha + 1
else:
    beta = beta + 1
                s^(m+alpha-1) (1-s)^(n-m+beta-1)
p(s| M(m,n)) = ----------------------------------- = Beta (m+alpha, n-m+beta)
                      B(m+alpha, n-m+beta)
mean = alpha/(alpha+beta)
var = alpha*beta/((alpha+beta)**2 * (alpha+beta+1))
group1
group1
group1
group1
group2
group2
group2
group1
group1
group1
group2
group1
group1
group1
group2  
mean = 0.667, var = 0.056
mean = 0.750, var = 0.037
mean = 0.800, var = 0.027
mean = 0.833, var = 0.020
mean = 0.714, var = 0.026
mean = 0.625, var = 0.026
mean = 0.556, var = 0.025
mean = 0.600, var = 0.022
mean = 0.636, var = 0.019
mean = 0.667, var = 0.017
mean = 0.615, var = 0.017
mean = 0.643, var = 0.015
mean = 0.667, var = 0.014
mean = 0.688, var = 0.013
mean = 0.647, var = 0.013
head -n100000 YOURDATA.txt | python groupby.py