Machine learning )剩余10台机器中有三分之一的机会(其他条件),因为有3台机器(选择每台机器的可能性相等)

Machine learning )剩余10台机器中有三分之一的机会(其他条件),因为有3台机器(选择每台机器的可能性相等),machine-learning,reinforcement-learning,Machine Learning,Reinforcement Learning,因此,总概率可以是90+10*(1/3)(约)=93.33 但是等等,如果ε是0.5呢? 那么总的几率是95+5*(1/3)=96.67 也就是说,选择当前平均支出最高的机器的概率=(1–ε)+(ε/k) 我希望这能有所帮助。让我试着在这里提出我的观点。 让我们考虑3个机器的相似例子:A、B和C,假设B有最高的支付。 如果ε是0.1,那么选择B的概率是多少 回想一下Epsilon贪婪算法,它说: r = random() # any random number between 0 and 1(

因此,总概率可以是90+10*(1/3)(约)=93.33

但是等等,如果ε是0.5呢? 那么总的几率是95+5*(1/3)=96.67

也就是说,选择当前平均支出最高的机器的概率=(1–ε)+(ε/k)


我希望这能有所帮助。

让我试着在这里提出我的观点。 让我们考虑3个机器的相似例子:A、B和C,假设B有最高的支付。 如果ε是0.1,那么选择B的概率是多少

回想一下Epsilon贪婪算法,它说:

 r = random() # any random number between 0 and 1(uniform distribution)
 if r > epsilon:
    choose "Best pay out at current time" #(currently it is B)
 else:
    choose randomly between three machines
那么在100次机会中选择B的概率是多少 它将是以下两项的总和: 1) 百分之九十的机会(如果条件允许) 2) 剩余10台机器中有三分之一的机会(其他条件),因为有3台机器(选择每台机器的可能性相等)

因此,总概率可以是90+10*(1/3)(约)=93.33

但是等等,如果ε是0.5呢? 那么总的几率是95+5*(1/3)=96.67

也就是说,选择当前平均支出最高的机器的概率=(1–ε)+(ε/k)


我希望这能有所帮助。

关于机器学习的一般问题应该发布到他们的特定社区。关于机器学习的一般问题应该发布到他们的特定社区。