Machine learning 将实用程序指定给本地州时,很难指定长期视图
我目前正在阅读Wiley和Woolridge关于多代理系统的介绍,我希望有人能向我澄清以下内容。在谈到效用函数时,作者指出: 实用程序是表示状态“良好”程度的数值:实用程序越高越好 然后,代理的任务是实现效用最大化的状态——我们不向代理指定如何实现这一点。在这种方法中,任务规范只是一个函数Machine learning 将实用程序指定给本地州时,很难指定长期视图,machine-learning,artificial-intelligence,agent,Machine Learning,Artificial Intelligence,Agent,我目前正在阅读Wiley和Woolridge关于多代理系统的介绍,我希望有人能向我澄清以下内容。在谈到效用函数时,作者指出: 实用程序是表示状态“良好”程度的数值:实用程序越高越好 然后,代理的任务是实现效用最大化的状态——我们不向代理指定如何实现这一点。在这种方法中,任务规范只是一个函数 u:E -> R 它将实际值与每个环境状态关联 给定这样一个性能度量,我们就可以用几种不同的方式定义某个特定环境中代理的总体效用。一种(悲观的)方法是将代理的效用定义为代理可能遇到的最坏状态的效用;
u:E -> R
它将实际值与每个环境状态关联
给定这样一个性能度量,我们就可以用几种不同的方式定义某个特定环境中代理的总体效用。一种(悲观的)方法是将代理的效用定义为代理可能遇到的最坏状态的效用;另一种可能是将总体效用定义为遇到的所有状态的平均效用。没有对错之分:衡量标准取决于你希望你的代理人执行的任务类型
这种方法的主要缺点是将公用事业分配给地方政府;将实用程序分配给各个州时,很难指定长期视图
我在理解不利因素以及地方政府到底是什么方面遇到了问题。有人能澄清一下吗?我会给你举个例子来解释这个想法。希望能有帮助。有关详细信息,请参阅 问题是: 这是一个名为
平铺世界
的经典问题
- 二维网格世界,其中有代理、瓷砖、障碍物和洞
- 代理可以向四个方向(上、下、左、右)移动,如果它位于磁贴旁边,它可以将其推向适当的方向
- 代理商必须用瓷砖填充孔洞李>
- 其目的是用瓷砖填充所有孔洞
- 代理的当前位置
(a\u x,a\u y)
- 四个瓷砖的当前位置
,(t1\ux,t1\uy)
,(t2\ux,t2\uy)
,(t3\ux,t3\uy)
(t4\ux,t4\uy)
# of holes filled
u = -------------------------
# of total holes
显然:
- 如果代理填充所有孔,则效用=1
- 如果代理填充零个孔,则效用=0
- 两个州的效用值相同,为
(因为三个孔中有一个被填满)1/3
- 左侧(状态为
)是一个死角位置,您无法将所有瓷砖移动到孔中s1
- 右侧(状态为
)是一个良好的位置,您可以选择将剩余的两块瓷砖移动到孔中s2
- 如果仅将实用程序函数与本地状态关联,例如,
或u(s1)
,则实际上无法区分实用程序方面的差异<代码>u(s1)=u(s2)=1/3u(s2)
- 您需要一个全局或长期的状态视图,该视图可以用run表示,这是一系列交错的环境状态和代理执行的操作
- 可以将实用程序指定给运行,而不是指定给各个状态。这种方法从本质上看是长期的 u:运行->实际值
- 在此设置中,代理的最佳策略是最大化预期效用,这并不意味着它将是最好的,但平均而言,我们可以期望它做得最好 预期效用=(u(r)x Prob(r))之和