Machine learning 将实用程序指定给本地州时,很难指定长期视图

Machine learning 将实用程序指定给本地州时,很难指定长期视图,machine-learning,artificial-intelligence,agent,Machine Learning,Artificial Intelligence,Agent,我目前正在阅读Wiley和Woolridge关于多代理系统的介绍,我希望有人能向我澄清以下内容。在谈到效用函数时,作者指出: 实用程序是表示状态“良好”程度的数值:实用程序越高越好 然后,代理的任务是实现效用最大化的状态——我们不向代理指定如何实现这一点。在这种方法中,任务规范只是一个函数 u:E -> R 它将实际值与每个环境状态关联 给定这样一个性能度量,我们就可以用几种不同的方式定义某个特定环境中代理的总体效用。一种(悲观的)方法是将代理的效用定义为代理可能遇到的最坏状态的效用;

我目前正在阅读Wiley和Woolridge关于多代理系统的介绍,我希望有人能向我澄清以下内容。在谈到效用函数时,作者指出:

实用程序是表示状态“良好”程度的数值:实用程序越高越好

然后,代理的任务是实现效用最大化的状态——我们不向代理指定如何实现这一点。在这种方法中,任务规范只是一个函数

u:E -> R 
它将实际值与每个环境状态关联

给定这样一个性能度量,我们就可以用几种不同的方式定义某个特定环境中代理的总体效用。一种(悲观的)方法是将代理的效用定义为代理可能遇到的最坏状态的效用;另一种可能是将总体效用定义为遇到的所有状态的平均效用。没有对错之分:衡量标准取决于你希望你的代理人执行的任务类型

这种方法的主要缺点是将公用事业分配给地方政府;将实用程序分配给各个州时,很难指定长期视图


我在理解不利因素以及地方政府到底是什么方面遇到了问题。有人能澄清一下吗?

我会给你举个例子来解释这个想法。希望能有帮助。有关详细信息,请参阅

问题是: 这是一个名为
平铺世界
的经典问题

  • 二维网格世界,其中有代理、瓷砖、障碍物和洞
  • 代理可以向四个方向(上、下、左、右)移动,如果它位于磁贴旁边,它可以将其推向适当的方向
  • 代理商必须用瓷砖填充孔洞
  • 其目的是用瓷砖填充所有孔洞

环境状态 可以使用以下变量描述环境的状态:

  • 代理的当前位置
    (a\u x,a\u y)
  • 四个瓷砖的当前位置
    (t1\ux,t1\uy)
    (t2\ux,t2\uy)
    (t3\ux,t3\uy)
    (t4\ux,t4\uy)
状态转移 例如,在当前状态下,如果代理向下推压其下方的磁贴,系统状态将转移到下一个状态,在该状态下,除代理的当前位置和正在推压的磁贴位置外,所有变量保持不变

效用函数 我们的效用函数可以定义为填充孔的百分比,即:

            # of holes filled
   u =  -------------------------
            # of total holes 
显然:

  • 如果代理填充所有孔,则效用=1
  • 如果代理填充零个孔,则效用=0
关联效用函数 现在看看下面的两种状态

很容易看出:

  • 两个州的效用值相同,为
    1/3
    (因为三个孔中有一个被填满)
  • 左侧(状态为
    s1
    )是一个死角位置,您无法将所有瓷砖移动到孔中
  • 右侧(状态为
    s2
    )是一个良好的位置,您可以选择将剩余的两块瓷砖移动到孔中
因此,结论如下:

  • 如果仅将实用程序函数与本地状态关联,例如,
    u(s1)
    u(s2)
    ,则实际上无法区分实用程序方面的差异<代码>u(s1)=u(s2)=1/3

  • 您需要一个全局或长期的状态视图,该视图可以用run表示,这是一系列交错的环境状态和代理执行的操作

  • 可以将实用程序指定给运行,而不是指定给各个状态。这种方法从本质上看是长期的

    u:运行->实际值

  • 在此设置中,代理的最佳策略是最大化预期效用,这并不意味着它将是最好的,但平均而言,我们可以期望它做得最好

    预期效用=(u(r)x Prob(r))之和

请参阅你提到的那本书或相应的书籍以了解更多详情