Machine learning 将实用程序指定给本地州时，很难指定长期视图_Machine Learning_Artificial Intelligence_Agent

Machine learning 将实用程序指定给本地州时，很难指定长期视图

machine-learning artificial-intelligence

Machine learning 将实用程序指定给本地州时，很难指定长期视图,machine-learning,artificial-intelligence,agent,Machine Learning,Artificial Intelligence,Agent,我目前正在阅读Wiley和Woolridge关于多代理系统的介绍，我希望有人能向我澄清以下内容。在谈到效用函数时，作者指出：实用程序是表示状态“良好”程度的数值：实用程序越高越好然后，代理的任务是实现效用最大化的状态——我们不向代理指定如何实现这一点。在这种方法中，任务规范只是一个函数 u:E -> R 它将实际值与每个环境状态关联给定这样一个性能度量，我们就可以用几种不同的方式定义某个特定环境中代理的总体效用。一种（悲观的）方法是将代理的效用定义为代理可能遇到的最坏状态的效用；

我目前正在阅读Wiley和Woolridge关于多代理系统的介绍，我希望有人能向我澄清以下内容。在谈到效用函数时，作者指出：

实用程序是表示状态“良好”程度的数值：实用程序越高越好

然后，代理的任务是实现效用最大化的状态——我们不向代理指定如何实现这一点。在这种方法中，任务规范只是一个函数

u:E -> R

它将实际值与每个环境状态关联

给定这样一个性能度量，我们就可以用几种不同的方式定义某个特定环境中代理的总体效用。一种（悲观的）方法是将代理的效用定义为代理可能遇到的最坏状态的效用；另一种可能是将总体效用定义为遇到的所有状态的平均效用。没有对错之分：衡量标准取决于你希望你的代理人执行的任务类型

这种方法的主要缺点是将公用事业分配给地方政府；将实用程序分配给各个州时，很难指定长期视图

我在理解不利因素以及地方政府到底是什么方面遇到了问题。有人能澄清一下吗？

我会给你举个例子来解释这个想法。希望能有帮助。有关详细信息，请参阅

问题是：这是一个名为

平铺世界

的经典问题

二维网格世界，其中有代理、瓷砖、障碍物和洞
代理可以向四个方向（上、下、左、右）移动，如果它位于磁贴旁边，它可以将其推向适当的方向
代理商必须用瓷砖填充孔洞
其目的是用瓷砖填充所有孔洞

环境状态可以使用以下变量描述环境的状态：

代理的当前位置
```
（a\u x，a\u y）
```

四个瓷砖的当前位置

（t1\ux，t1\uy）

，

（t2\ux，t2\uy）

，

（t3\ux，t3\uy）

，

（t4\ux，t4\uy）

状态转移例如，在当前状态下，如果代理向下推压其下方的磁贴，系统状态将转移到下一个状态，在该状态下，除代理的当前位置和正在推压的磁贴位置外，所有变量保持不变

效用函数我们的效用函数可以定义为填充孔的百分比，即：

            # of holes filled
   u =  -------------------------
            # of total holes

显然：

如果代理填充所有孔，则效用=1
如果代理填充零个孔，则效用=0

关联效用函数现在看看下面的两种状态

很容易看出：

两个州的效用值相同，为
```
1/3
```
（因为三个孔中有一个被填满）
左侧（状态为
```
s1
```
）是一个死角位置，您无法将所有瓷砖移动到孔中
右侧（状态为
```
s2
```
）是一个良好的位置，您可以选择将剩余的两块瓷砖移动到孔中

因此，结论如下：

如果仅将实用程序函数与本地状态关联，例如，
```
u（s1）
```
或
```
u（s2）
```
，则实际上无法区分实用程序方面的差异<代码>u（s1）=u（s2）=1/3
您需要一个全局或长期的状态视图，该视图可以用run表示，这是一系列交错的环境状态和代理执行的操作
可以将实用程序指定给运行，而不是指定给各个状态。这种方法从本质上看是长期的
u:运行->实际值
在此设置中，代理的最佳策略是最大化预期效用，这并不意味着它将是最好的，但平均而言，我们可以期望它做得最好
预期效用=（u（r）x Prob（r））之和

请参阅你提到的那本书或相应的书籍以了解更多详情