Artificial intelligence 培训代理探索未知环境';行不通
在阅读马克西姆·拉潘(Maxim Lapan)关于RL“深度强化学习实践”的书时,我试图创建自己的代理和环境。问题是我的经纪人似乎没有进行适当的训练。 我想做一个可以自动探索(以最有效的方式)室内建筑的代理。为此,我创建了一个类似健身房(且兼容)的环境,其特点如下:Artificial intelligence 培训代理探索未知环境';行不通,artificial-intelligence,reinforcement-learning,Artificial Intelligence,Reinforcement Learning,在阅读马克西姆·拉潘(Maxim Lapan)关于RL“深度强化学习实践”的书时,我试图创建自己的代理和环境。问题是我的经纪人似乎没有进行适当的训练。 我想做一个可以自动探索(以最有效的方式)室内建筑的代理。为此,我创建了一个类似健身房(且兼容)的环境,其特点如下: 尺寸:100px x 100px 使用二进制空间分区在每次重置时随机生成 算法(从这里开始: ) 一切都是灰色的 墙像素对应于0的值 代理是一个3x3像素的正方形,其值为192 空像素的值为255 探索的像素的值为64 对于每个动
- 尺寸:100px x 100px
- 使用二进制空间分区在每次重置时随机生成 算法(从这里开始: )
- 一切都是灰色的
- 墙像素对应于0的值
- 代理是一个3x3像素的正方形,其值为192
- 空像素的值为255
- 探索的像素的值为64
- 对于每个动作(上、下、左、右),代理移动1个像素
- 如果代理探索新像素:+1.0
- 如果代理不探索新像素:-0.1
- 如果代理撞到墙:-1.0
(0): Conv2d(1, 32, kernel_size=(8, 8), stride=(4, 4))
(1): ReLU()
(2): Conv2d(32, 64, kernel_size=(4, 4), stride=(2, 2))
(3): ReLU()
(4): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1))
(5): ReLU()
(0): Linear(in_features=5184, out_features=512, bias=True)
(1): ReLU()
(2): Linear(in_features=512, out_features=4, bias=True)
神经网络的输入:
- 环境的1帧:[1,1100,100]从[0,255]标准化 至[0,1]
- lr:1e-3
- 重播大小:800000(我最多可以使用ram)
- 重播开始大小:50000
- 同步目标网络:10000
- ε从1.0开始,100万帧后结束于0.1
- 伽马:0.99
- 批量:32
- 如前所述离开环境,并希望 奖励以及代理从客户处获得的反馈 “探索像素”就足够了
- 移除探索像素颜色和奖励并添加特殊 灰度值为128的像素(1px×1px)。每次探员打到那些 像素,它将获得+1的奖励(如苹果或Pacman中的点数, 蛇等),这些特殊的像素会在被击中时消失。试图强迫代理寻找和探索以找到 这些特殊点。见下文:
谢谢 我认为需要将状态表示为堆叠的帧。因为如果不这样做,代理就无法知道已经探测到的区域。我认为需要将状态表示为堆叠的帧。因为如果不这样做,代理就无法知道已经探测到的区域。