Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/335.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 什么是强化机器学习?_Machine Learning - Fatal编程技术网

Machine learning 什么是强化机器学习?

Machine learning 什么是强化机器学习?,machine-learning,Machine Learning,我知道有监督和无监督学习,但仍然不知道强化机器学习是如何工作的 有人能帮我举个恰当的例子吗?强化机器学习是指机器从经验中学习,反馈是“好”还是“坏” 一个典型的例子是为游戏培训代理。你首先开始用你拥有的数据(监督的)训练你的代理,当数据耗尽时,开始训练几个代理,让他们互相竞争。那些获胜的人正在得到“加强”,并继续前进 这是过去的一个“诀窍”(以前在) 。。。 因此,政策网络是 通过让他们互相比赛,利用 这些比赛是训练的信号。这就是所谓的强化 学习,甚至深度强化学习(因为网络 被训练的深度) 你提

我知道有监督和无监督学习,但仍然不知道强化机器学习是如何工作的


有人能帮我举个恰当的例子吗?强化机器学习是指机器从经验中学习,反馈是“好”还是“坏”

一个典型的例子是为游戏培训代理。你首先开始用你拥有的数据(监督的)训练你的代理,当数据耗尽时,开始训练几个代理,让他们互相竞争。那些获胜的人正在得到“加强”,并继续前进

这是过去的一个“诀窍”(以前在)

。。。 因此,政策网络是 通过让他们互相比赛,利用 这些比赛是训练的信号。这就是所谓的强化 学习,甚至深度强化学习(因为网络 被训练的深度)


你提到了有监督和无监督的学习。 这三个方面略有不同

  • 监督学习:每个数据元组都有标签

  • 无监督学习:您没有元组的标签,但希望找到输入之间的关系

  • 强化倾斜:稀疏条目的标签很少。这个标签就是奖励
强化学习是一个人如何了解新情况的过程。它采取任何随机行动,观察环境的行为,并据此学习

什么是奖励

奖励是来自环境的积极或消极反馈。一个行动对其未来的所有回报负责。因此,它需要采取能够在未来获得最大积极回报的行动

这可以通过Q-学习算法实现。我请你检查一下这个话题

我用强化算法训练pacman。我希望你知道这个游戏。我们的目标是采取行动,它不应该击中鬼魂,也应该能够采取地图上的所有点。它经过多次迭代和数千次游戏后进行自我训练。我也用同样的方法训练汽车在特定的轨道上行驶


强化学习可以用来训练AI学习任何游戏。!虽然更复杂的游戏需要神经网络,这被称为深度学习。

强化学习是一种因做了好事(或坏事)而得到奖励的模型。在有监督的学习中,模型可以学习的所有数据都由一些管理者来标注。这就是强化学习的美妙之处,该模型从其环境中获得直接反馈,并自动调整其行为。这是人类学习许多简单生活课程的方式(例如,避免伤害你的事情,做更多让你感觉良好的事情)


现在很多强化学习都集中在深度学习上,其中最大的例子就是关于视频游戏。强化学习也是一种强大的个性化工具。您可以将亚马逊推荐人视为一种强化学习算法,当它通过点击或购买来推荐正确的产品时会得到奖励,或者当用户开始观看电影时,netflix推荐人会得到奖励。

强化学习通常用于机器人、游戏和导航

通过强化学习,该算法通过反复试验发现哪些行为产生的回报最大

这种类型的学习有三个主要组成部分:代理(学习者或决策者)、环境(代理与之交互的一切)和行动(代理可以做什么)

目标是让代理选择在给定时间内使预期回报最大化的行动


通过遵循良好的策略,代理将更快地达到目标。因此,强化学习的目标是学习最佳策略。

虽然我确实喜欢你的许多答案,但我对这一答案并不太满意。当然很难总结出这么复杂的话题,但我不喜欢这些措辞和例子。(1)
反馈为“好”或“坏”
这表示二元奖励,但RL基于数字奖励(更一般)。(2) 游戏示例1:当然,这种有监督的预学习是可选的(如果数据可用,这是个好主意)。但这是不必要的。(3) *游戏示例2:这表示一些集合或多代理设置,这是可能的。但当然,单个代理也可以学习(通常使用imho)。