Machine learning 什么是强化机器学习?
我知道有监督和无监督学习,但仍然不知道强化机器学习是如何工作的Machine learning 什么是强化机器学习?,machine-learning,Machine Learning,我知道有监督和无监督学习,但仍然不知道强化机器学习是如何工作的 有人能帮我举个恰当的例子吗?强化机器学习是指机器从经验中学习,反馈是“好”还是“坏” 一个典型的例子是为游戏培训代理。你首先开始用你拥有的数据(监督的)训练你的代理,当数据耗尽时,开始训练几个代理,让他们互相竞争。那些获胜的人正在得到“加强”,并继续前进 这是过去的一个“诀窍”(以前在) 。。。 因此,政策网络是 通过让他们互相比赛,利用 这些比赛是训练的信号。这就是所谓的强化 学习,甚至深度强化学习(因为网络 被训练的深度) 你提
有人能帮我举个恰当的例子吗?强化机器学习是指机器从经验中学习,反馈是“好”还是“坏” 一个典型的例子是为游戏培训代理。你首先开始用你拥有的数据(监督的)训练你的代理,当数据耗尽时,开始训练几个代理,让他们互相竞争。那些获胜的人正在得到“加强”,并继续前进 这是过去的一个“诀窍”(以前在) 。。。 因此,政策网络是 通过让他们互相比赛,利用 这些比赛是训练的信号。这就是所谓的强化 学习,甚至深度强化学习(因为网络 被训练的深度)
你提到了有监督和无监督的学习。 这三个方面略有不同
- 监督学习:每个数据元组都有标签
- 无监督学习:您没有元组的标签,但希望找到输入之间的关系
- 强化倾斜:稀疏条目的标签很少。这个标签就是奖励
强化学习可以用来训练AI学习任何游戏。!虽然更复杂的游戏需要神经网络,这被称为深度学习。强化学习是一种因做了好事(或坏事)而得到奖励的模型。在有监督的学习中,模型可以学习的所有数据都由一些管理者来标注。这就是强化学习的美妙之处,该模型从其环境中获得直接反馈,并自动调整其行为。这是人类学习许多简单生活课程的方式(例如,避免伤害你的事情,做更多让你感觉良好的事情)
现在很多强化学习都集中在深度学习上,其中最大的例子就是关于视频游戏。强化学习也是一种强大的个性化工具。您可以将亚马逊推荐人视为一种强化学习算法,当它通过点击或购买来推荐正确的产品时会得到奖励,或者当用户开始观看电影时,netflix推荐人会得到奖励。强化学习通常用于机器人、游戏和导航 通过强化学习,该算法通过反复试验发现哪些行为产生的回报最大 这种类型的学习有三个主要组成部分:代理(学习者或决策者)、环境(代理与之交互的一切)和行动(代理可以做什么) 目标是让代理选择在给定时间内使预期回报最大化的行动
通过遵循良好的策略,代理将更快地达到目标。因此,强化学习的目标是学习最佳策略。虽然我确实喜欢你的许多答案,但我对这一答案并不太满意。当然很难总结出这么复杂的话题,但我不喜欢这些措辞和例子。(1)
反馈为“好”或“坏”
这表示二元奖励,但RL基于数字奖励(更一般)。(2) 游戏示例1:当然,这种有监督的预学习是可选的(如果数据可用,这是个好主意)。但这是不必要的。(3) *游戏示例2:这表示一些集合或多代理设置,这是可能的。但当然,单个代理也可以学习(通常使用imho)。