Machine learning 什么是强化机器学习？_Machine Learning

Machine learning 什么是强化机器学习？

machine-learning

Machine learning 什么是强化机器学习？,machine-learning,Machine Learning,我知道有监督和无监督学习，但仍然不知道强化机器学习是如何工作的有人能帮我举个恰当的例子吗？强化机器学习是指机器从经验中学习，反馈是“好”还是“坏” 一个典型的例子是为游戏培训代理。你首先开始用你拥有的数据（监督的）训练你的代理，当数据耗尽时，开始训练几个代理，让他们互相竞争。那些获胜的人正在得到“加强”，并继续前进这是过去的一个“诀窍”（以前在）。。。因此，政策网络是通过让他们互相比赛，利用这些比赛是训练的信号。这就是所谓的强化学习，甚至深度强化学习（因为网络被训练的深度）你提

我知道有监督和无监督学习，但仍然不知道强化机器学习是如何工作的

有人能帮我举个恰当的例子吗？强化机器学习是指机器从经验中学习，反馈是“好”还是“坏”

一个典型的例子是为游戏培训代理。你首先开始用你拥有的数据（监督的）训练你的代理，当数据耗尽时，开始训练几个代理，让他们互相竞争。那些获胜的人正在得到“加强”，并继续前进

这是过去的一个“诀窍”（以前在）

。。。因此，政策网络是通过让他们互相比赛，利用这些比赛是训练的信号。这就是所谓的强化学习，甚至深度强化学习（因为网络被训练的深度）

你提到了有监督和无监督的学习。这三个方面略有不同

监督学习：每个数据元组都有标签
无监督学习：您没有元组的标签，但希望找到输入之间的关系
强化倾斜：稀疏条目的标签很少。这个标签就是奖励

强化学习是一个人如何了解新情况的过程。它采取任何随机行动，观察环境的行为，并据此学习

什么是奖励

奖励是来自环境的积极或消极反馈。一个行动对其未来的所有回报负责。因此，它需要采取能够在未来获得最大积极回报的行动

这可以通过Q-学习算法实现。我请你检查一下这个话题

我用强化算法训练pacman。我希望你知道这个游戏。我们的目标是采取行动，它不应该击中鬼魂，也应该能够采取地图上的所有点。它经过多次迭代和数千次游戏后进行自我训练。我也用同样的方法训练汽车在特定的轨道上行驶

强化学习可以用来训练AI学习任何游戏。！虽然更复杂的游戏需要神经网络，这被称为深度学习。

强化学习是一种因做了好事（或坏事）而得到奖励的模型。在有监督的学习中，模型可以学习的所有数据都由一些管理者来标注。这就是强化学习的美妙之处，该模型从其环境中获得直接反馈，并自动调整其行为。这是人类学习许多简单生活课程的方式（例如，避免伤害你的事情，做更多让你感觉良好的事情）

现在很多强化学习都集中在深度学习上，其中最大的例子就是关于视频游戏。强化学习也是一种强大的个性化工具。您可以将亚马逊推荐人视为一种强化学习算法，当它通过点击或购买来推荐正确的产品时会得到奖励，或者当用户开始观看电影时，netflix推荐人会得到奖励。

强化学习通常用于机器人、游戏和导航

通过强化学习，该算法通过反复试验发现哪些行为产生的回报最大

这种类型的学习有三个主要组成部分：代理（学习者或决策者）、环境（代理与之交互的一切）和行动（代理可以做什么）

目标是让代理选择在给定时间内使预期回报最大化的行动

通过遵循良好的策略，代理将更快地达到目标。因此，强化学习的目标是学习最佳策略。

虽然我确实喜欢你的许多答案，但我对这一答案并不太满意。当然很难总结出这么复杂的话题，但我不喜欢这些措辞和例子。（1）

反馈为“好”或“坏”

这表示二元奖励，但RL基于数字奖励（更一般）。（2）游戏示例1：当然，这种有监督的预学习是可选的（如果数据可用，这是个好主意）。但这是不必要的。（3） *游戏示例2：这表示一些集合或多代理设置，这是可能的。但当然，单个代理也可以学习（通常使用imho）。