Machine learning 监督学习线性回归

Machine learning 监督学习线性回归,machine-learning,Machine Learning,我对线性回归在监督学习中的作用感到困惑。现在我想使用线性回归为棋盘游戏生成一个评估函数,所以我需要输入数据和输出数据。输入数据是我的电路板条件,我需要这个条件对应的值,对吗?但是我怎样才能得到这个期望值呢?我需要自己先写一个评估函数吗?但我认为我需要使用线性回归生成一个评价函数,所以我对此有点困惑。毕竟这是监督学习,意思是:你需要输入和输出 现在的问题是:如何获得这些?这不是小事 候选人包括: 历史数据(如在线播放历史) 某种形式或自我游戏/强化学习(更复杂) 但随后出现了一个新问题:哪种输

我对线性回归在监督学习中的作用感到困惑。现在我想使用线性回归为棋盘游戏生成一个评估函数,所以我需要输入数据和输出数据。输入数据是我的电路板条件,我需要这个条件对应的值,对吗?但是我怎样才能得到这个期望值呢?我需要自己先写一个评估函数吗?但我认为我需要使用线性回归生成一个评价函数,所以我对此有点困惑。

毕竟这是监督学习,意思是:你需要输入和输出

现在的问题是:如何获得这些?这不是小事

候选人包括:

  • 历史数据(如在线播放历史)
  • 某种形式或自我游戏/强化学习(更复杂)
但随后出现了一个新问题:哪种输出可用,您将使用哪种输入

如果有某种先验实现的人工智能,你可以只取这个人工智能的分数。但以历史数据为例,你只得到了-1,0,1(A赢,平局,B赢),这使得学习更加困难(这涉及到学分分配问题:可能有一场比赛让某人输了;很难理解30个动作中的哪一个会导致1的结果)。这也与输入有关。以国际象棋为例,从一些在线游戏中随机选择一个位置:这个位置可能在1000多万个游戏中是唯一的(或者至少不经常发生),这与您的方法的预期性能相冲突。我在这里假设,输入是全板位置。对于其他输入,例如国际象棋材料,这会发生变化,其中输入只是一个棋子直方图(其中3个,其中2个)。现在,独特的输入要少得多,学习将更容易

长话短说:这是一项复杂的任务,有许多不同的方法,其中大部分都与您的确切任务有关!在强化学习方法中,线性评估函数并不罕见。您可能想阅读一些关于这些函数的文献(该函数是一个核心组件:例如查表与线性回归与神经网络,以近似值或策略函数)

我可以补充一点,你的任务表明了人工智能的自学方法,这是一个非常困难的话题,在过去几年中,这个话题在某种程度上获得了额外的普及(以前有过成功:参见双陆棋人工智能)。但所有这些方法都非常复杂,因此,对RL和马尔可夫决策过程等数学基础的良好理解非常重要

对于更经典的基于手工评估函数的AIs,许多人使用额外的回归器来调整/加权已经实现的组件。一些概述。(上面的国际象棋材料示例可能是一个很好的例子:假设是:多棋子比少棋子好;但很难给出它们的值)