Neural network 自作主张

Neural network 自作主张,neural-network,Neural Network,我要写一个类似于盗贼的博格-一个可以玩并且可能赢得盗贼的ai。 我的方法如下: -决策是通过状态机做出的,因此borg采取的行动在某种程度上是可预测的,并且可以在运行时进行检查。 -状态输入通过神经网络反馈。换网是博格学习的主要方式。 -当ai采取足够糟糕的行动时,网络会发生变化。每个动作的即时效果都会得到一个分数,1表示纯好(如战斗外的治疗),-1表示纯坏(死亡)。开始时得分=-1,所以net只会在前n次迭代中死亡后更改其行为。 -“教网络”意味着负强化学习——博格被教导不要做这件事;增加下次

我要写一个类似于盗贼的博格-一个可以玩并且可能赢得盗贼的ai。 我的方法如下: -决策是通过状态机做出的,因此borg采取的行动在某种程度上是可预测的,并且可以在运行时进行检查。 -状态输入通过神经网络反馈。换网是博格学习的主要方式。 -当ai采取足够糟糕的行动时,网络会发生变化。每个动作的即时效果都会得到一个分数,1表示纯好(如战斗外的治疗),-1表示纯坏(死亡)。开始时得分=-1,所以net只会在前n次迭代中死亡后更改其行为。 -“教网络”意味着负强化学习——博格被教导不要做这件事;增加下次在这种情况下做其他事情的可能性。 -博格通过模拟自己的行动来预测未来,预测产出,并在出现足够大的错误时训练自己的预测网络

1) How to do deductive reasoning? To do thing C, we can do thing B. To do thing B, we can do thing A. Therefore, to do C we can do A. We cannot directly do B. How do I make a computer figure this out? 
For a 'real' world example, to reliably kill an Ice Beast in Rogue, borg can cast Fire Bolt, which it can learn from a spellbook. So, to kill Ice Beast borg has to find the book (or a wand of firebolts, or..). 
我的想法是将博格世界中发生的每一个“动作”都表示为一个神经网络,因此施放一个火咒语和使用一根火魔杖似乎与之类似。 博格记得它采取的每一个不同的行动(假设我们有无限的资源)。博格想要完成的每一个动作都有一把“钥匙”,这是一个经过训练的网络,可以为完美的输入(冰上的火等)给出完美的分数。接下来,博格选择了过去采取的行动的输入,这些行动至少与完美行动的输入相似X%。然后,博格输入这些输入并选择得分最高的动作。 该算法反复执行,直到评估所有操作。总体得分最高的动作链假设为上述A->B->C链。 这幅画怎么了

2) How to do long term memory about things that happen and patterns? Like, borg caught itself in a bad situation, so it wants to remember the circumstances that led to it. 
My guess is to represent each notable situation as inputs for hopfield net, and each step the borg feds the current world state to every net he has. This has the obvious problem that the nets can't grow into infinity. Can you see a better way?

一般的游戏玩法是人工智能非常困难的领域,你的方法可能会受到组合爆炸的影响

最近,在教授神经网络玩强化学习和时差学习游戏方面取得了一些成功。基本上,神经网络被训练来预测每一个可能行动的未来“回报”,然后采取预测回报最高的行动

但即使这样,在像《盗贼》这样的复杂游戏中也不太可能很好地发挥作用