Algorithm 囚犯'；s困境算法_Algorithm_Performance_Game Theory

Algorithm 囚犯'；s困境算法

algorithm performance

Algorithm 囚犯'；s困境算法,algorithm,performance,game-theory,Algorithm,Performance,Game Theory,看完《黑暗骑士》后，我被囚徒困境的概念迷住了。必须有一种算法，在给定的情况下使自己的收益最大化对于那些认为这是外来的：非常非常有趣的东西编辑：问题是，如果有的话，囚徒困境的最有效算法是什么？困境的关键在于，最优解决方案（两个囚徒都保持沉默）是危险的，因为问题的一部分不在你的掌握之中。因此，选择次优的解决方案似乎可以最大化您的收益，但它仍然是次优的当问题的一部分是未知的时，我不知道算法如何提供解决方案。啊，是的。这让我想起了这篇关于对于算法PD竞争外观这也是一个好问题维基百科页面似乎给

看完《黑暗骑士》后，我被囚徒困境的概念迷住了。必须有一种算法，在给定的情况下使自己的收益最大化

对于那些认为这是外来的：

非常非常有趣的东西

编辑：问题是，如果有的话，囚徒困境的最有效算法是什么？

困境的关键在于，最优解决方案（两个囚徒都保持沉默）是危险的，因为问题的一部分不在你的掌握之中。因此，选择次优的解决方案似乎可以最大化您的收益，但它仍然是次优的

当问题的一部分是未知的时，我不知道算法如何提供解决方案。

啊，是的。这让我想起了这篇关于

对于算法PD竞争外观

这也是一个好问题

维基百科页面似乎给出了所有答案。。。对于一次性囚徒困境，每个囚徒（不是两个囚徒）的最佳解决方案是背叛

对于反复出现的囚徒困境，最好在第一次尝试时保持沉默，然后再做其他囚徒在最后一次尝试时所做的任何事情。

没有，因为你无法明确预测第二个囚徒的行为

有各种各样的“解决方案”对第二个囚犯的行为做出了潜在但非常严格的假设，但它们对无约束问题几乎没有什么可说的（这就是为什么它成为如此令人信服的两难境地的原因）

我的两分钱，鉴于你不能依赖第二个囚犯的行为，它归结为：你是一个乐观主义者，还是一个愤世嫉俗者？这两名囚犯是要团结在一起（在盗贼中赢得荣誉），还是他们要在第一次有机会拯救自己的喉咙时就互相揭发……？

好吧，据我所知，模式识别也是其中的一个重要部分。发现另一个囚犯的习惯——他多久保持安静一次，什么时候吸毒。你还必须将其与你自己的选择相互参照，以确定你是如何让他以某种方式做出反应的

我认为这比维基解释的要复杂一些。这不仅仅是囚犯在最后一次行动中所做的事情，而是在那之前的所有行动中一直延伸到无穷远。

此外，在重复的囚犯游戏中，最优策略将根据游戏中的其他策略而变化

在一系列比赛中，对付一个总是叛逃的球员是最好的策略。当与可能合作的玩家比赛时，一种报复但偶尔原谅的策略可能是最好的

我应该补充一点，这只适用于长度未知的游戏。任何已知长度的游戏都与单轮游戏相同。

试图找到囚徒困境的最佳解决方案就像试图为Ro Sham Bo（石头剪纸）找到一个解决方案。你能做的最好的方法是模仿对手并尝试利用模式

在博弈论和计算机科学的早期，约翰·冯·诺依曼（John von Neumann）和兰德公司（Rand Corporation）花了大量脑力劳动，试图想出一种解决囚徒困境的最佳算法，但没有成功，iirc，最终从数学上证明没有最优解。

因为只有一个选择，并且在没有任何可变输入的情况下，您的算法将是：

cooperate = true;

……或者

cooperate = false

更有趣的是找到一种解决反复囚徒困境的策略，这是很多人都做过的事情。比如说

即使这样，它也不是“可解的”，因为其他玩家是不可预测的。

我建议阅读。这是一个重复囚徒困境竞争策略的计算机实验。当我上次听说它时，针锋相对的策略首先出现了。它可能已经改变了

囚徒困境的关键在于，你的最佳策略是背叛另一个囚徒。O（1）

对于一次性版本的游戏，最好的策略总是叛逃，因为没有报复的机会

迭代版本更有趣，因为玩家可以响应对手之前的选择

如果我们事先确切知道会有多少轮，那么合乎逻辑的“最佳”策略仍然是“始终缺陷”。这是因为在最后一个回合叛逃总是有意义的，因为没有报复的机会。当然，我们理性的对手会知道这一点，也总是在最后一个回合出现失误。这使得我们在倒数第二个回合时叛逃是明智的，因为在最后一个回合无论如何都没有合作的机会。按照这一逻辑得出自然的结论，我们应该在每一个转折点上都有缺陷

当轮次总数未知时，事情就变得更有趣了。一个好的游戏策略应该尝试预测对手会做什么。我研究了使用简单的机器学习和对手建模来为我的硕士学位游戏生成策略。如果你真的感兴趣，你可以阅读

正如Yuval所建议的，最好的出发点可能是。如果你真的，真的对这些东西感兴趣的话，有一个很好的例子，其中包括很多其他研究人员最近在IPD（重复囚徒困境）方面的工作

此外，我还彻底推荐了威廉·庞德斯通（William Poundstone）的，这是约翰·冯·诺依曼（John von Neumann）的传记，也是博弈论的导论。

其他帖子从数学上回答了这个问题，但实际上，可能还有其他选择。无论这些选择多么荒谬，它们都会带来额外的结果可能性，并可能增加个人收益的机会。例如，在蝙蝠侠的例子中，这会破坏情节，但他可能只是杀死了小丑——从而破坏了小丑对结果的任何额外影响。让小丑活着，蝙蝠侠却不知情