当前位置: 永利棋牌 > 儿童文学 > 正文

AI赌神Libratus称霸德州扑克赛场,博弈论如何让人

时间:2019-11-26 17:03来源:儿童文学
为什么在人工智能领域,科学家总是热衷于让AI跟人类下棋,玩游戏?从简单的跳棋、五子棋,到更加复杂的中国象棋、国际象棋,以及最近非常热门的围棋和德州扑克。每次AI在某个智

为什么在人工智能领域,科学家总是热衷于让AI跟人类下棋,玩游戏?从简单的跳棋、五子棋,到更加复杂的中国象棋、国际象棋,以及最近非常热门的围棋和德州扑克。每次AI在某个智力游戏上成功地击败人类选手,便会让大家唏嘘不已,慨叹AI会在不久的将来取代人类…

问题:当地时间2017年1月30日,在美国匹兹堡的大河赌场(Rivers Casino),一个名为Libratus的人工智能在共计12万手的一对一无限注德州扑克比赛中击败了四名顶尖人类高手,斩获20万美元奖金。这场德扑界的人机“华山论剑”名为“Brains Vs. Artificial Intelligence: Upping the Ante”(人脑大战电脑:升级版)。经历了20天的较量后,在个人战绩上,四名职业玩家Jason Lee、Dong Kim、Daniel McAulay 和Jimmy Chou均不敌人工智能;在总体战绩上,四名人类玩家共计输给Libratus176万美元筹码。人工智能是如何打德州扑克的?

博弈论如何让人工智能变身“赌神”

幸运的是,AI接手地球还并未发生。我们不仅不需要如此杞人忧天,而且还会欣喜地发现人工智能的技术进步给生活带来了更多便利。一个会下棋的AI也并非科学家的终极目标,其更积极的意义在于,AI算法在研究棋艺的过程中不断精进和提升,会带来更多设计上的创新,从而在根本上提升人工智能算法的能力和适用范围。

回答:

电 历经20多天的鏖战,4名顶尖德州扑克选手有些落寞:终于还是输了。这一次,击败他们的“赌神”是美国卡内基-梅隆大学开发的人工智能“Libratus”。

而科学家之所以乐于选择棋类游戏,一方面是因为它们自古以来就被认为是人类智力活动的象征,模拟人类活动的AI自然要以此为目标。成功达到人类甚至高于人类水平,可以吸引更多人关注并投身于人工智能的研究和应用中来。

1 月 30 日,宾夕法尼亚州匹兹堡Rivers赌场,耗时20天的德州扑克人机大战尘埃落定。卡耐基梅隆大学(CMU)开发的AI程序Libratus 击败人类顶级职业玩家,赢取了20万美元的奖金。(关注钮问,关注创业)

每天近11小时的比赛后,人类选手仍不顾疲惫讨论第二天的策略,但人工智能似乎能猜透他们的心思。每当他们欣喜若狂地发现人工智能的策略漏洞,这一漏洞在下一天就会被填补。

另一方面,棋类也很适合作为新的AI算法的标杆(Benchmark)。棋类游戏的规则简洁明了,输赢都在盘面,适合计算机来求解。理论上只要在计算能力和算法上有新的突破,任何新的棋类游戏都有可能得到攻克。

众所周知,人工智能已经在围棋中击败了人类中的顶级人物,相比而言扑克更加复杂。扑克不确定因素很多,比如对手可能会欺骗,在现实世界中到处都是欺骗,AI还不懂得怎样欺骗。扑克玩家看不到对手的牌,但在西洋棋、国际象棋和围棋中,大家可以看清对方的棋子。

美国匹兹堡的一家赌场这次成为“人机大战”的最新战场,“Libratus”在那里与4名人类选手共玩了12万手一对一不限注的德州扑克。比赛从1月11日持续到30日,结束时,人工智能领先人类选手共约177万美元的筹码。

除了棋类游戏,牌类游戏(比如德州扑克、桥牌、麻将、斗地主等)也逐渐成为人工智能研究的新方向。而在更加大型的电子游戏方面,比如星际争霸、我的世界(Minecraft),科学家也开始了新一轮的AI算法的创新。这些不同的游戏在研究人员的眼里究竟有什么区别?这些研究成果对我们的生活又有什么意义呢?下面我们就为大家扒一扒这两个问题。

那么人工智能是如何打德州扑克的呢?

今年早些时候,加拿大艾伯塔大学和捷克两所高校的研究人员开发的人工智能“DeepStack”已首次在一对一无限注德州扑克中击败人类职业玩家。

棋牌类AI家族

一、AI赌神Libratus的策略

Libratus 运用了三种策略:增强(自我)学习、残局解算器、避免人类识别模式。程序用“逼近法”打败了人类对手,“逼近法”与直觉有点相似。

德州扑克有运气成分,但比赛总共进行12万手牌,牌运的影响几乎微乎其微。打100-1000手牌,运气还是影响很大的;但打了12万手牌赢到17.66万个盲注,比赛结果的可信度高达99.77%。也就是说,每场比赛打12万手牌,人类与AI进行1000场比赛,AI将赢下998场,人类只能赢下2场。因此,人工智能Libratus 有着完全不可逆转的优势。

图片 1

过去20多年,国际象棋、中国象棋、拼字游戏、围棋……人们心情复杂地见证了人工智能步步攻陷人类智慧的堡垒。不过,又是下棋又是打牌,难道人工智能就只会玩耍吗?

了解棋牌类AI,我们可以先从它的分类讲起。这一家族按照牌面“坦诚”度的不同,可以分为两支脉络:一支擅长“打开天窗说亮话”,另一支则是“猜测推理”的智能高手。

二、人类学习扑克的模式

人类学习扑克的一种模式是试错模式,每次输了一手大牌后,想如果我当时不去加注,不去跟注或者扣牌就不会输了。每次对过去的行为感到后悔,然后总结经验调整打法,看是否赢得更多的钱或少输钱。

人类更多是从互联网学习别人已经总结好的正确打法。然后再加以练习,比如每天打上4-5个小时,再花1-2个小时总结今天打扑克的错误和进步,一般6个月里在互联网上打300—500万手牌,通常能成为优秀的扑克玩家。

图片 2

其实,正如益智游戏有利于儿童成长,棋牌类游戏是帮助人工智能“开发智力”的手段而不是目标。不同的游戏对人工智能提出了不同的技术挑战。

国际象棋、围棋等盘面信息都是公开的,对弈双方接收到的信息完全相同,因此也被称为“完全信息类”的AI博弈;而德州扑克、桥牌、麻将等游戏,每个人无法看到对手手里的牌,所以称之为“非完全信息类”的AI博弈。

三、人工智能Libratus学习扑克的模式

扑克人工智能是通过Counterfactual Regret Minimization进行100万亿手牌的训练来形成一套完美的打法。

Libratus主要依靠自己的近乎无限的计算量,通过无数盘德州扑克对决,把自己培养成能够面对各种复杂牌局都能提供最优解,换言之,Libratus本身就变成了德州扑克对决的最优算法集。再根据不同的对手,在不同时间段,进行调整。人工智能必须根据近期相关性的牌局,来调整自己的打牌的范围,进而适应不同对手,不同的打法。

卡内基梅隆大学团队(其Computer Science专业堪称全球最好)每晚用超级电脑来分析白天的比赛,提高系统性能。系统检测自身在每轮比赛中的弱点,每天补救三个最明显的失误,而不是试图学习对手的制胜战术。

图片 3

相对其它玩扑克的程序,Libratus最主要的提高在于电脑在接近游戏最后时的玩法。先前的系统从头至尾使用单一战术,但是Libratus使用额外的反馈回路来实时回应对桌的人类。

百度首席科学家的吴恩达说:“扑克曾经是AI最难攻克的游戏之一,因为关于游戏状态你只能看到部分信息。扑克并没有单一的最优下法。相反,AI玩家必须让自己的行动随机化,这样它诈唬时才能让对方无法确定真假。”


如果你也想创业!如果你正在创业!
style="font-weight: bold;">右上角关注:“钮问”的头条号

回答:

称霸德州扑克赛场的赌神Libratus,是今年最瞩目的AI明星之一。

最近,《科学》最新发布的预印版论文,详细解读了AI赌神背后系统的全貌。

在最新论文Superhuman AI for heads-up no-limit poker: Libratus beats top professionals中,卡内基梅隆大学(CMU)的博士生Noam Brown和教授Tuomas Sandholm,详细介绍了德扑AI如何通过将游戏分解为可计算、可管理的部分,来实现超越人类的表现,而且AI还能根据对手情况,修正潜在的战略弱点。

Libratus所用到的技术既不需要领域专家知识,也没有使用人类数据,甚至不是专门为扑克设计的。换句话说,这些技术适用于多种不完美信息博弈。

不完美博弈正是德扑的一个主要特征。围棋、国际象棋、跳棋等棋类游戏,属于完美信息博弈,对战的双方,清楚每一时刻局面上的全部情况。相比之下,德州扑克存在大量的隐藏信息,包括:对手持有什么牌,对手是否在诈唬?

详解Libratus

据最新论文介绍,Libratus主要包括三个模块。

第一个模块负责对牌面进行简化计算,将包含10161种情况的一对一无限注德扑抽象成一个比较简单的博弈。然后,这个模块为前两轮制定详细的策略,并为后两轮制定一个粗略的策略。这个抽象简化版博弈的解决方法称为蓝图策略(blueprint strategy)。

这种抽象体现在两个方面,一是下注金额上,二是牌面上。

在下注金额上,100美元和101美元其实几乎没有差别,因此,算法可以对不到100美元的差异进行四舍五入。同时,将类似的牌面视为同一类,也能降低计算的复杂度。

需要说明的是,Libratus在后两轮游戏中并不会按照抽象版的解决方法来玩,蓝图策略在这两轮中的作用,只是用来估算玩家在子游戏中每一首牌应该得到的奖励,然后参考这个估算值,在真正的牌局中做出更精确的策略。

这个“更精确的策略”,也就是第二个模块:嵌套安全子博弈求解(Nested safe subgame solving)。在博弈后期,这个模块会基于当前的牌面,构建一个全新的、更精细的抽象,而且对这个子博弈的策略进行实时计算。

图片 4

上图是Libratus的子博弈求解过程。顶部表示在对局过程中出现了一个子博弈,中间部分表示算法为这个子博弈制定了更详细的策略,每次迭代中,对手随机发放一手牌,可选的期望值可能来自旧的抽象(红色),也可以来自新的、更精细的抽象(绿色)。如果期望值来自新的抽象,两个玩家的策略都会改变。这就迫使Libratus制定更精细的策略。上图底部表示用新的策略替代旧策略。

图片 5

Libratus的子博弈策略计算和那些完美信息博弈不太一样,它需要确保这些子博弈的精细解决方法与整个博弈的大蓝图策略不冲突,而不能孤立地解决它。

第三个模块的意义,是随着比赛的进行,改进自身的蓝图策略。Sandholm教授表示,通常AI使用机器学习来发现对手的战略错误并加以利用。但这也会让AI暴露自身的弱点,并被对手加以利用。

不同之处在于,Libratus的自我改进模块分析对手赌注大小,以检测自身蓝图战略中潜在的漏洞,然后弥补自身的不足之处。

在与人类高手对战之前,Sandholm和Brown为了测试Libratus中所用的各项技术,先用简化版的扑克对整体流程进行了测试,然后把AI用到了完整版的一对一无限注德州扑克上,和他们自己之前开发的Baby Tartanian8进行比赛。

2016年,Baby Tartanian8曾经赢得电脑德扑大赛冠军,不过Libratus以63±28大盲注/千手(mbb/hand)的战绩击败了它。

“我们研发的技术在很大程度上是独立于领域的,因此可以应用于其他不完美信息策略应用,不仅限于游戏领域”,Sandholm和Brown总结说:现实世界的战略交锋中,隐藏信息无处不在,Libratus引入的范式对AI未来的发展和引用至关重要。

目前,这项技术已经授权给Sandholm创办的公司。

论文地址

回答:

在今年的围棋人机大战中,“阿尔法狗”击败世界最顶级的职业选手。而在美国的匹兹堡,人工智能Libratus在德州扑克比赛中击败四名顶尖人类牌手,这些耀眼的成绩,吸引着无数人的眼球。也坚定了人工智能开发者的信心。

这些人工智能开发团队通过棋类比赛来,挑战人类的极限。无论是“阿尔法狗”还是Libratus这些对弈类人工智能都遵循一套既定的运算原理。人工智能最大优点就是高效的运算能力。通过对已有大量棋局或牌局的情形分析,通过已将量化的可供运算的模型来找出最优解,达成既定目标,赢得对局。

第一步数据的获得就是通过电脑的运算来实现的。电脑和电脑打牌,输入既定残局,记录对弈过程中可能出现的各种结果,积累大量可用数据。第二步建立模型,这是最重要的部分,大量的顶尖科学家需要建立系统模型,让人工智能从众多的情况中挑出当时的最优解,这里是需要大量人力进行参与,使得人工智能表现自能像人一样具有逻辑性,实现具有处理数据的能力。第三步让人工智能向着既定目标,步步为营,找出实现目标的最快策略,赢得博弈比赛。所有的对弈类比赛都是这个思路,有兴趣的朋友可以看看大牛写的专业分析,做为一个实用主义者,海微更喜欢用微信聊天,而不是研究微信的代码是怎么写出来的。图片 6

人工智能之所以能够战胜人类棋手或牌手是因为,人的对弈都是从经验中来,当某一种出牌风格或下棋风格不容易出现在对弈过程中,人类的博弈经验就会相对缺失,而机器人ai自我演练却能很好的弥补人类的经验的空白。实际上人类棋牌类的高手对弈的可能是比自己经验更丰富,一群顶尖人才团队智慧的集合体,玩不过也是合情合理。

我是海微,告别纷繁冗杂的科技术语,用最接地气的语言,带你了解最新的科技资讯

回答:

胡扯,机器人能称霸德州扑克?那让他把每年的世锦赛冠军都拿下吧,几百万美金,得一个小冠军就敢说称霸了,连i∨ey都不敢这样说,世界级牌手,职业生涯超三干万美元的奖金没你牛逼,一个小冠军,技术有,但运气还是占主要的,你机器人只要看不到底牌,长期和人打,必死。

两度出手皆获胜的“阿尔法围棋”,是要培养人工智能基于复杂信息的决策能力。一盘围棋游戏约有10的170次方个决策点,是所有棋类游戏中最多的,需要具有极大计算能力的人工智能,通过预测所有未来步骤的胜率来决策。

完全信息类——看得到我就算得出

围棋是一种“完美信息”博弈,信息完全公开,玩家可以看到棋盘上的棋子,并预测落子可能性。而德州扑克玩家手中的底牌是其他玩家看不到的,因此是“不完美信息”博弈,要求更复杂的推理能力,对人工智能更具挑战。

顾名思义,即棋面信息大家都可看到,博弈双方接收到的信息是完全对等的,如国际象棋和围棋。此类博弈中,AI每次只需要根据当前盘面,搜索计算以后各种情况下自己的胜率。为了提高搜索效率,一般需要对搜索过程中产生的“博弈树”进行广度和深度剪枝。就是我们平常下棋时常说的算多远和算多准。为了算得远,我们一般需要让AI少看对手和自己不太可能走的地方,称之为策略函数。为了算的准,我们需要更加准确地评估多步后的盘面自己的胜率,称之为价值函数。找到了合适的函数,再加上计算机的强大计算力,让AI达到或超过人类成为可能。在博弈树和策略价值函数的选择上,“完全信息类”棋类AI算法经历了从“AlphaBeta剪枝算法”、“蒙特卡洛树搜索”到“深层神经网络”的迭代更新,功能也不断“进化”。

此外,要想玩好德州扑克,人工智能还得懂点心理学。德州扑克中有一经典策略——诈唬,即在手握弱牌时依然虚张声势地加注,以吓退对手。对手是不是在诈唬?自己要何时诈唬还不被识破?这些都为编写人工智能程序提供了挑战。

跳棋、五子棋 | 难度指数 ★

德州扑克“人机大战”中也有人工智能不堪回首的历史,卡内基-梅隆大学开发的一个较早版本的人工智能“Claudico”在2015年的比赛中输给人类选手。那么,此次卷土重来的“Libratus”靠什么成功“复仇”?

跳棋和五子棋的空间复杂度较低。甚至在不需要对博弈树剪枝的情况下,计算机凭借强大的计算能力便可以计算所有盘面的可能。所以在这种相对简单的棋类游戏中,人类已经不存在战胜AI的可能。

其实,“Libratus”的名字隐含了它胜利的秘诀,这个拉丁文词语的含义是“均衡”,代表着程序所用到的均衡博弈。奥斯卡获奖影片《美丽心灵》的主人公原型约翰:纳什在20世纪50年代提出“纳什均衡”理论,又称为非合作博弈均衡,保证使得同一时间内每个参与者的策略是对其他参与人策略的最优反应。

编辑:儿童文学 本文来源:AI赌神Libratus称霸德州扑克赛场,博弈论如何让人

关键词: