主页 > 数字引资 >人工智慧 Libratus 如何击败顶级德州扑克玩家?

人工智慧 Libratus 如何击败顶级德州扑克玩家?

人工智慧 Libratus 如何击败顶级德州扑克玩家?

1 月 30 日,宾州匹兹堡 Rivers 赌场,耗时 20 天的德州扑克人机大战尘埃落定。卡内基美隆大学(CMU)开发的 AI 程式 Libratus 击败人类顶级职业玩家,赢得 20 万美元奖金。儘管之前 Google DeepMind 的 AlphaGo 在与李世乭的五局围棋大战,以及网路上跟顶级围棋选手的 60 局快棋大战中出尽了风头,但德州扑克对 AI 却是更大的挑战,因为 AI 只能看到游戏部分资讯,游戏并不存在单一最优下法。那幺 CMU 的 Libratus 是如何击败人类顶级职业玩家?《Wired》杂誌这篇文章为我们揭密。

在几乎 3 星期时间里,Dong Kim 都待在匹兹堡一个赌场内跟一台机器玩扑克,但 Kim 不是普通的扑克玩家,跟他对战的也不是普通机器,这场比赛更不是普通的扑克游戏。

28 岁的 Kim 是全世界最强的扑克玩家之一。那台由卡内基美隆大学两位电脑科学研究人员开发的机器,是一套在匹兹堡一台超级电脑里执行的人工智慧系统。在整整 20 天内,他们都在玩无限制德州扑克比赛,这是一种尤其複杂的扑克游戏形式,其投注策略往往经过很多手。

这场比赛刚结束不久。大概赛程过半的时候,Kim 开始觉得 Libratus 好像能看到他的牌。不过他说:「我不是指它作弊,而是说它有那幺强。」实际上强到击败 Kim 及其他 3 名顶级人类玩家──这是人工智慧的第一次。

在比赛期间,Libratus 的创造者对这套系统的运作方式遮遮掩掩,大家不清楚它如何取得成功,如何以其他机器前所未有的方式模仿人类直觉。但结果证明,Libratus 能达到如此高度是因为它不仅是 AI。

Libratus 依靠 3 套不同系统的协作,这提醒我们现代 AI 并不是由一项而是多项技术驱动。这段时间以来深度神经网路抓住大多人的注意,当然这也有很好的理由:它们为一些全球最大型的技术公司从影像辨识到翻译,乃至搜寻引擎等一切提供了动力。但神经网路的成功也为其他辅助机器模仿甚至超越人类天才的 AI 技术注入了新生命。

比方说,Libratus 就没有使用神经网路,它主要靠强化学习,这是人工智慧的一种,一种强调除错的方法,其实就是自己跟自己大量玩游戏。Google DeepMind 实验室利用强化学习来开发 AlphaGo,这套系统攻克围棋的时间比预期早了 10 年,但这两套系统之间有一个关键点不同。AlphaGo 是透过分析人类玩家的 3,000 万份棋谱来学习的,然后才自己跟自己下棋来改进技能。相对而言,Libratus 是从零开始学。

透过一种名为「反事实遗憾最小化」(counterfactual regret minimization)的演算法,它先随机玩,然后经过几个月训练和玩了上兆手扑克后,它也到达能挑战人类最强玩家的高度,不仅如此,它的玩法是人类无法做到的──它下注的範围大得多,且会随机下赌注,这样对手就更难猜到自己手上有什幺牌。与指导教授 Tuomas Sandholm 一起开发这套系统的 CMU 研究生 Noam Brown 说:「我们只是向 AI 说明这个游戏,但没告诉它怎幺玩。它完全独立于人的玩法形成自己的策略,而且它的玩法跟人类玩法非常不一样。」

这只是第一阶段。在匹兹堡比赛期间,第二套系统会分析游戏状态并聚焦第一套系统的注意力。这套系统属于一种「残局解算器」(end-game solver),上週 Sandholm 和 Brown 发表的论文详细说明了细节。在第二套系统的帮助下,第一套系统再也不需要像过去那样跑完所有可能的场景,它可以只试探其中一些场景。也就是说,Libratus 不仅在比赛前学习,而且还能在比赛中学到东西。

光靠这两套系统就已经很有效率了,但 Kim 等其他玩家仍能够找出机器玩法的一些型态然后设法加以利用。为此,Brown 和 Sandholm 开发了第三套系统。每天晚上 Brown 都会跑一个演算法来辨识那些型态然后从策略中剔除。他说:「一个晚上它就能计算完然后次日备妥一切。」

如果这看来不公平,但 AI 就是这幺强。这不仅表示 AI 跨越了许多技术,人类往往也频繁加入,积极地改进 AI、跑 AI 或增强 AI。Libratus 的确是个里程碑,展示一种新型 AI,从华尔街交易到网路安全乃至拍卖和政治谈判,这种 AI 都可以扮演特定的角色。曾帮助 Google 设立 AI 实验室,现为百度首席科学家的吴恩达说:「扑克曾是 AI 最难攻克的游戏之一,因为你只能看到部分资讯,扑克并没有单一最优下法。相反地,AI 玩家必须让自己的行动随机化,这样它唬骗时对方才无法确定真假。」

Libratus 把这点做到极致:它的下注非常随机化,甚至超过人类最强玩家的水準,如果这个方法不奏效,Brown 晚上跑的演算法会弥补不足。金融市场交易员也可以採取相同做法,外交官亦然。这是一个强大且相当令人不安的想法:机器可以用豪赌吓退人类。