研发出 AlphaGo 的 DeepMind 就把下一个挑战目标放在一款卡牌游戏花火(Hanabi)。最近 DeepMind 和 Google Brain 团队在一篇论文披露这项研究的进展,与之前训练过的围棋和扑克等游戏不同,Hanabi 这款游戏要求 AI 更深入了解其他玩家的心理,进行更高层次的推理,这也是 AlphaGo 这类 AI 目前面临的瓶颈。 AI 为什么玩不好纸牌游戏,回答这问题有必要先简单了解一下 Hanabi 这款卡牌游戏。 Hanabi 是一款 2~5 人的合作类型卡牌游戏,包含 5 种花色的牌组。只有将不同花色的卡牌按照一定顺序组合排列才能达成「花火」。 牌局中玩家不能看自己的牌,只能看别人的牌,玩家只能以有限的提示推理,或和其他玩家战略性合作,才有机会胜出。 从游戏规则就能看出,这款游戏对沟通和推理能力的要求比较高,AI 需要读懂其他玩家提示字面意思外的隐藏讯息,并推断对手的意图。 研究人员很快就发现这并不容易。DeepMind 团队曾用其他博弈游戏验证过的大量数据来训练,让算法利用副本进行 200 亿次「有效无限」动作,按照玩家每次移动需 30 秒计算,这相当于一个人在游戏时操作 3 亿次或玩了 1.66 亿小时。 这种训练效果在双人游戏十分有效,然而 Hanabi 这种有 4 或 5 人参与的游戏,AI 表现却始终比专业玩家差得多。 研究团队指出,算法要在不同环境交流需要高效程序代码和适应性。比如不同玩家表述的风格和用语可能都不一样,即便是最先进的 AI 也无法像人一样快速适应新玩家,AI 只能遵循复杂但相对固定的规则,比如围棋。 前两年人工智能 Libratus 在德州扑克大赛战胜人类,引起很大轰动。这是因为比起围棋响起等全信息游戏(双方牌面都相互知道),扑克的变化更多,往往也无规律可循,甚至要用到虚张声势等手段来影响对手。百度前首席科学家的吴恩达曾表示: 扑克曾是 AI 最难攻克的游戏之一,因为关于游戏状态你只能看到部分讯息。扑克并没有单一的最优下法。相反地,AI 玩家必须让自己的行动随机化,这样它诈骗时才能让对方无法确定真假。 相比起扑克,Hanabi 这种卡牌游戏的难度更上一层楼,有更多变量和不确定性,不仅要分辨惑人的假象,还要与其他玩家沟通合作。就像电影《赌博默示录》,即便是剪刀石头布,随着规则变动和参与人数增加,也能变成高智商游戏。 卡内基美隆大学人工智能研究员 Noam Brown 曾指出,不限注的德州扑克单挑比赛有 10 的 163 次方种情况,即使地球最强的计算机也无法算出所有可能性。 因此 Libratus 用了 3 套不同策略合作,没有用人们熟知的神经网络,而是用其他基于心理理论的算法,随机化自己的行为,使对手难以看出它是否虚张声势。 如果 AI 彻底攻破 Hanabi,将是比 AlphaGo 战胜柯洁更重要的突破。这意味着 AI 更懂人类,有能力做出更复杂的决策,比如在自动驾驶等场景更能与人类沟通,目前类似的 AI 技术已开始被美国美国器官移植中心用于决定哪位病人能获得肾脏移植了。 同时也可能让我们进入强人工智能时代(Artificial General Intelligence),像《流浪地球》那种能为人类未来理性判断的人工智能,真的有可能出现了。
|