微软麻将 AI 论文发布，首次公开技术细节

场景描述：还记得去年 8 月微软发布的「雀神AI」Suphx 吗？今天，该研究团队在 arXiv 上发布了更新版的论文，进一步介绍了 Suphx 背后的技术。

原创：HyperAI超神经

关键词：麻将 AI， Suphx，卷积神经网络

2019 年 8 月 29 日，微软发布了一个名为 Suphx（超级凤凰）的「麻将 AI」，在专业的麻将竞技平台上，Suphx 的实力胜过了顶级人类选手的平均水平。

当时一经发布，Suphx 便引起了广泛的关注，不仅是人工智能领域，不少麻将爱好者也都赶来围观讨论。（可点击此文回顾打麻将三缺一？一家胡三家的人工智能来了）

《Suphx：掌握麻将与深度强化学习》

论文地址：https://arxiv.org/pdf/2003.13590.pdf

Suphx 愈战愈勇：已超越 99.99% 玩家

此前我们已经介绍过，Suphx 系统利用深度强化学习，从 5000 场比赛中学习、吸取经验之后，在日本专业的麻将竞技平台「天凤」上击败了众多麻将玩家，取得平台「特上房」的最高段位十段。

discard 模型（上）与其它四个模型的架构（下）

在此基础上，Suphx 采用另一种基于规则的模型，来决定是否宣布赢家并进行下一轮，检查是否赢牌可以从其他玩家丢弃的牌中来判断，或者从排墙上抽出来的牌来判断。

据介绍，Suphx 的训练过程一共分为三步。

首先，它的 5 个模型都使用从「天凤」平台收集的顶级人类玩家的日志进行训练。

然后，使用包含一套基于CPU 的麻将模拟器和基于 GPU 的轨迹生成推理引擎，通过自我博弈强化学习对系统进行微调。

最后，在在线游戏期间，使用运行时策略调整被用来观察当前轮的结果，从而使系统执行得更好。

强化学习 agent 最终稳定排名统计在不断优化中，RL-2 最终取得更好的表现

有趣的是，研究人员写道，Suphx 的防守「非常强」，放胡的概率很低，只有 10.06%，而且它开发了自己的游戏风格，可以保证牌的安全，并以半平手取胜。

文章