如何评价手机游戏《轮到你了揭秘篇》?

感谢大家的关注!

我是超参数科技的战略负责人Clear,很高兴看到《轮到你了揭秘篇》取得了让我们惊喜的成绩。

先汇报下最新的进展:经过3个多月的开发与调试后,这款小游戏在深度学习AI的加持下已经突破了冷启动阶段的匹配瓶颈,已经达到了3万+的日活(目前还是在没有买量和推广的情况下),并且入选了第14期微信创意小游戏

这里分享一些游戏里涉及到的AI技术原理和我们对游戏AI领域的思考。

易懂难精的多人推理玩法

先简单介绍一下这款游戏:《轮到你了揭秘篇》的设计灵感来自去年热播的同名日剧,玩法类似于《阿瓦隆》、《狼人杀》等身份推理类桌游。

游戏规则十分简单:

1)5名玩家会共度5个夜晚,其中“好人”方包括2位住民、1位目击者,“狼人”方包括2位捣乱者。

2)玩家每晚轮流提案要监控哪些人,被监控者无法行动,未被监控的捣乱者可以选择是否恶作剧。

3)满3晚恶作剧则捣乱者获胜,满3晚平安夜(且目击者没被捣乱者找出)则“好人方”获胜。

为适配小游戏的特殊场景,我们在游戏中创新性地摒弃了语言线索,让玩家专注于事实线索,在不说话的情况下进行推理,用简化的游戏流程来满足碎片化场景下的游戏需求。

虽然本作的上手门槛很低,但核心玩法却有相当的策略深度。每局的游戏体验会随着参与者水平和风格的变化而显著变化,产生了可供反复体验的随机性与多样性,也增加了玩家对成长性的追求。

桌游玩法的电子化到AI化

本作的玩法来源于桌游。经历电子化改造后,传统线下桌游存在的组局难上手慢耗时长等痛点得到了一定程度缓解,但核心的冷启动匹配问题始终未被解决——桌游玩家本身是小众群体,PVP用户量不足以形成网络效应,而PVE玩法又依赖于人机的设计。现阶段来看,操作单一的行为树人机无法满足需求,尤其在多人对抗游戏中,人机常常扮演“猪队友”,伤害用户体验。

在这样的背景下,我们试图用深度学习AI来解决冷启动匹配问题,并希望围绕AI来设计玩法。

我们要求AI能达到如下标准:

1)高拟人性

AI的表现需要符合人类玩家的常态,其他玩家无法分辨AI与真人。AI的操作有一定多样性——大部分是“常规操作”,偶尔也会犯下低级失误或打出“神之一手”。

2)差异化段位

不同段位的AI能明显体现出符合该段位的水平。比如低等级AI失误率更高,逻辑链简单;而高等级AI有更多套路,推理/反推理能力更强,各身份下胜率也普遍更高。

3)差异化风格

不同风格的AI在相同局面下会采取截然不同的行动。以捣乱者为例:冲锋型AI可能开局直接捣乱,力图快攻取胜;而猥琐型AI则可能连续潜水,甚至打出“双狼平安夜”,到后三轮再连续捣乱。

我们希望将满足上述标准的AI引入到游戏中,实现桌游玩法的AI化改造。通过大量行为拟人的、符合目标玩家段位的、具备多样化风格的AI“虚拟玩家”,来解决核心的冷启动匹配问题。

AI的实现路径

本作是一款非对称性、非完美信息的博弈类游戏,给AI设计提出了很大的挑战。与传统的多智能体问题不同,AI不仅要学习在没有直接通信下的合作能力,甚至还要学习应该与谁进行合作与谁进行对抗。同时,AI还需要学习伪装欺骗等高级策略,以及复杂的推理能力。

与传统的“击败最强人类”的目标不同,我们的AI旨在追求拟人性,以及差异化的段位能力和风格,从而实现AI的产品化落地。为此,我们创新地提出了一整套行之有效的AI实现路径。

当游戏还未正式上线时,无法获得大量的玩家数据。为此,我们提出了从小样本中进行模仿学习的深度学习算法。该模型可以实现初步的行为操作和基本策略。但由于数据量少且没有分级,无法满足不同段位和风格的AI需求。于是,在模仿学习的基础上,我们通过强化学习来进一步提高AI的能力,并获得不同的风格。

游戏中的隐藏信息主要体现在身份的隐藏。我们将预测学习引入到强化学习算法中,该模块可以根据当前可见信息实时预测可能的身份组合,并将预测结果输入到强化学习模块中,从而引导模型的训练。该算法模拟了人类决策时的思考过程。

作为一款多人对抗游戏,传统的自对战方法会使得强化学习训练出现不稳定而难以收敛。我们提出了一种基于种群的多智能体强化学习算法。通过设计从种群中挑选对手的机制,实现了稳定的收敛性。该种群中的每个个体在训练过程中挑选的对手均不相同,从而演化出具有不同风格特点的、相生相克的AI。通过对种群中的所有个体举办联赛,并进行排名,从而获得不同段位等级的AI。

目前达到的效果

游戏上线后,我们观察到了AI(尤其是高等级AI)在对局中的许多高光时刻——

当AI作为捣乱者时,他懂得隐藏自己,不到关键时刻不亮剑。

  • 二楼捣乱者AI在前两夜都选择了隐藏,并且在3.1和3.2反对了自己未被监控的提案,身份做好
  • 3.3出现恶作剧后,一楼捣乱者AI开启自爆,不影响二楼身份,还顺手赚到第四晚恶作剧
  • 利用住民的判断混乱,二楼捣乱者AI在5.4自爆同意,一举拿下比赛

即使被住民碰巧监控到了双狼、局势大逆风时,也能从少量线索中敏锐地捕捉到目击者。

  • 第一晚投票时,五楼捣乱者AI被关同意,身份做坏,导致第二晚人类住民赌一把直接裸点两狼
  • 第二晚平安夜导致被关的一楼五楼身份继续做坏,第三晚投票时三楼住民AI继续裸点两狼
  • 鉴于二三楼过于冲锋,不像顺风局下的目击者,于是大胆狙杀从未进行过提案的四楼,准确命中目击者(PS:由于担心捣乱者AI是乱蒙的,我们专门查看了后台记录,显示AI预测四楼是目击者的概率高达96%)

当AI作为住民时,能快速推断出目击者和捣乱者的身份,并帮目击者挡刀;当AI作为目击者时,能谨慎地隐藏在暗处,引导住民取得胜利。

  • 一楼住民AI在信息不明时尽可能多反对,2.3暴露二楼狼面较大,3.1四楼反关自己但放出了疑似狼的二楼,说明不是目击者,很可能是狼,结合三楼五楼经常反对、好面较大,于是在第四晚大胆点出双狼,并成功帮目击者挡刀
  • 五楼目击者AI第一晚故意选错,又在3.2反对了正确提案,加上一楼住民看似手握更多信息,误导了捣乱者认为一楼是目击者

AI的应用与反馈

我们为AI设计了一套调用机制。简单来说,会按照玩家段位针对性地匹配与其实力接近的AI,且玩家段位越低匹配到AI的概率越高。目的是当新手玩家对游戏理解还不够深时,能保证该玩家和其匹配到的其他玩家的对局体验;而随着玩家段位提升,又能逐步体会到“与人斗其乐无穷”。

对局统计的结果也反映出了这样的设计——对局中的AI调用个数随着段位增长而先增后减:低段位尽量配(低等级)AI防止“菜鸡互啄”;中段位鼓励玩家尽可能PVP;高段位由于玩家数量不足又需要(高等级)AI来填充匹配。

玩家的游戏数据体现了对这种设计的认可——在AI的陪伴下,截至目前,国服第一玩家的累计对局数已经达1600局,按每局最快3分钟来计,这需要80+小时的游戏时间;而国服Top100玩家的对局数均在300局以上,对应15+小时的游戏时间。

玩家反馈也表达出对游戏玩法的欢迎。

未来展望

我们坚信游戏与AI的结合可以为游戏侧和AI侧都带来「进化」的力量。

让游戏进化得更好玩。AI为玩家带来了具备更高拟人性智能度个性化甚至成长性的对局体验,为开发者带来了数倍提升的开发效率。除了冷启动匹配之外,我们在内容生成NPC设计人机挑战等场景下也看到了AI的价值。更进一步,我们正在探索围绕AI打造的全新游戏品类,如《Artificial Intelligence and Games》一书中所说的那样,“to create new game designs that start from the existence of the AI.

让AI进化得更智能。如我们之前在“猎户座α”的研究工作中提到的,“每个智能体必须既能独立行动,又能与其他智能体进行合作或竞争,在这个不断变化的世界中适应与生存”。我们相信,以电子游戏为载体,这种涵盖感知、理解、推理、决策、创造等全方位能力的“多智能体学习”将是AI的下一个里程碑,从虚拟世界反哺到现实世界的各行各业。

希望我们能扮演好排头兵的角色,在这个方向上为行业趟出更多、更靠谱、更有新意的解决方案,也算是抛砖引玉吧。

再次感谢大家的关注与支持!欢迎志同道合的朋友一起探讨:)

关于超参数科技

超参数科技公司介绍

来源:知乎 www.zhihu.com

作者:可厉儿

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 7 个回答,查看全部。
延伸阅读:
如何看待央视朝闻天下用8分钟报道《揭秘手游数据造假》所透露的信息?

2019年了,星际公民还是个骗局吗?