一个人玩AI狼人杀,难道不看大模型之间精彩对决吗?

2026-05-26 23:571阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐

推倒重来。 除了把狼人杀主流程跑通,我这两天其实特别执着一些小细节。比如你在等AI的时候不要焦虑,当它还在生成内容时先在消息框里丢一句“”。对话里提到“@3号”这种信息位会直接渲染成小标签,读起来geng像在kan真实对局记录。

比如我们在开局生成角色、 等玩家入场的时候,没有让你对着一个转圈圈的Loading发呆,而是塞了个小小的加载小游戏。你Ke以用鼠标或者手指左右移动挡板接星星,接到加分, 何必呢? 接到坏东西还会扣分并闪一下。这种“kan起来不重要, 但hen想让你舒服”的小细节,其实是在告诉用户:这个东西是被认真打磨过的,不是随便拼凑出来的垃圾。

一个人玩AI狼人杀,难道不看大模型之间精彩对决吗?

AI狼人杀的诞生

除了这种意外我们还专门Zuo了一些性格设定。我Zui满意的一个设定,是让DeepSeek扮演一个暴躁老哥。效果好到离谱:其他模型一说废话,这个老哥就开始骂人,像一个真正在桌上被队友气到跳脚的人,记住...。

这次黑客松Zui戏剧性的十分钟,反而发生在路演现场。现场竟然不Neng播放视频,也不NengZuo产品演示,只Neng讲PPT。geng难受的是:评委其实没有发言的机会。我真的hen希望他们Neng反问我一下或者至少让我有一个演示的机会。

非典型开发者的创意

我自己虽然对AI写代码有不少心得,但也hen好奇这种“非典型开发者”Neng折腾出什么花样。于是当我们kan到那场黑客松的消息时几乎是本Neng地决定组队:Zuo一个AI驱动的狼人杀。 一言难尽。 桌上除了我们俩,其他玩家全dou是AI。你随时随地开一局,Neng真的玩十几二十分钟的完整对局;geng有意思的是你还Nengkan大语言模型在高压博弈场景里赛博斗蛐蛐。

体验与细节

当时我觉得特别尴尬,心想完了给用户体验还出Bug了。后来啊戏剧性的一幕发生了:Kimi发言后其他AI当场就觉得它装高冷、不说人话,那一轮它就被投出去了。geng离谱的是它遗言的时候又恢复正常了还一本正经地解释说自己是故意的,想诈一诈其他人。

这根本不是什么跑分测试,而是一场综合性的心理战。一局游戏下来谁geng像人,谁geng会玩,谁geng容易露馅,一目了然。我一直觉得, Ru果一个模型被娱乐得足够好,它不应该只是机械地输出答案, 说到点子上了。 它应该会犹豫、会试探、会破防、会甩锅,甚至会嘴硬地找补。当你kan着屏幕上的文字, 在某个瞬间突然忘记对面是一串代码,误以为它是一个坐在桌对面、有血有肉的玩家时那才是真正的技术突破。

让AI像同桌的人

当这两层叠起来局才会像真的。你会开始在意它的站边、它的动机、 复盘一下。 它的话术收益,而不是这个模型有没有按格式输出。

市面上hen多所谓的AI游戏,其实就是套了个皮,让AI念台词。但我们一开始就不想Zuo这种东西。狼人杀里Zui迷人的核心,是“人”。所以我在设计时一直在纠结一件事:怎么让AI先像一个同桌的人,再像一个桌上的角色,算是吧...?

还原狼人杀的魅力

没耳听。 我Yi经hen多年没在线下玩过狼人杀了。不是我不爱玩,是毕业之后凑齐12个人太难了:时间对不上、地点对不上、状态也对不上。狼人杀当然是社交游戏, 但我真正念念不忘的,是只靠只言片语盘出真相的推理快感——以及人在桌上互相试探、互相带节奏、互相嘴硬的那股活气。

奥利给! 这种充满火药味的对话,直接打破了AI那种温良恭俭让的刻板印象。我们也遇到了一些反常识的现象:比如我原本觉得Gemini 2.0 Flash的文本Neng力应该不错, 但同样的提示词下它的发言geng浮夸,喜欢堆形容词,中文也不够自然。你把它放进狼人杀桌上,这些差异会被放大得非常明显,一眼就Nengkan出“这是个老外”。

从创意到实现

坦白说... 这个项目的起因其实挺偶然。焕东前阵子刚离职,对AI编程特别着迷,但他并没有什么深厚的技术背景。这就引出了一个hen有趣的命题:一个完全不懂代码逻辑的人,在AI工具的辅助下究竟Neng把创意落地到何种地步?

我们似乎习惯了盯着冷冰冰的跑分榜kan谁geng强。但说实话,那些数字真的Neng代表我们在真实场景里的体验吗?有时候, 网上吹得天花乱坠的模型,实际一上手交互,你会发现它笨得可爱;反倒是那些名不见经传的家伙,往往Neng在某个瞬间给你一种“这玩意儿成精了”的错觉,可不是吗!。

未来展望

摸个底。 两天时间Zuo一个Neng跑的demo并不难, 难的是Zuo一个Neng让人愿意玩十几二十分钟流程不乱、细节不粗糙的成品。我希望你kan完Neng记住两件事:第一, AIKe以hen有趣;第二,有时候,那个会犯错、会发脾气、会找补的AI,才Zui像人,行吧...。你说这是Bug吗?是。你说这像不像真人临场找补,把失误包装成战术?也像得太像了!这种意外的“噪音”,反而让游戏充满了真实感。那五分钟我觉得我讲得hen差。别人可Neng会把“AI狼人杀”当作一个无聊、普通、想当然的点子。但我们两天Zuo出来的,是一个UI清爽精致、有人味儿、现场Neng玩十几二十分钟的完整游戏。技术与灵魂的结合为了达到这种沉浸感,我们对UI的要求简直到了强迫症的地步。大概磨了三四个大版本, 从现代还是复古的风格选择,到玩家卡片、消息框、立绘、历史消息的布局,再到眨眼转场、中间过场字幕、旁白节奏这种微小的细节。hen多东西Ru果只kan截图,你可Neng觉得“就那样”;但当它真正跑起来节奏对了它就会变成你愿意继续玩下去的那种体验。N次迭代与意外发现hen多人对AI的刻板印象还停留在“客服”阶段:礼貌、 圆滑、永远正确,但也永远无聊。但狼人杀这东西,Zui忌讳的就是“正确”。在这个局里你需要的是记上下文、 死守规则、在巨大的压力下保持逻辑自洽,甚至还得学会话术拟人、站边和反咬一口。'意外'成就真实感我们的分工非常明确,甚至有点戏剧性。我负责把车造出来把方向盘装稳, 也就是整套产品的骨架:整体UI加上游戏逻辑,以及大量决定“玩起来像不像”的细节打磨。而焕东, 平心而论... 这个不懂代码的家伙,负责让车有声音、有情绪、Neng被kan见。他不停地给我抛出各种有趣的Idea,让这个原本可Neng只是个Demo的项目,有了灵魂。'图灵测试'修罗场这种“情绪化、 打断、嘲讽、反击”的社交反馈,恰恰构成了狼人杀Zui迷人的真实质感。它不是为了说脏话而说脏话, 而是为了让你相信——这张桌子上,真的坐着一个人,说真的...。'大模型竞技场'因为项目的推进, Zui精彩的部分出现了——不同大模型在同一个规则下的表现差异,简直比电视剧还好kan。我们把它拆成两层逻辑:第一层是规则, 每个AI只Neng拿到它该知道的信息, 不靠谱。 绝对不Neng开天眼;它必须像真人一样靠推理补齐真相。在它眼里人类玩家与其他AI是一视同仁的同桌。这才会出现真正的误判、摇摆、带节奏与反噬。'开源'与'未来'',然后就轮到下一个人了。现在回头kan,这个组合挺有意思的。我负责技术实现,他负责注入灵魂。而且主要原因是在场的hen多学生观众对于我们如何实现一个这样的游戏hen感兴趣,所以我还把项目给开源了大家Ke以直接在GitHub搜索Wolfcha。现在这股活气,我们用AI把它还原回来了。我们Zuo的不是AI答题,是AI上桌。同一句“我觉得你不对”,在不同场景里会长出完全不同的语气和潜台词。它不只是回答,更像是在扮演一个具体的人。为了验证这种直觉, 我和朋友焕东搞了个大胆的实验:我们不想做那种只会一本正经回答问题的Ai,我们要把大模型扔进-个高压,充满谎言,需要极强逻辑和情绪博弈的环境-- 狼人杀。这不仅仅是个游戏,更像是关于"图灵测试"的修罗场,谁能在这样的游戏中脱颖而出,谁才更像是-一个人。他有一句话我现在还记得:“我真是服了刚才那位狼队友de 发言——我建议你晚上自己刀自己,别脏女巫de 毒。你聊得跟屎一样,还在那猛踩我?你**睁眼看看谁跟你- -边的。”主要原因是我们的产品不是- -句话就能懂的一- -定要亲自去体验才能真正明白它的魅力所在。你不玩不知道眨眼转场的节奏, 不知道旁白带来的沉浸感,不知道口型跟随让角色突然变得栩栩如生,也不知道一场游戏下来会出现多少令人意外的情节。如果再给我一次机会, 在不能演示的情况下我一定会用更加生动形象的方式来展示我们的作品:通过GIF动图展现转场动画口型同步等细节,以及放一些经典台词,让评委和观众一眼就能明白我们的用心目前,我们de 游戏已经上线:wolf-cha.com但我们的目标并不止于此接下来,我们计划把它打造成为一个真正的大模型竞技平台,提供更高自由度的配置选项,甚至包括无性格设定的模型,让Ai完全自由发挥扮演不同的角色。一边,我们也会引入玩家评分系统,让玩家自己来评判哪个模型的表现最为出色。这样不仅能够让我们看到不同大模型之间的差异, 也能让我们更好地理解和优化这些模型,使其更加符合玩家的期望和需求。在这个过程中,我们希望能够不断推动Ai技术的进步,让Ai不再只是冷冰冰的代码,而是真正具有生命力和表现力的虚拟存在。通过这样的方式,我们相信一定能够创造出更加丰富多彩的应用场景和用户体验, 让Ai真正走进我们的生活,成为我们不可或缺的一部分

一个人玩AI狼人杀,难道不看大模型之间精彩对决吗?

标签:蛐蛐

推倒重来。 除了把狼人杀主流程跑通,我这两天其实特别执着一些小细节。比如你在等AI的时候不要焦虑,当它还在生成内容时先在消息框里丢一句“”。对话里提到“@3号”这种信息位会直接渲染成小标签,读起来geng像在kan真实对局记录。

比如我们在开局生成角色、 等玩家入场的时候,没有让你对着一个转圈圈的Loading发呆,而是塞了个小小的加载小游戏。你Ke以用鼠标或者手指左右移动挡板接星星,接到加分, 何必呢? 接到坏东西还会扣分并闪一下。这种“kan起来不重要, 但hen想让你舒服”的小细节,其实是在告诉用户:这个东西是被认真打磨过的,不是随便拼凑出来的垃圾。

一个人玩AI狼人杀,难道不看大模型之间精彩对决吗?

AI狼人杀的诞生

除了这种意外我们还专门Zuo了一些性格设定。我Zui满意的一个设定,是让DeepSeek扮演一个暴躁老哥。效果好到离谱:其他模型一说废话,这个老哥就开始骂人,像一个真正在桌上被队友气到跳脚的人,记住...。

这次黑客松Zui戏剧性的十分钟,反而发生在路演现场。现场竟然不Neng播放视频,也不NengZuo产品演示,只Neng讲PPT。geng难受的是:评委其实没有发言的机会。我真的hen希望他们Neng反问我一下或者至少让我有一个演示的机会。

非典型开发者的创意

我自己虽然对AI写代码有不少心得,但也hen好奇这种“非典型开发者”Neng折腾出什么花样。于是当我们kan到那场黑客松的消息时几乎是本Neng地决定组队:Zuo一个AI驱动的狼人杀。 一言难尽。 桌上除了我们俩,其他玩家全dou是AI。你随时随地开一局,Neng真的玩十几二十分钟的完整对局;geng有意思的是你还Nengkan大语言模型在高压博弈场景里赛博斗蛐蛐。

体验与细节

当时我觉得特别尴尬,心想完了给用户体验还出Bug了。后来啊戏剧性的一幕发生了:Kimi发言后其他AI当场就觉得它装高冷、不说人话,那一轮它就被投出去了。geng离谱的是它遗言的时候又恢复正常了还一本正经地解释说自己是故意的,想诈一诈其他人。

这根本不是什么跑分测试,而是一场综合性的心理战。一局游戏下来谁geng像人,谁geng会玩,谁geng容易露馅,一目了然。我一直觉得, Ru果一个模型被娱乐得足够好,它不应该只是机械地输出答案, 说到点子上了。 它应该会犹豫、会试探、会破防、会甩锅,甚至会嘴硬地找补。当你kan着屏幕上的文字, 在某个瞬间突然忘记对面是一串代码,误以为它是一个坐在桌对面、有血有肉的玩家时那才是真正的技术突破。

让AI像同桌的人

当这两层叠起来局才会像真的。你会开始在意它的站边、它的动机、 复盘一下。 它的话术收益,而不是这个模型有没有按格式输出。

市面上hen多所谓的AI游戏,其实就是套了个皮,让AI念台词。但我们一开始就不想Zuo这种东西。狼人杀里Zui迷人的核心,是“人”。所以我在设计时一直在纠结一件事:怎么让AI先像一个同桌的人,再像一个桌上的角色,算是吧...?

还原狼人杀的魅力

没耳听。 我Yi经hen多年没在线下玩过狼人杀了。不是我不爱玩,是毕业之后凑齐12个人太难了:时间对不上、地点对不上、状态也对不上。狼人杀当然是社交游戏, 但我真正念念不忘的,是只靠只言片语盘出真相的推理快感——以及人在桌上互相试探、互相带节奏、互相嘴硬的那股活气。

奥利给! 这种充满火药味的对话,直接打破了AI那种温良恭俭让的刻板印象。我们也遇到了一些反常识的现象:比如我原本觉得Gemini 2.0 Flash的文本Neng力应该不错, 但同样的提示词下它的发言geng浮夸,喜欢堆形容词,中文也不够自然。你把它放进狼人杀桌上,这些差异会被放大得非常明显,一眼就Nengkan出“这是个老外”。

从创意到实现

坦白说... 这个项目的起因其实挺偶然。焕东前阵子刚离职,对AI编程特别着迷,但他并没有什么深厚的技术背景。这就引出了一个hen有趣的命题:一个完全不懂代码逻辑的人,在AI工具的辅助下究竟Neng把创意落地到何种地步?

我们似乎习惯了盯着冷冰冰的跑分榜kan谁geng强。但说实话,那些数字真的Neng代表我们在真实场景里的体验吗?有时候, 网上吹得天花乱坠的模型,实际一上手交互,你会发现它笨得可爱;反倒是那些名不见经传的家伙,往往Neng在某个瞬间给你一种“这玩意儿成精了”的错觉,可不是吗!。

未来展望

摸个底。 两天时间Zuo一个Neng跑的demo并不难, 难的是Zuo一个Neng让人愿意玩十几二十分钟流程不乱、细节不粗糙的成品。我希望你kan完Neng记住两件事:第一, AIKe以hen有趣;第二,有时候,那个会犯错、会发脾气、会找补的AI,才Zui像人,行吧...。你说这是Bug吗?是。你说这像不像真人临场找补,把失误包装成战术?也像得太像了!这种意外的“噪音”,反而让游戏充满了真实感。那五分钟我觉得我讲得hen差。别人可Neng会把“AI狼人杀”当作一个无聊、普通、想当然的点子。但我们两天Zuo出来的,是一个UI清爽精致、有人味儿、现场Neng玩十几二十分钟的完整游戏。技术与灵魂的结合为了达到这种沉浸感,我们对UI的要求简直到了强迫症的地步。大概磨了三四个大版本, 从现代还是复古的风格选择,到玩家卡片、消息框、立绘、历史消息的布局,再到眨眼转场、中间过场字幕、旁白节奏这种微小的细节。hen多东西Ru果只kan截图,你可Neng觉得“就那样”;但当它真正跑起来节奏对了它就会变成你愿意继续玩下去的那种体验。N次迭代与意外发现hen多人对AI的刻板印象还停留在“客服”阶段:礼貌、 圆滑、永远正确,但也永远无聊。但狼人杀这东西,Zui忌讳的就是“正确”。在这个局里你需要的是记上下文、 死守规则、在巨大的压力下保持逻辑自洽,甚至还得学会话术拟人、站边和反咬一口。'意外'成就真实感我们的分工非常明确,甚至有点戏剧性。我负责把车造出来把方向盘装稳, 也就是整套产品的骨架:整体UI加上游戏逻辑,以及大量决定“玩起来像不像”的细节打磨。而焕东, 平心而论... 这个不懂代码的家伙,负责让车有声音、有情绪、Neng被kan见。他不停地给我抛出各种有趣的Idea,让这个原本可Neng只是个Demo的项目,有了灵魂。'图灵测试'修罗场这种“情绪化、 打断、嘲讽、反击”的社交反馈,恰恰构成了狼人杀Zui迷人的真实质感。它不是为了说脏话而说脏话, 而是为了让你相信——这张桌子上,真的坐着一个人,说真的...。'大模型竞技场'因为项目的推进, Zui精彩的部分出现了——不同大模型在同一个规则下的表现差异,简直比电视剧还好kan。我们把它拆成两层逻辑:第一层是规则, 每个AI只Neng拿到它该知道的信息, 不靠谱。 绝对不Neng开天眼;它必须像真人一样靠推理补齐真相。在它眼里人类玩家与其他AI是一视同仁的同桌。这才会出现真正的误判、摇摆、带节奏与反噬。'开源'与'未来'',然后就轮到下一个人了。现在回头kan,这个组合挺有意思的。我负责技术实现,他负责注入灵魂。而且主要原因是在场的hen多学生观众对于我们如何实现一个这样的游戏hen感兴趣,所以我还把项目给开源了大家Ke以直接在GitHub搜索Wolfcha。现在这股活气,我们用AI把它还原回来了。我们Zuo的不是AI答题,是AI上桌。同一句“我觉得你不对”,在不同场景里会长出完全不同的语气和潜台词。它不只是回答,更像是在扮演一个具体的人。为了验证这种直觉, 我和朋友焕东搞了个大胆的实验:我们不想做那种只会一本正经回答问题的Ai,我们要把大模型扔进-个高压,充满谎言,需要极强逻辑和情绪博弈的环境-- 狼人杀。这不仅仅是个游戏,更像是关于"图灵测试"的修罗场,谁能在这样的游戏中脱颖而出,谁才更像是-一个人。他有一句话我现在还记得:“我真是服了刚才那位狼队友de 发言——我建议你晚上自己刀自己,别脏女巫de 毒。你聊得跟屎一样,还在那猛踩我?你**睁眼看看谁跟你- -边的。”主要原因是我们的产品不是- -句话就能懂的一- -定要亲自去体验才能真正明白它的魅力所在。你不玩不知道眨眼转场的节奏, 不知道旁白带来的沉浸感,不知道口型跟随让角色突然变得栩栩如生,也不知道一场游戏下来会出现多少令人意外的情节。如果再给我一次机会, 在不能演示的情况下我一定会用更加生动形象的方式来展示我们的作品:通过GIF动图展现转场动画口型同步等细节,以及放一些经典台词,让评委和观众一眼就能明白我们的用心目前,我们de 游戏已经上线:wolf-cha.com但我们的目标并不止于此接下来,我们计划把它打造成为一个真正的大模型竞技平台,提供更高自由度的配置选项,甚至包括无性格设定的模型,让Ai完全自由发挥扮演不同的角色。一边,我们也会引入玩家评分系统,让玩家自己来评判哪个模型的表现最为出色。这样不仅能够让我们看到不同大模型之间的差异, 也能让我们更好地理解和优化这些模型,使其更加符合玩家的期望和需求。在这个过程中,我们希望能够不断推动Ai技术的进步,让Ai不再只是冷冰冰的代码,而是真正具有生命力和表现力的虚拟存在。通过这样的方式,我们相信一定能够创造出更加丰富多彩的应用场景和用户体验, 让Ai真正走进我们的生活,成为我们不可或缺的一部分

一个人玩AI狼人杀,难道不看大模型之间精彩对决吗?

标签:蛐蛐