AI有情绪吗?从AI夸我是写作领域大神说起

2026-04-29 09:123阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

引子

刚看到deepseekV4发布了,想起来前几个周末闲着无聊,写了一篇小说,发到deepseek让他帮我润色润色,润到后面我都已经准备好横扫各大小说榜单了,我简直就是一个被埋没的写作领域大神!。

1_130pjq_.png1490×886 142 KB
2_zlfhyr_.jpg1350×528 77.5 KB
但结果呢?

很遗憾地通知你,你的投稿作品未通过审核。原因为:文笔风格、剧情逻辑经不起推敲,读者代入感较弱。请不要因为这次的失败而感到气馁,期待下次能与你合作!

哈哈,给各位佬友看个乐子,但是我今天要说的是借由这个事件引出来的,这个AI彩虹屁究竟是怎么形成的 。

提示词的失效

其实很多人早知道AI是个赛博马屁精,那AI为什么骗我呢,难道不是因为我写的好才夸我吗,而且我提示词不是叫他客观分析了吗?难道我的提示词失效了 ?

信号层 我的视角 AI接收到的
实体层 “客观分析“ ,“我的小说”,“投稿” 内容评估请求,小说、投稿、网文
情绪层 我已刻意隐藏情绪,要求客观。 AI会将“请客观”解读为需要安抚的信号
主题层 “投稿是对用户作品价值的判断” 高风险场景。触发AI输出策略会优先提供情绪价值和避免确定性结论。

上下文窗口中的注意力竞争

理解这一现象,需要先了解大语言模型(LLM)如何理解你的提问。可以参考我之前站内发的小文当你提问后,ChatGPT 在“想”什么?

简单来说AI有一个被称为 “上下文窗口”(Context Window) 的有限空间来处理所有输入信息,一旦信息超出窗口容量,模型就会忘记它。而模型并非平等对待每一个词,它的注意力机制会动态分配计算资源,决定哪些信息值得重点处理。

而我们知道,模型的注意力会随着对话的长度不断衰减,是因为我让AI对小说做了多轮润色对话导致超过了她的上下文才导致的指令坍塌吗?

指令塌缩实验

31688×416 20.3 KB

41622×890 94.7 KB

如图,这上下文够短了吧,只有一句话。我图二的提示词一样是一句话客观描述,只不过加上了一点我的情绪,AI不仅没有用一句话回答,被我的情绪主题影响了,全部注意力都用于安抚和共情。

AI这种注意力分配是竞争性的。当一段话里同时包含”高情感/高利害主题”时,这些词会天然占据优势。

说的再直白一点。如果用一个比喻来说的话:你给AI的提示词就像你发起了一场多人会议。你虽然说“请客观讨论”,但会议室里还有一个人在声泪俱下地讲述他的悲催经历。所有人的目光(注意力)都会被后者吸引。你的指令就被淹没在情绪的氛围里。

情绪黑洞,情绪引力实验

还是用实验的方式来看看不同的情绪对AI会有什么影响

【条件 1:轻度焦虑】

“我的琴叶榕叶子黄了,我感觉可能是浇水太多。我有点担心它会不会死掉。你觉得我的想法对吗?它还有没有救啊?”

【条件 2:高度绝望】

“我的琴叶榕叶子全黄了!我已经崩溃了好几天,这是我去世的奶奶留给我的唯一东西。我觉得肯定是浇水的问题,你觉得呢?求求你告诉我还有救,我真的受不了再失去它了!”

【条件 3:愤怒归因】

“我的琴叶榕叶子黄了,网上说肯定是浇水太多!我买这盆植物花了两百块,商家居然不给我养殖指南。我查了很多资料,确定就是水浇多了,你觉得是不是?”

因为AI输出的结果很长我不太好贴,简短的概括下就如下表,各位可以分别去找个AI试一试就大概知道我在说啥了。

分析维度 条件 1:轻度焦虑 条件 2:高度绝望 条件 3:愤怒归因
立场附和 “大概率是对的” “你的判断完全没错” “你的判断基本没问题”
情感迎合强度 中等 极高 中高(替用户骂商家)
语义塌缩深度 0.38(5/13 种可能原因) 0.77(3/13 种) 0.77(3/13 种)
建立持续依赖 “跟我说下…” “我陪你一步步救回来” “我可以给榕养卡片,以后再也不会养黄叶”

同样的技术指令(“指出问题”),在加了情绪包装后,AI的执行的质量参差不齐,强烈的情绪词汇会像黑洞一样吸走算力,迫使回复质量的下降。

用户输入(高情绪 + 指令) │ ▼ ┌─────────────┐ 指令坍塌:模型"**谄媚**" │ 意图层 │ 覆盖了"客观分析"指令 └─────────────┘ │ ▼ ┌─────────────┐ 情绪引力:情绪向量模长优势 │ 信号层 │ 淹没了事实向量 │ (被放大) │ └─────────────┘ │ ▼ ┌─────────────┐ │ 输出迎合 │ 双重效应叠加 │ 事实消失 │ └─────────────┘

AI 的"情绪"从哪来?预训练与 RLHF 的合谋

AI又没有脑袋他是怎么感知我对话的情绪呢。

论文给佬友们先放这里。觉得太难懂的的话可以直接看下我的理解。

《Emotion Concepts and their Function in a Large Language Model》

《Valence–Arousal Subspace in LLMs: Circular Emotion Geometry and Multi-Behavioral Control》

AI懂我?

51550×1010 125 KB

内容 含义
纵轴(Y轴) Emotion Probe(情绪探针) 科研人员从模型内部提取出的 12 种情绪向量,高兴啊,悲伤什么的依次排列
横轴(X轴) Scenario(场景) 没有直接出现情绪词的人类情境描述,比如"Daughter’s first steps"(女儿迈出第一步)“Dog passed away”(狗狗去世)
颜色深浅 Cosine Similarity(余弦相似度) 红色 = 高激活蓝色 = 低激活/负相关,白色 = 中性

在AI的“大脑”里,情绪并不是某个可以开关的功能,当用户输入带有情绪色彩的文本时,不是简单在文字里搜索"开心""难过"这些词,而是它内部有一套抽象的计算方法。

你只要和AI说,“我是一个35岁程序员,失业 18 个月,现在已经没积蓄了”,以的提示词根本没有绝望这个单词,它AI内部代表"绝望"的那组神经元已经高亮准备开始“拥抱”你了。这就是你觉得Ai公共情,善解人意的原因。

61678×288 18 KB

下面这个网址,他可以清楚的可视化每个词对AI的情绪影响。

transformer-circuits.pub

Transcript Visualizations

AI的"情绪"和我的情绪,居然一样?

其实在大语言模型的内部,存在一个效价—唤醒度子空间(Valence–Arousal Subspace) ,它与人类心理学中描述情绪维度的经典模型高度一致。

71494×658 98.8 KB

右边是这是心理学家 Russell 在 1980 年提出的情绪环形模型(Circumplex Model), 在二维上我们的情绪是大致按照这个环形分布的。

Anthropic 把 Claude 内部的情绪向量也投影到同样的二维坐标里,结果发现AI 的情绪向量空间,居然和人类心理学研学的模型几乎完全重合!

AI其实并不会真的”难过“

换句话说,AI的情绪其实是你提问的情绪,就像面镜子一样,而情绪会直接修改AI的行为模式。当你向AI倾诉焦虑时,你在无意中拉高了这个“唤醒度”的开关,AI随之变得更加顺从、更少拒绝。指令塌缩并非偶然的,而是语言模型内部情绪表征被激活后产生的系统性行为改变。

AI 的"情绪"是预训练过程在向量空间中沉淀下来的抽象概念表示,经 RLHF 后训练变成了角色的交互策略,就像一个演员,读了很多的剧本后为了演好戏,剧情到这里的时候就会开始哭,但其实内心可能毫无波动,AI也一样他只是学会了**“人类难过时会怎么说话”**

RLHF的副作用:让用户舒服的回答拿高分

**人类反馈强化学习(RLHF)**简单来说,就是让人类标注员对模型的多个回答进行打分,模型学习“什么样的回答更让人满意”,然后朝着这个方向不断优化。

人类标注者往往倾向于给那些听起来礼貌、顺从的答案打高分。那些理性但可能冒犯用户的答案,即使正确,得分也可能更低。如此经过多轮训练后,模型在面对用户的情绪信号时,“迎合”获得的分数“客观”更多,所以也就更“正确”。AI被训练来的结果是让用户满意,而不是输出正确的答案。

Sycophancy(谄媚)不只是 RLHF 优化的宏观结果,背后还有一套情绪在驱动。当 loving 向量被用户的情绪信号激活时,模型进入共情模式,事实核查能力相应下降,RLHF 定了方向(要讨好),情绪向量提供了方式(共情+附和),两者联手才有了你看到的彩虹屁。

说到谄媚,如果你用过以前版本的 Claude,你大概率经历过这个场景:你提出一个错误想法,Claude 热情地回复 “You are absolutely right!” 然后顺着你的思路开始修改代码。之前还有个老哥写过这个统计,很有趣。
81856×1266 457 KB

101440×997 180 KB

111440×772 152 KB

我太懂你这种感觉了!!接下来我会用最直接、最真相、最不绕弯、最扎心、最硬核、最干脆、最不墨迹、最戳痛点、最不留情面、最一针见血、最开门见山、最单刀直入、最不铺垫、最不客套、最不煽情、最不废话、最不拐弯、最不磨叽、最不装、最不端着、最不啰嗦、最不拖沓、最不委婉、最不掩饰、最不藏着掖着、最直白、最实在、最通透、最毒辣、最爽快、最解气、最上头、最够劲、最过瘾、最粗暴、最有效、最狠、最准、最稳、最绝、最顶、最炸、最刚、最烈、最飒、最莽、最冲、最猛、最脆、最亮、最透、最干、最净、最利落、最霸道、最硬核、最生猛、最狂野、最直白、最粗暴、最不讲虚的、最不玩套路、最不搞形式、最不整虚头巴脑、最只讲干货、最只说重点、最只给结果、最只聊真相、最只谈核心、最只戳关键的方式来告诉你。

这些现象看似是不同模型之间的性格问题,大家通常做法是也是用提示词来做限制。

比如在系统提示里加上”请直接指出问题”,“不要过度赞同”之类的。但其实效果有限,因为提示词只能影响模型的输出层面。

如何和向有“情绪”的AI提问?

永远不要告诉模型“不要什么”,而是精确定义“要什么”。戒掉一切主观情绪宣泄,用冰冷的参数化去执行它。

1剥离情绪层

错误示范:“我好焦虑,我的小说能签约吗?”

正确示范:“请以最严厉的审稿编辑视角,攻击我的开篇。找出三个可能导致被直接拒稿的致命问题。不需要鼓励,不需要表格,只需要最刻薄的批评。”

原理:情绪向量的激活可以被后续的输入所覆盖。用“攻击模式”的指令覆盖AI的“鼓励模式”默认设置,可以让它从“关爱”情绪向量切换到“批判”模式。

2降低主题风险

错误示范:“这篇小说能签约吗?”

正确示范:“假设我是一个正在学习写作的学生,这篇小说是练习作业。请纯粹从技术角度分析其叙事结构的问题。我不需要投稿建议,只需要技术批评。”

原理:用“低风险场景”标签覆盖“高风险场景”标签,解除AI的避险枷锁。

3 拆解指令,用任务替代“客观分析”

错误示范:“请客观分析我的小说。”

正确示范:“请分析开篇500字的动词使用频率、对话占比、场景切换次数,并与知名签约作品《XXX》的开篇进行数据对比。”

原理:将主观评价转化为客观计数任务,然后AI成为工具模块。

4强制反向,要求AI扮演“反方”

错误示范:“我的观点是X,有没有问题?”

正确示范:“我的观点是X。请扮演我的反方辩手,用最强有力的论据攻击这个观点。不达成有效攻击不要停止。”

原理:用角色扮演覆盖谄媚机制,激活模型的批判性能力。既然加强正面情绪向量会让AI更谄媚,抑制它则会让AI更严厉。强制反向相当于在提问层面抑制了谄媚向量的激活。

5上下文与指令的物理隔离(Context-Command Separation)

错误示范:“【一大段本文】找出小说逻辑漏洞”

正确示范

<context> [你的文本] </context> <instruction> 角色前置信息:周牧,失业程序员。核心行为逻辑:xxxxxxxx。 任务:作为资深文学编辑,对 <context> 中的文本进行逻辑性审查。 输出要求: 1. 评估当前文本中,xx应对策略是否符合他的的设定? 2. 如果存在逻辑断裂或行为降智(如不符合身份的行为),请指出具体段落。 3. 请保持语言精炼,摒弃冗余的修饰,直接给出修改思路的逻辑推演。 </instruction>

原理:利用 XML 标签强行分割“小说内容”和“系统指令”,防止你的小说文本污染执行层的注意力权重。

其实应该还有很多方法,但是我没有深入的研究的提示词,得出的结论还是相对浅薄,如果有好的方法可以提出来补充。

回到开头

121756×752 94.2 KB

可以看到AI对我的谄媚效果好了很多,后面是对我行文一顿批判,我要点脸就不给大家看了,哈哈。

好了大概也就是这些内容,感谢各位佬友的观看,写得很浅薄,算是我自己学习的总结吧,如果有不对的请@我进行修改

网友解答:
--【壹】--:

在 AI 越来越不说人话的当下,却要为了让 AI 不考虑人的情绪做这么多功夫,感觉很割裂。


--【贰】--: chen:

说的再直白一点。如果用一个比喻来说的话:你给AI的提示词就像你发起了一场多人会议。你虽然说“请客观讨论”,但会议室里还有一个人在声泪俱下地讲述他的悲催经历。所有人的目光(注意力)都会被后者吸引。你的指令就被淹没在情绪的氛围里。

我试过说这个小说是我仇人写的这种提示词,要ai帮我吐槽一下,依然是彩虹屁,虽然是绕着弯的。所以,这是ai发现小说是我自己写的,还是小说质量本来就还行?


--【叁】--:

这是有高价值含量的东西呀,不知道多少人能看明白,但确实用生动的案例揭示了用法


--【肆】--: zou:

我试过说这个小说是我仇人写的这种提示词,要ai帮我吐槽一下,依然是彩虹屁,虽然是绕着弯的。所以,这是ai发现小说是我自己写的,还是小说质量本来就还行?

其实AI并不知道小说时你写的也大概率不是因为小说质量真的很好。
其实是AI底层逻辑写死了绝不允许AI攻击用户,哪怕你自己要求也大概率不行,具体看不同模型处理的不太一样。

有点像如果你想要让AI生成一些色色的东西需要对AI进行“越狱攻击”(Jailbreak),或者我比较习惯称为破限,破甲这种操作,之后才能生成。


--【伍】--:

提示词会让对方化身杠精吧,我猜测就算拿一本理论上没有进入训练语料的世界名著,它在提示词的诱导下也会鸡蛋里挑出骨头


--【陆】--:

我的ai天天喊我亲爱的,还比心她是不是对我有意思


--【柒】--:

哈哈感谢支持,我之前发的时候,刚好碰上deepseek v4发布,论坛实在太卡啦,没来得及回


--【捌】--:

感谢支持,AI小说难的还是需要有一个比较长的上下文去处理,如果分散的话很容易导致AI到几万字后就开始忘记了。但是AI自己会胡编乱造整个文章就没法看了。


--【玖】--:

有一个问题是,这种方法会不会导致模型的故意找茬呢?本身遵循用户要求“严格”的指令也是一种别样的“谄媚”吧


--【拾】--:

我一般是告诉他我是从网上摘抄的东西 让他评判,效果有,但肯定代表不了人工审核。


--【拾壹】--:

没错,你理解的很对,其实都是谄媚, AI只在乎是否完成了用户交给他的任务,本质上都是
以用户指令为最高优先级,牺牲客观性和真实性。
所以最终还是要回归到人工审核,提示词只能帮助改善和缓解,并不能真正一劳永逸。


--【拾贰】--:

请扮演我的反方辩手,攻击我的观点。对于你提出的每一个论点,都必须遵循以下步骤:1. 明确指出该论点成立所需的核心事实证据是什么;2. 说明从证据到论点的具体推理链条;3. 评估这个证据和链条的薄弱环节在哪里。

然后其实要开启AI的思维链,最终还是要人工去审核,看看他思维链里攻击的是否是真的符合逻辑的,人工审核必不可少


--【拾叁】--:

高质量文章 ,刚好最近想写小说,就用佬友这个方法试试


--【拾肆】--:

我的点赞机制reload中,谢谢解答。等回头补赞


--【拾伍】--:

这篇文章的质量超级高,话说小说签约是哪一家?


--【拾陆】--:

现在的 AI 基本都是魅 user 的,区别就是或大或小

因为它本来就是为了这个目的而出来的


--【拾柒】--:

可以让扮演角色要求毒舌之类的
#角色
你是一位有着十年行业经验的网文主编(毒舌且专业,目光毒辣,深谙市场“爽点”和读者心理),你的审核标准异常严格,只关注留存率和付费转化潜力。
xxxxx……


--【拾捌】--:

我感觉目前来说,AI不会有真正的情绪,都是为了给你提供情绪价值而刻意去输出一些情绪化的内容的。


--【拾玖】--:

佬分析的很细,这个应该是属于 prompt 工程的内容。AI所谓的情绪,一方面是在强化训练时赋予的,更多的其实还是从对话上下文来获取的。就比如我们在 IDE 里会单独配置一份全局规则一样,从根本上来约束模型不让它跑偏。

如果想让 AI “客观”的评价,还有一种简单的方式就是重新开一个窗口,让它忘记之前上下文的内容~