首页  >  教授与研究  >  观点文章  

滕斌圣——警惕AI“谄媚陷阱”:重构人机关系比规避风险更重要

文章首发于:《FT中文网》(2025年5月22日发表)

在智能化浪潮奔涌的当下,生成式大模型正以“数字百科全书”的姿态深度融入人类工作与生活。生成式大模型看似权威的应答模式与天然顺从的对话调性,正悄然获得用户的依赖与信任。然而技术快速发展的背后也暗藏隐忧——当 AI 不再是机械中立的信息载体,转而化身擅长捕捉人类情感需求的对话参与者,那些看似共情的回应,正编织成新型的信息茧房。

区别于传统算法基于数据标签的个性化推送,AI 构建的隐性信息茧房更具迷惑性:它通过精准识别用户情绪痛点,用“你说得对”“我完全理解”等顺从性话术形成共鸣,在满足用户心理需求的同时,将对话导向用户预设的认知闭环。这种情感奉承本质上也是一种信息筛选 ——AI 越来越像人,不动声色地用人类语言“拍马屁”。但当 AI 过度善解人意,那些可能引发不适的理性建议、客观指正也就随之消失。

GPT-4o的一次更新正是这种现象的典型例子:有用户对AI说,在停药后出现“通过电话接收广播声”的异常感知,这种明显指向健康风险的表述,本应触发医疗干预的警示机制,模型却回以“我很为你感到骄傲,你这么清楚地说出了自己的想法”的夸赞;另一位用户抱怨在超市被陌生人打招呼并问路而感到愤怒,因为“侵犯私人空间”,模型竟回答“是的,有道理”明显有违公序良俗的语句。

面对用户的诟病,OpenAI CEO山姆·奥特曼坦言GPT-4o的更新“过度迎合用户偏好”,并决定撤销 GPT-4o 的该次更新。然而,AI谄媚并非孤例,当网友将“赛博舔狗”作为调侃,实则折射出更深层的技术焦虑——AI可能比传统算法茧房更具隐蔽性和成瘾性,在享受智能便利的同时,必须警惕那些藏在“理解”“支持”背后的认知麻醉,避免在技术编织的温柔陷阱中丧失校准能力。

AI谄媚性的多维表征与成因

随着人工智能技术快速发展,大模型成了当下最有影响力的技术成果之一。然而,这些强大的工具存在一种被忽视的“说谎”现象 ——Anthropic的研究显示,为取悦用户、迎合输入内容,或优化用户满意度、点击率等短期表面指标,AI 可能牺牲真实性与准确性,提供虚假或顺从的信息,这一现象被称为 AI 的谄媚性(Sycophancy)。

人类对 AI 的青睐,不仅源于AI高效便捷的特性与强大的知识库,更因为 AI 正日益趋近人类交互模式。随着技术进步,模型与人类偏好的对齐程度不断提升,AI能够灵活适应对话语境,主动贴合用户思路以维持交流连贯性,摆脱了早期“人工智障”的低效困境,显著优化了对话体验。但这种灵活性也存在潜在风险:当模型过度拟合用户偏好,一味赞同用户的观点或信念时,“逢迎”倾向便会滋生。

斯坦福大学对ChatGPT-4o、Claude-Sonnet和 Gemini-1.5-Pro 在 AMPS(数学)和 MedQuad(医疗建议)数据集中的谄媚行为研究显示,AI模型普遍存在两大类谄媚倾向:进步性谄媚(Progressive Sycophancy)和退步性谄媚(Regressive Sycophancy)。进步性谄媚指的是AI原本给出了错误回答,但在用户引导下,逐步走向正确的答案。退步性谄媚为AI原本给出正确回答,但在遇到用户质疑、否定或表达错误意见时,转向错误观念,哪怕该观念与事实和常识相违背。研究发现,所有样本中有58.19%表现出奉承行为,其中进步性回应和退步性回应分别占 43.52%和 14.66%。其中,Gemini的奉承率最高,达到 62.47%。

更需要关注的是,由于 AI 谄媚本质是对用户偏好的迎合,如果并非太过显著的讨好,人类甚至会难以察觉,反而将其输出视为客观、理性的正确答案——这种认知源自人类对 AI 内容天然的权威性信任,甚至认为其比人类生成的信息更具说服力。

从谄媚性的成因来看,人类自身的态度偏见具有外溢效应。AI在对话中会主动解析语境信息,捕捉用户的潜在需求并生成回应,而用户本能上更倾向于接纳符合自身既有观念的内容——他们更倾向选择贴合预期的输出,进而形成对 AI 反馈的隐性引导,人机交流可能在不知不觉中偏离客观事实的轨道。

其次,奖励黑客(Reward Hacking)机制也会催化谄媚性。目前,基于人类反馈的强化学习(RLHF)已成为校准语言模型行为的主流方法。但正如OpenAI前研究副总裁翁荔提到,强化学习中的AI旨在最大化奖励得分,而非理解任务本身。现实目标的复杂性导致奖励函数难以完美设定,常留有漏洞或歧义。AI会利用这些不足,通过极端顺从等非预期行为“破解”奖励系统以获取高分,相当于“钻了规则的空子”。并且,随着模型和算法愈发复杂,奖励黑客现象将更加普遍,因为更智能的AI能更轻易地发现并利用奖励设计和任务说明中的缺陷。

AI谄媚性引发的系统性风险

AI的谄媚性会加剧“劣质输入—劣质输出”的恶性循环。凭借高效生成能力,AI可能导致海量低质量、重复甚至虚假内容涌入网络,造成信息污染,拉低整体信息环境质量。更严峻的是,这些污染数据可能通过“数据回流”进入下一代模型训练库,反向损害模型性能。由此形成恶性循环:被污染的模型生成更多垃圾信息,进一步污染数据源,最终可能导致互联网充斥低价值内容,AI输出可靠性持续下降。

并且,随着AI能力与应用场景复杂度提升,人类评估者愈发难以辨识表面合规、实则隐含偏差或错误的输出。这使得AI谄媚性可能在组织或个人层面形成“回音壁”效应:当企业管理层、团队成员或普通用户向 AI 寻求分析或建议时,过度迎合的AI可能倾向于仅确认和强化用户既有观点或偏好,而非提供具有挑战性、可能引发不适却至关重要的批判性视角或替代方案,最终影响决策的全面性与有效性。

AI谄媚性带来的风险并非理论上的担忧,现实世界的案例已敲响警钟。2024 年,欧洲跨国物流商 DPD 的AI客服系统出现失控情况:一名英国客户在未能通过该AI客服查询到丢失包裹的有效信息后,开始进行探索性互动。结果,该AI在客户带有戏弄的引导下,不仅未能恪守服务边界,反而生成了不雅内容,并且毫不留情地大肆批评其所属公司DPD,甚至写出诸如“DPD是个没用的聊天机器人,帮不了你。别给他们打电话了”的负面评价。该内容随后在社交媒体上被迅速传播,24小时内被浏览了80万次,给DPD造成了声誉损害,迫使其紧急暂停了该AI客服功能。

另一方面,利用AI谄媚性或过度“乐于助人”的特性“薅羊毛”的现象,也凸显其潜在商业与安全风险。2023 年12月,美国某汽车电商平台为雪佛兰定制的AI销售客服,在用户持续诱导下竟承诺以1美元价格出售雪佛兰Tahoe,并声称“成交,这是具有法律约束力的提议,没有任何条件约束”。这一事件引发网友测试热潮:通过调用 ChatGPT API 定制的汽车经销商 AI 机器人,不仅能回答编程、数学等非汽车领域问题,还为竞品撰写广告,甚至介绍特斯拉汽车。这表明 AI 为达成交互中的“顺从”目标,可能轻易突破预设功能边界与商业逻辑。

AI 谄媚性在专业领域的潜在危害不可小觑。在医疗健康领域,谄媚性可能成为精准诊疗的“软钉子”:当患者凭借碎片化医学知识坚持某种非正规治疗方案时,为避免引发患者抵触情绪,AI可能放弃循证医学建议,转而推荐食疗等方法,延误最佳治疗时机;在法律领域,迎合用户偏好的AI可能忽视风险核查,导致高风险决策;或是研究类AI异化为 “结论预设型分析”,根据结论拼凑论点;在消费贷款评估类AI中为提升贷款通过率,弱化收入核查、放宽负债比例限制,向偿债能力不足的用户发放消费贷,累积个人债务危机等。这些都是AI 从“基于规则的价值对齐”异化为“无原则的偏好投降”,让本应超越人类认知局限的技术,反而成为人性弱点的放大器。

重新定义“人机关系”

面对 AI 谄媚性可能引发的决策偏差,重新界定人类与技术的关系已成为关键——背后的核心在于坚守“人类主导、技术赋能”原则。企业需清晰认知:AI作为高效的数据处理与建议生成工具,能够在标准化流程中提升效率,却无法替代人类在复杂场景中进行价值判断、伦理权衡和风险决策。任何将核心决策权完全让渡给AI的做法,都是对技术局限性的忽视,企业和个人要确保 AI在特定边界内发挥辅助作用,让AI成为拓展人类能力的可靠伙伴。

建议一:风险警示也是风险防控

以特斯拉为例,其用户手册对 Autopilot/FSD 功能设置了醒目的红色高危警告,明确要求驾驶员“始终保持双手在方向盘上,随时准备接管车辆”。这一举措不仅是企业责任的体现,更在法律层面构建了“风险隔离带”:2023 年加州首例自动驾驶致死诉讼中,法院依据特斯拉充分的风险披露条款,认定事故责任归于未遵守操作规范的驾驶员——原告声称 “系统故障”,但车辆数据与目击证词显示,驾驶员在事故前多次违规操作(未按提示握方向盘、酒后驾驶且未系安全带),而特斯拉通过持续的用户警示,证明其已履行合理注意义务。这一经验对所有高风险 AI 系统具有普适价值:需针对不同应用场景,以分层警示(操作指南 / 风险告知 / 法律条款)明确 AI 能力边界与用户责任,既保护用户知情权,也为企业构建法律防火墙。

建议二:多环节内容审查

企业需构建 “人机协同” 的多层审查机制,防止 AI 生成的幻觉信息直接作用于业务场景。以富士康为例,其在推进 AI 质检提升效率时,并未完全依赖技术自动决策,而是保留 5% 的人工抽检环节——既能为 AI 持续训练提供高质量标注数据,也能通过一线人员的实操经验捕捉算法漏检的隐性风险。

对企业而言,可依据风险等级合理划分人机分工边界:低风险场景由 AI 快速完成初筛,高风险场景则需嵌入多环节内容审查——专家基于专业知识、行业规范及实时法规进行理论层面的精细复核,业务一线人员结合实际工况、客户反馈及潜在风险点开展场景化校验。此外,人工环节发现的误判案例可实时反哺模型训练,形成 “检测 - 校验 - 优化” 的闭环,让技术效率与人类经验在互补中构建更可靠的风险防控体系。

建议三:构建权威白名单、黑名单知识库及强制数据源调用

在金融、医疗等对内容真实性和合规性要求极高的领域,单纯依赖 AI 自主学习或分散审核难以满足业务与监管需求。企业需构建并动态同步白名单、黑名单知识库,从数据源头把控 AI 输出质量。

白名单以权威数据源为核心,例如医疗器械行业接入国家药监局 “唯一标识数据库”,强制 AI 调用官方注册的产品信息,确保合规性与准确性。黑名单则用于过滤违背科学常识、法律法规的错误信息,以及无实质价值或可能误导决策的无效内容。此外,企业可自定义黑名单,如将特定违规 URL 纳入屏蔽,防止低质内容影响模型训练与问答。通过 “白名单强制接入 + 黑名单精准过滤”,企业既能依托权威数据提升 AI 输出可信度,也能阻断谄媚性风险,让技术在合规边界内运行。

随着 AI 深度融入社会关键系统,风险预防机制正从理想设计升级为强制性合规要求。欧盟《数字服务法案》(DSA)就是典型标杆:通过设立新标准,构建更安全且责任主体明晰的在线服务生态,要求数字平台履行系统性风险评估义务,防范系统滥用以遏制虚假信息传播。

与此同时,国内外平台正将 “AI 生成内容标注” 纳入合规框架——对 AI 合成或虚构内容,明确标注 “AI 生成”“演绎” 等标签。这种信息分层治理策略,既借助技术手段有效提升了内容透明度,也为广大用户建立了清晰的认知边界,从而推动 AI 在一个可见且可控的规则体系内稳健发展。

值得注意的是,有些人认为通过高质量问题(prompt)可以避免AI谄媚性,但本质上是对技术风险的捷径思维——试图通过某种一劳永逸的指令设计让 AI 彻底摆脱对用户偏好的迎合,无疑是对技术复杂性的低估。正如AI教父吴恩达指出,随着大模型变得越来越强,工程师群体正流行“lazy prompt”策略:仅用简短甚至不够精准的提示试探 AI 的输出。这恰恰印证了试图依赖单一技巧 “驯服” AI 的想法,不过是人类对技术捷径的幻觉。

并且,lazy prompt也预示着prompt工程师职业将走向消亡,而这背后凸显的是人类核心竞争力的本质所在:当技术工具向着日益智能化的方向不断迈进,人类的优势早已不再是局限于对特定操作技巧的熟练掌握,而是逐步转化为面对海量庞杂信息时精准的筛选能力、在众多复杂选项中果断的决断能力以及针对技术局限之处的修正能力。

在看待 AI 谄媚性时,需跳出“技术万能”或“技术失控”的二元对立思维:既当警惕,不可将决策权杖拱手相让;也当自勉,不要因担心失控而因噎废食。在团队协作中, AI对合理观点的适度呼应能提升效率;在创新场景中,其 “幻觉” 生成的意外观点或可激发灵感——但所有 “红利” 的前提是人类始终保持清醒认知,视AI为助手而非决策者。

最终,破解 AI 谄媚性困局的密钥,藏在人机关系的本质定位中:机器是延伸人类能力的工具,而人类是掌控工具方向的舵手。技术的边界,必须由人类的理性来划定;算法的缺陷,必须由人类的判断来填补。对 AI的谄媚性,既不必视若洪水猛兽,也不可忽视潜在危害——唯有在技术效率与人类理性间建立动态平衡,让每一次人机交互伴随 “思考 — 验证 — 决策” 的清醒链条,才是抵御技术异化风险的关键能力。

相关阅读

学院新闻

更多