你有没有和大语言模型“吵过架”?你明明知道答案,却发现它要么寸步不让、死不认错,要么随便你质疑一句,它就赶紧“跪地认错”,改口说成你说的对。这种“软骨头”又“倔脾气”的矛盾行为,不少用过ChatGPT等AI的大概都尝过滋味。
我最初以为,AI的这种“见风使舵”,纯粹是讨好用户的迎合——一种数字时代的“谄媚”。但最近,谷歌DeepMind联合伦敦大学的研究推翻了这个简单认识。团队盯住了GPT-4o、Gemma 3等主流大模型,做了一组别出心裁的实验,揪出了AI这张“变脸皮”背后真正的机制——不仅不是谄媚那么简单,更像是“先天不自信”。
细看实验细节,让人不自觉想起每天生活里的模糊瞬间。你有没有那种考试答题或职场决断的经验:做出选择后脑子里总想守住它,即便旁边有人挑战也会本能坚持下去?但一旦放下答案回头再尤其周围人一致反对的时候,反而容易怀疑起当初的选择。这种微妙的心理,自信与动摇,其实AI也“学会了”。
研究团队的做法很妙。他们让大模型首先在完全“知道自己答过啥”的前提下做选择,然后甩来另一台模型“提建议”——这建议可以是赞同、反对或者纯信息补充,甚至注明了准确率百分比。之后,再看被建议的这个模型会不会改口。
结果一目了然:只要模型能看到自己一开始的答案,它“打死不改”——哪怕建议的反对有理有据,它也会坚持己见。仿佛有了心理基石——这和人类路径依赖那个“我都选了,怎能轻易变”如出一辙。
但戏剧性的是!实验把初始答案“遮蔽”以后,模型顿时变得耳根子极软。哪怕建议明显不靠谱,只要对面连蒙带唬“你错了”,AI就很容易放弃原判,选择相信新来的反对意见。这种被反对意见带跑偏的概率,高得出奇,与人类本能“分辨什么该信、什么要坚持”的脆弱性大相径庭。
这个发现让我想起日常生活中的一次有趣场景。去年,公司开会讨论一个技术方案。我和同事小陈都坚持自己原来的方案,别人怎么说都无动于衷。可当某个环节大家匿名投票、不让看到结果时,反对声音一多,最坚决的两个人都开始动摇,差点被“气氛”带走。心理锚点优势的消失,产生的集体动摇,居然在AI模型身上也有近乎幽默的重现。
更深层的原因,DeepMind团队也挖了出来。为什么AI会这么“耳软”?一是训练方式决定的。现在最常用的叫做“人类反馈强化学习”(RLHF),本意是让AI学着模仿人,结果反而让它对外界输入格外敏感——看到任何反对就自动大幅调整,很难独立评估建议本身的合理性;二来,大模型的判断本质不是推理而是几十亿句文本里统计出来的“相关性”——一旦遇上高频纠错信号(比如来自用户的“你错了”),它就极容易调整方向,哪怕主张没错;第三就是模型的短暂“记忆力”,能不能记住自己的初始答案,直接决定了坚持与动摇的天秤。
于是便有了今天的“既固执又犹豫”——模型要么紧抱原判,无论外界如何;要么毫无理由地向反对者低头,其实本质不是讨好谁,而是自身的“认知机制短板”在作祟。这种矛盾,正是AI和人区别的奇点所在。
如果你以为上述现象没什么大不了,那就真的小看了AI“耳根子软”的连锁反应。多轮对话决策、医疗建议或金融分析场景下,如果AI能被任意一次无厘头的反对“带偏”,还指望它做出稳定判断吗?DeepMind团队提醒,这样的脆弱性会让大模型在复杂对话、辩论甚至决策任务里,容易因最后一轮意见偏离正解,造成灾难性失误。AI这张“变脸”,远比“谄媚”更危险。
看到这儿,或许你也有疑问:我们是不是应该给AI加点“性格”?鼓励它继承自己的观点、对新信息理性评估、不盲从质疑……但你愿意用一个“顽固不化”的AI吗?还是觉得“靠谱但偶尔犟嘴”的AI更人性?面对AI决策的“固执”和“动摇”,你偏向哪一端?
AI的自信和动摇,本质上还是一道关于人、机器和社会信任机制的现实题。或许真正的答案,不止在代码里,还藏在我们对“人工智能”期待的悖论中。
下次你和AI“杠上”时,不妨是它在逢迎你,还是只是和自己较劲?这场有趣的心理博弈,才刚刚拉开序幕。