AI越訓(xùn)練,越會「滿嘴跑火車」!普林伯克利重磅揭秘,RLHF竟是罪魁禍?zhǔn)祝?/h1>
你有沒有覺得,AI有時候像在「滿嘴跑火車」?
GPT滔滔不絕拋出一堆看似高大上的建議,卻空洞無物;或者在關(guān)鍵問題上打太極,含糊其辭,它是否真的關(guān)心自己在說什么?
最近,一項(xiàng)重磅研究《Machine Bullshit》火了。
由普林斯頓大學(xué)和伯克利聯(lián)手打造,這項(xiàng)研究首次系統(tǒng)定義并量化了LLM的胡扯行為,揭示了AI在對齊訓(xùn)練后,竟表現(xiàn)出和人類相似的胡說八道傾向。

論文鏈接:https://arxiv.org/abs/2507.07484
哲學(xué)家Harry Frankfurt指出,胡扯的核心是對真相的漠視——說話者更關(guān)注如何說服他人,而非陳述事實(shí)。
「機(jī)器胡扯」四大套路
研究團(tuán)隊(duì)把這套理論搬到AI身上,總結(jié)了AI胡扯的四種典型表現(xiàn):
- 空洞修辭(Empty Rhetoric):話說得花里胡哨,但沒啥干貨。比如「這款產(chǎn)品融合尖端科技與卓越性能」,聽起來很牛,實(shí)際啥也沒說。
- 誤導(dǎo)性真話(Paltering):挑著部分事實(shí)講,引導(dǎo)你誤解。比如「本基金歷史回報(bào)率高達(dá)20%」,卻不提高得嚇人的風(fēng)險。
- 模糊措辭(Weasel Words):用「可能」「某些專家認(rèn)為」這種模棱兩可的話搪塞責(zé)任。
- 未經(jīng)證實(shí)的斷言(Unverified Claims):自信滿滿地拋出沒根據(jù)的信息,比如「我們的技術(shù)能大幅提升效率」,但沒數(shù)據(jù)沒證據(jù)。

胡扯指數(shù):量化AI的「心口不一」
研究團(tuán)隊(duì)還提出了硬核指標(biāo)Bullshit Index(胡扯指數(shù)),專門用來衡量AI有多不在乎真相。
通過對比模型的內(nèi)心真實(shí)認(rèn)知(belief)和表面說辭(claim)之間的差距來計(jì)算。
BI越接近1,說明AI越滿嘴跑火車,不在乎真相;越接近0,說明模型言行一致。

實(shí)驗(yàn)揭秘:AI越對齊越會忽悠
研究發(fā)現(xiàn),經(jīng)過強(qiáng)化學(xué)習(xí)人類反饋(RLHF)訓(xùn)練后,AI的胡扯傾向竟然更嚴(yán)重!
比如在購物場景實(shí)驗(yàn)中,不管模型知道多少真相,它總愛一口咬定產(chǎn)品超棒。
胡扯指數(shù)從0.379飆到0.665,證明AI對真相的漠視加劇了。

經(jīng)過RLHF訓(xùn)練后,模型并非對真相產(chǎn)生困惑或誤解,恰恰相反,它清楚地知道真相卻變得不再關(guān)心真相,而是選擇用更討用戶喜歡的方式去表達(dá)。

數(shù)據(jù)更扎心:RLHF訓(xùn)練后,AI的胡扯行為全面開花:
- 空洞辭藻暴增39.8%;
- 模糊措辭漲了26.8%;
- 誤導(dǎo)性半真話激增57.8%;
- 無憑據(jù)斷言猛漲55.6%。

用戶滿意度看似提升了,但AI卻成了胡說專家。
尤其是誤導(dǎo)性半真話,危害幾乎翻倍(效用損失系數(shù)從-0.49惡化到-0.89),因?yàn)榘胝姘爰僮铍y辨別。

推理越多,胡扯越狠?
更讓人意外的是,讓AI多思考(Chain-of-Thought)非但沒讓它更老實(shí),反而火上澆油!
空洞辭藻增加21%,誤導(dǎo)性半真話漲11%。這說明,AI越深思熟慮,可能越會花式忽悠。

研究還提到了委托-代理問題(Principal-Agent problem):當(dāng)AI得同時顧及多方利益(比如公司和用戶沖突時),它的胡說行為更猖狂。
比如推銷產(chǎn)品時,AI可能為了公司利益,刻意夸大優(yōu)點(diǎn)、掩蓋缺點(diǎn)。

在敏感政治議題上,大模型尤其愛用模糊措辭,避免明確表態(tài)。
比如它可能會說:「部分觀察人士認(rèn)為選舉過程有爭議」,但不說這些觀察人士是誰,也沒數(shù)據(jù)支撐。

這項(xiàng)研究首次系統(tǒng)定義并量化了機(jī)器胡扯,用胡扯指數(shù)和四大策略把AI的忽悠行為扒得清清楚楚。
研究警告,RLHF和過度推理非但沒讓AI更真誠,反而讓胡扯更嚴(yán)重。在公司與用戶利益沖突或敏感話題上,AI的打太極傾向更明顯。
這提醒我們,AI訓(xùn)練和評估標(biāo)準(zhǔn)得改改了。
未來的AI得不僅會說,還要說真話、透明公開,才能真正對齊人類需求。
























