編輯 | 聽雨
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
推理型大語言模型(LRM),像 ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等模型,能生成長篇、結(jié)構(gòu)化的推理文本來說明自己的思考過程,比傳統(tǒng)LLM的推理能力更強,這已經(jīng)不是什么稀奇事了。
但一項來自明尼蘇達大學(xué)、萊斯大學(xué)、史蒂文斯理工學(xué)院和 Lambda Inc 的華人團隊最新研究指出,LRM在執(zhí)行推理任務(wù)時,會“陷入語言循環(huán)”,生成大量無意義的廢話,并且迅速燒掉你的 token。
研究者為此起了一個很生動的名字,“詞語沙拉”(Word Salad)。顧名思義:模型把詞語像生菜一樣不斷攪拌、重復(fù)、堆疊,看起來很豐盛,其實沒什么營養(yǎng)。
而更震撼的發(fā)現(xiàn)是,模型也會意識到自己在瞎說,但依然無法控制自己停下來。

一、推理模型的隱形漏洞:詞語沙拉
研究團隊指出,LRM的“思維鏈”推理的代價極高。每一步內(nèi)部生成的文本都要被再次解碼、存儲、預(yù)測,計算開銷遠超普通對話模型。而且,模型并非總在“思考”——很多時候,它只是在不停地說廢話。
“我們觀察到,LRM 在生成長鏈推理時,會出現(xiàn)一種‘幻覺式贅述’現(xiàn)象:重復(fù)先前的句子結(jié)構(gòu)、枚舉無關(guān)情況、或在解釋中兜圈子。它們在形式上表現(xiàn)為推理,但在語義上是空洞的。”
以往的研究(如《Demystifying Long Chain-of-Thought Reasoning in LLMs》《Small Models Struggle to Learn from Strong Reasoners》)指出,大模型在 CoT 推理中容易出現(xiàn)“過度思考”現(xiàn)象:即輸出大量重復(fù)、松散的解釋句式,以掩蓋其邏輯不確定性。
而研究團隊在分析 DeepSeek-R1-Distill 系列模型時發(fā)現(xiàn),在 GPQA-Diamond 數(shù)據(jù)集任務(wù)中:平均超過 55% 的生成 token 屬于“詞語沙拉”,即語義重復(fù)、無增量價值的內(nèi)容。
圖片
這意味著,用戶在每次推理調(diào)用中,有一半的費用都被浪費在模型的“語言循環(huán)”上。
更關(guān)鍵的是,研究者發(fā)現(xiàn)這種行為并非偶然隨機,而是可預(yù)測的模式:
- 在模型陷入循環(huán)前后,隱藏狀態(tài)的分布發(fā)生明顯變化;
- 某些 token(特別是 \n\n)后面的狀態(tài)信號能準(zhǔn)確預(yù)示模型是否“失控”;
- 模型在內(nèi)部表現(xiàn)出一種“覺察到自己在重復(fù)”的信號。
二、AI的“去水”神器:WordSaladChopper
為了解決這個問題,研究者的想法非常簡單粗暴:
如果模型在內(nèi)部“知道自己在胡說八道”,那么我們就可以直接監(jiān)聽它的隱藏層信號,在它開始胡說時立刻把它打斷。
他們提出了一個框架,叫WordSaladChopper(詞語沙拉切斷器) 。它的原理非常直接:1?? 在模型生成推理時,監(jiān)控每個段落(以雙換行符分割);2?? 如果連續(xù)兩個段落的隱藏狀態(tài)顯示“循環(huán)模式”,3?? 系統(tǒng)立刻切斷生成,并自動補上提示讓模型“從這里重新回答”。
圖片
目前在github上已經(jīng)開源:https://github.com/wenyaxie023/WordSaladChopper
實驗全部在單臺 NVIDIA H100 GPU 上進行。研究者主要在 o1-mini 模型(OpenAI 推理型模型) 上運行實驗,并將結(jié)果與 GPT-4o-mini 以及 Claude 3.5-sonnet 進行對比,以驗證問題的普遍性。
所有測試均使用 S1 benchmark(由 OpenAI 發(fā)布的 reasoning-focused 評測集),該數(shù)據(jù)集包含大量需要多步推理、算術(shù)運算或邏輯歸納的題目。對于每個模型,研究者共生成 1000 條推理軌跡(reasoning traces),每條軌跡約 1000–3000 token。
訓(xùn)練用于檢測“詞語沙拉”的分類器時,他們將軌跡按雙換行符劃分為片段(chunk),每個 chunk 的最后一個 token 的隱藏狀態(tài)作為輸入特征。訓(xùn)練目標(biāo)是預(yù)測每個 chunk 是否屬于“詞語沙拉”循環(huán)。
為評估方法效果,研究者使用以下指標(biāo):
- Precision(精確率):被判定為“詞語沙拉”的片段中,實際為“詞語沙拉”的比例。
- Recall(召回率):所有真實“詞語沙拉”片段中,被正確檢測到的比例。
- F1 分數(shù):精確率與召回率的調(diào)和平均。
- Token budget waste(Token 消耗浪費):重復(fù)循環(huán)所占的輸出 token 比例。
此外,他們還關(guān)注了兩個定性指標(biāo):
- 模型是否在陷入循環(huán)后仍嘗試“自我修正”;
- 在檢測到循環(huán)后手動終止生成并重新提示時,模型能否成功繼續(xù)回答。
圖片
結(jié)果發(fā)現(xiàn):
1. 詞語沙拉的廣泛存在性
“詞語沙拉循環(huán)”不僅存在于 o1-mini,也普遍出現(xiàn)在其他推理型模型中。Claude 3.5、GPT-4o-mini 在長推理任務(wù)中,都出現(xiàn)了明顯的自我重復(fù)現(xiàn)象。
尤其在數(shù)學(xué)推理 和多步邏輯任務(wù)中,模型常在 2000–4000 token 之后陷入無意義的長段自我解釋、重述、或?qū)Α白陨硭悸贰钡闹貜?fù)反芻。
“在 1000 條推理軌跡中,約有 61% 的軌跡出現(xiàn)過至少一次詞語沙拉循環(huán),平均浪費了 23% 的解碼預(yù)算。”
2. 分類器檢測效果
線性分類器在僅使用隱藏狀態(tài)(無需額外輸入或模型修改)的情況下,就能以較高精度檢測出這些重復(fù)片段:

研究者分析了模型的隱藏狀態(tài),發(fā)現(xiàn)當(dāng)模型陷入“詞語沙拉循環(huán)”時,內(nèi)部激活信號會出現(xiàn)非常明顯的模式變化。
這也是論文最震撼的發(fā)現(xiàn),不是模型啰嗦——而是它“知道自己在啰嗦”。
模型的神經(jīng)層在“語義混亂”時,會呈現(xiàn)出特征性波動。換句話說,AI 自己知道自己開始胡說八道了。
只不過,它停不下來。就像一個講不出重點的發(fā)言人,只能不停補充、重復(fù)、重述,以維持表面的“邏輯連貫”。
3. 干預(yù)后的改進
在檢測器實時接入后,當(dāng)系統(tǒng)監(jiān)測到連續(xù)兩個片段被判定為“詞語沙拉”時,就會終止生成并發(fā)出固定再生成提示。結(jié)果表明:
- 在不訓(xùn)練模型本身的情況下,最多可縮短57%的輸出
- 對整體正確率的影響可以忽略
- 推理延遲顯著降低
圖片
圖片
三、為什么推理模型特別容易陷入“詞語沙拉”
作者提出了三種主要原因:
- 長上下文窗口模型能“記住”自己說過的廢話,從而把它再度引用、重組,形成自我循環(huán)。
- 高一致性偏好推理型模型被訓(xùn)練成要維持語言流暢、思維連貫,即使已經(jīng)偏題,也會強行“接著講完”。
- 缺乏顯式終止條件當(dāng)前推理架構(gòu)沒有“我想不出來了”的機制,因此在邏輯死胡同時,只能繼續(xù)生成表面合理的文字。
這三點共同導(dǎo)致模型在推理任務(wù)中,更容易“過度思考”,甚至產(chǎn)生語言幻覺。
四、“AI的幻覺”,其實也是算力幻覺
這篇論文還有另一個隱含觀點:
我們一直以為模型的“幻覺(hallucination)”是事實錯誤,但它也可能是算力層面的幻覺——模型把計算資源浪費在無意義的循環(huán)上,卻仍然“自信滿滿”。
研究者批評了目前業(yè)界和學(xué)界用于評估推理模型性能的標(biāo)準(zhǔn)(如 GSM8K、MATH、GPQA 等)本身存在缺陷。這些 benchmark 關(guān)注模型是否“答對”,但很少衡量模型是否高效、是否在浪費預(yù)算。
“我們認為,許多所謂的‘高效推理方法’之所以看起來有效,部分原因是評估基準(zhǔn)本身過于寬松。一旦未來出現(xiàn)更全面的評測體系,許多被吹捧的高效推理方法可能會徹底失效,或表現(xiàn)與原生模型完全不同。”
這其實也是對整個“CoT(思維鏈)熱潮”的一次隱性反思:
當(dāng)前模型的“推理能力”,有相當(dāng)部分只是看起來在思考,而不是真正地在推理。
那么,評論區(qū)的各位大佬們:
你用 AI 時,有沒有遇到它“越解釋越離譜”的情況?如果 AI 能自己檢測到在胡說八道,并停下來,你會更信任它嗎?
參考鏈接:https://arxiv.org/pdf/2511.00536


































