大模型知道自己在瞎說，但是無法停下來！華人團隊研究發(fā)現(xiàn)：2000token以后，大模型就開始表演“詞語沙拉”，純浪費錢

作者：聽雨 2025-11-07 17:05:13

LRM的“思維鏈”推理的代價極高。每一步內(nèi)部生成的文本都要被再次解碼、存儲、預(yù)測，計算開銷遠超普通對話模型。而且，模型并非總在“思考”——很多時候，它只是在不停地說廢話。

編輯 | 聽雨

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

推理型大語言模型（LRM），像 ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等模型，能生成長篇、結(jié)構(gòu)化的推理文本來說明自己的思考過程，比傳統(tǒng)LLM的推理能力更強，這已經(jīng)不是什么稀奇事了。

但一項來自明尼蘇達大學(xué)、萊斯大學(xué)、史蒂文斯理工學(xué)院和 Lambda Inc 的華人團隊最新研究指出，LRM在執(zhí)行推理任務(wù)時，會“陷入語言循環(huán)”，生成大量無意義的廢話，并且迅速燒掉你的 token。

研究者為此起了一個很生動的名字，“詞語沙拉”（Word Salad）。顧名思義：模型把詞語像生菜一樣不斷攪拌、重復(fù)、堆疊，看起來很豐盛，其實沒什么營養(yǎng)。

而更震撼的發(fā)現(xiàn)是，模型也會意識到自己在瞎說，但依然無法控制自己停下來。

一、推理模型的隱形漏洞：詞語沙拉

研究團隊指出，LRM的“思維鏈”推理的代價極高。每一步內(nèi)部生成的文本都要被再次解碼、存儲、預(yù)測，計算開銷遠超普通對話模型。而且，模型并非總在“思考”——很多時候，它只是在不停地說廢話。

“我們觀察到，LRM 在生成長鏈推理時，會出現(xiàn)一種‘幻覺式贅述’現(xiàn)象：重復(fù)先前的句子結(jié)構(gòu)、枚舉無關(guān)情況、或在解釋中兜圈子。它們在形式上表現(xiàn)為推理，但在語義上是空洞的。”

以往的研究（如《Demystifying Long Chain-of-Thought Reasoning in LLMs》《Small Models Struggle to Learn from Strong Reasoners》）指出，大模型在 CoT 推理中容易出現(xiàn)“過度思考”現(xiàn)象：即輸出大量重復(fù)、松散的解釋句式，以掩蓋其邏輯不確定性。

而研究團隊在分析 DeepSeek-R1-Distill 系列模型時發(fā)現(xiàn)，在 GPQA-Diamond 數(shù)據(jù)集任務(wù)中：平均超過 55% 的生成 token 屬于“詞語沙拉”，即語義重復(fù)、無增量價值的內(nèi)容。

圖片

這意味著，用戶在每次推理調(diào)用中，有一半的費用都被浪費在模型的“語言循環(huán)”上。

更關(guān)鍵的是，研究者發(fā)現(xiàn)這種行為并非偶然隨機，而是可預(yù)測的模式：

在模型陷入循環(huán)前后，隱藏狀態(tài)的分布發(fā)生明顯變化；
某些 token（特別是 \n\n）后面的狀態(tài)信號能準(zhǔn)確預(yù)示模型是否“失控”；
模型在內(nèi)部表現(xiàn)出一種“覺察到自己在重復(fù)”的信號。

二、AI的“去水”神器：WordSaladChopper

為了解決這個問題，研究者的想法非常簡單粗暴：

如果模型在內(nèi)部“知道自己在胡說八道”，那么我們就可以直接監(jiān)聽它的隱藏層信號，在它開始胡說時立刻把它打斷。

他們提出了一個框架，叫WordSaladChopper（詞語沙拉切斷器）。它的原理非常直接：1?? 在模型生成推理時，監(jiān)控每個段落（以雙換行符分割）；2?? 如果連續(xù)兩個段落的隱藏狀態(tài)顯示“循環(huán)模式”，3?? 系統(tǒng)立刻切斷生成，并自動補上提示讓模型“從這里重新回答”。

圖片

目前在github上已經(jīng)開源：https://github.com/wenyaxie023/WordSaladChopper

實驗全部在單臺 NVIDIA H100 GPU 上進行。研究者主要在 o1-mini 模型（OpenAI 推理型模型）上運行實驗，并將結(jié)果與 GPT-4o-mini 以及 Claude 3.5-sonnet 進行對比，以驗證問題的普遍性。

所有測試均使用 S1 benchmark（由 OpenAI 發(fā)布的 reasoning-focused 評測集），該數(shù)據(jù)集包含大量需要多步推理、算術(shù)運算或邏輯歸納的題目。對于每個模型，研究者共生成 1000 條推理軌跡（reasoning traces），每條軌跡約 1000–3000 token。

訓(xùn)練用于檢測“詞語沙拉”的分類器時，他們將軌跡按雙換行符劃分為片段（chunk），每個 chunk 的最后一個 token 的隱藏狀態(tài)作為輸入特征。訓(xùn)練目標(biāo)是預(yù)測每個 chunk 是否屬于“詞語沙拉”循環(huán)。

為評估方法效果，研究者使用以下指標(biāo)：

Precision（精確率）：被判定為“詞語沙拉”的片段中，實際為“詞語沙拉”的比例。
Recall（召回率）：所有真實“詞語沙拉”片段中，被正確檢測到的比例。
F1 分數(shù)：精確率與召回率的調(diào)和平均。
Token budget waste（Token 消耗浪費）：重復(fù)循環(huán)所占的輸出 token 比例。

此外，他們還關(guān)注了兩個定性指標(biāo)：

模型是否在陷入循環(huán)后仍嘗試“自我修正”；
在檢測到循環(huán)后手動終止生成并重新提示時，模型能否成功繼續(xù)回答。

圖片

結(jié)果發(fā)現(xiàn)：

1. 詞語沙拉的廣泛存在性

“詞語沙拉循環(huán)”不僅存在于 o1-mini，也普遍出現(xiàn)在其他推理型模型中。Claude 3.5、GPT-4o-mini 在長推理任務(wù)中，都出現(xiàn)了明顯的自我重復(fù)現(xiàn)象。

尤其在數(shù)學(xué)推理和多步邏輯任務(wù)中，模型常在 2000–4000 token 之后陷入無意義的長段自我解釋、重述、或?qū)Α白陨硭悸贰钡闹貜?fù)反芻。

“在 1000 條推理軌跡中，約有 61% 的軌跡出現(xiàn)過至少一次詞語沙拉循環(huán)，平均浪費了 23% 的解碼預(yù)算。”

2. 分類器檢測效果

線性分類器在僅使用隱藏狀態(tài)（無需額外輸入或模型修改）的情況下，就能以較高精度檢測出這些重復(fù)片段：

研究者分析了模型的隱藏狀態(tài)，發(fā)現(xiàn)當(dāng)模型陷入“詞語沙拉循環(huán)”時，內(nèi)部激活信號會出現(xiàn)非常明顯的模式變化。

這也是論文最震撼的發(fā)現(xiàn)，不是模型啰嗦——而是它“知道自己在啰嗦”。

模型的神經(jīng)層在“語義混亂”時，會呈現(xiàn)出特征性波動。換句話說，AI 自己知道自己開始胡說八道了。

只不過，它停不下來。就像一個講不出重點的發(fā)言人，只能不停補充、重復(fù)、重述，以維持表面的“邏輯連貫”。

3. 干預(yù)后的改進

在檢測器實時接入后，當(dāng)系統(tǒng)監(jiān)測到連續(xù)兩個片段被判定為“詞語沙拉”時，就會終止生成并發(fā)出固定再生成提示。結(jié)果表明：

在不訓(xùn)練模型本身的情況下，最多可縮短57%的輸出
對整體正確率的影響可以忽略
推理延遲顯著降低

圖片

三、為什么推理模型特別容易陷入“詞語沙拉”

作者提出了三種主要原因：

長上下文窗口模型能“記住”自己說過的廢話，從而把它再度引用、重組，形成自我循環(huán)。
高一致性偏好推理型模型被訓(xùn)練成要維持語言流暢、思維連貫，即使已經(jīng)偏題，也會強行“接著講完”。
缺乏顯式終止條件當(dāng)前推理架構(gòu)沒有“我想不出來了”的機制，因此在邏輯死胡同時，只能繼續(xù)生成表面合理的文字。

這三點共同導(dǎo)致模型在推理任務(wù)中，更容易“過度思考”，甚至產(chǎn)生語言幻覺。

四、“AI的幻覺”，其實也是算力幻覺

這篇論文還有另一個隱含觀點：

我們一直以為模型的“幻覺（hallucination）”是事實錯誤，但它也可能是算力層面的幻覺——模型把計算資源浪費在無意義的循環(huán)上，卻仍然“自信滿滿”。

研究者批評了目前業(yè)界和學(xué)界用于評估推理模型性能的標(biāo)準(zhǔn)（如 GSM8K、MATH、GPQA 等）本身存在缺陷。這些 benchmark 關(guān)注模型是否“答對”，但很少衡量模型是否高效、是否在浪費預(yù)算。

“我們認為，許多所謂的‘高效推理方法’之所以看起來有效，部分原因是評估基準(zhǔn)本身過于寬松。一旦未來出現(xiàn)更全面的評測體系，許多被吹捧的高效推理方法可能會徹底失效，或表現(xiàn)與原生模型完全不同。”

這其實也是對整個“CoT（思維鏈）熱潮”的一次隱性反思：

當(dāng)前模型的“推理能力”，有相當(dāng)部分只是看起來在思考，而不是真正地在推理。

那么，評論區(qū)的各位大佬們：

你用 AI 時，有沒有遇到它“越解釋越離譜”的情況？如果 AI 能自己檢測到在胡說八道，并停下來，你會更信任它嗎？

參考鏈接：https://arxiv.org/pdf/2511.00536

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧