大模型知道自己在瞎說，但是無法停下來！華人團隊研究發現：2000token以后，大模型就開始表演“詞語沙拉” 原創

51CTO技術棧

發布于 2025-11-7 17:07

瀏覽

0收藏

編輯 | 聽雨

出品 | 51CTO技術棧（微信號：blog51cto）

推理型大語言模型（LRM），像 ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等模型，能生成長篇、結構化的推理文本來說明自己的思考過程，比傳統LLM的推理能力更強，這已經不是什么稀奇事了。

但一項來自明尼蘇達大學、萊斯大學、史蒂文斯理工學院和 Lambda Inc 的華人團隊最新研究指出，LRM在執行推理任務時，會“陷入語言循環”，生成大量無意義的廢話，并且迅速燒掉你的 token。

研究者為此起了一個很生動的名字，“詞語沙拉”（Word Salad）。顧名思義：模型把詞語像生菜一樣不斷攪拌、重復、堆疊，看起來很豐盛，其實沒什么營養。

而更震撼的發現是，模型也會意識到自己在瞎說，但依然無法控制自己停下來。

大模型知道自己在瞎說，但是無法停下來！華人團隊研究發現：2000token以后，大模型就開始表演“詞語沙拉”-AI.x社區

一、推理模型的隱形漏洞：詞語沙拉

研究團隊指出，LRM的“思維鏈”推理的代價極高。每一步內部生成的文本都要被再次解碼、存儲、預測，計算開銷遠超普通對話模型。而且，模型并非總在“思考”——很多時候，它只是在不停地說廢話。

“我們觀察到，LRM 在生成長鏈推理時，會出現一種‘幻覺式贅述’現象：重復先前的句子結構、枚舉無關情況、或在解釋中兜圈子。它們在形式上表現為推理，但在語義上是空洞的。”

以往的研究（如《Demystifying Long Chain-of-Thought Reasoning in LLMs》《Small Models Struggle to Learn from Strong Reasoners》）指出，大模型在 CoT 推理中容易出現“過度思考”現象：即輸出大量重復、松散的解釋句式，以掩蓋其邏輯不確定性。

而研究團隊在分析 DeepSeek-R1-Distill 系列模型時發現，在 GPQA-Diamond 數據集任務中：平均超過 55% 的生成 token 屬于“詞語沙拉”，即語義重復、無增量價值的內容。

大模型知道自己在瞎說，但是無法停下來！華人團隊研究發現：2000token以后，大模型就開始表演“詞語沙拉”-AI.x社區圖片

這意味著，用戶在每次推理調用中，有一半的費用都被浪費在模型的“語言循環”上。

更關鍵的是，研究者發現這種行為并非偶然隨機，而是可預測的模式：

在模型陷入循環前后，隱藏狀態的分布發生明顯變化；
某些 token（特別是 \n\n）后面的狀態信號能準確預示模型是否“失控”；
模型在內部表現出一種“覺察到自己在重復”的信號。

二、AI的“去水”神器：WordSaladChopper

為了解決這個問題，研究者的想法非常簡單粗暴：

如果模型在內部“知道自己在胡說八道”，那么我們就可以直接監聽它的隱藏層信號，在它開始胡說時立刻把它打斷。

他們提出了一個框架，叫WordSaladChopper（詞語沙拉切斷器）。它的原理非常直接：1?? 在模型生成推理時，監控每個段落（以雙換行符分割）；2?? 如果連續兩個段落的隱藏狀態顯示“循環模式”，3?? 系統立刻切斷生成，并自動補上提示讓模型“從這里重新回答”。

大模型知道自己在瞎說，但是無法停下來！華人團隊研究發現：2000token以后，大模型就開始表演“詞語沙拉”-AI.x社區圖片

目前在github上已經開源：https://github.com/wenyaxie023/WordSaladChopper

實驗全部在單臺 NVIDIA H100 GPU 上進行。研究者主要在 o1-mini 模型（OpenAI 推理型模型）上運行實驗，并將結果與 GPT-4o-mini 以及 Claude 3.5-sonnet 進行對比，以驗證問題的普遍性。

所有測試均使用 S1 benchmark（由 OpenAI 發布的 reasoning-focused 評測集），該數據集包含大量需要多步推理、算術運算或邏輯歸納的題目。對于每個模型，研究者共生成 1000 條推理軌跡（reasoning traces），每條軌跡約 1000–3000 token。

訓練用于檢測“詞語沙拉”的分類器時，他們將軌跡按雙換行符劃分為片段（chunk），每個 chunk 的最后一個 token 的隱藏狀態作為輸入特征。訓練目標是預測每個 chunk 是否屬于“詞語沙拉”循環。

為評估方法效果，研究者使用以下指標：

Precision（精確率）：被判定為“詞語沙拉”的片段中，實際為“詞語沙拉”的比例。
Recall（召回率）：所有真實“詞語沙拉”片段中，被正確檢測到的比例。
F1 分數：精確率與召回率的調和平均。
Token budget waste（Token 消耗浪費）：重復循環所占的輸出 token 比例。

此外，他們還關注了兩個定性指標：

模型是否在陷入循環后仍嘗試“自我修正”；
在檢測到循環后手動終止生成并重新提示時，模型能否成功繼續回答。

大模型知道自己在瞎說，但是無法停下來！華人團隊研究發現：2000token以后，大模型就開始表演“詞語沙拉”-AI.x社區圖片

結果發現：

1. 詞語沙拉的廣泛存在性

“詞語沙拉循環”不僅存在于 o1-mini，也普遍出現在其他推理型模型中。Claude 3.5、GPT-4o-mini 在長推理任務中，都出現了明顯的自我重復現象。

尤其在數學推理和多步邏輯任務中，模型常在 2000–4000 token 之后陷入無意義的長段自我解釋、重述、或對“自身思路”的重復反芻。

“在 1000 條推理軌跡中，約有 61% 的軌跡出現過至少一次詞語沙拉循環，平均浪費了 23% 的解碼預算。”

2. 分類器檢測效果

線性分類器在僅使用隱藏狀態（無需額外輸入或模型修改）的情況下，就能以較高精度檢測出這些重復片段：

大模型知道自己在瞎說，但是無法停下來！華人團隊研究發現：2000token以后，大模型就開始表演“詞語沙拉”-AI.x社區

研究者分析了模型的隱藏狀態，發現當模型陷入“詞語沙拉循環”時，內部激活信號會出現非常明顯的模式變化。

這也是論文最震撼的發現，不是模型啰嗦——而是它“知道自己在啰嗦”。

模型的神經層在“語義混亂”時，會呈現出特征性波動。換句話說，AI 自己知道自己開始胡說八道了。

只不過，它停不下來。就像一個講不出重點的發言人，只能不停補充、重復、重述，以維持表面的“邏輯連貫”。

3. 干預后的改進

在檢測器實時接入后，當系統監測到連續兩個片段被判定為“詞語沙拉”時，就會終止生成并發出固定再生成提示。結果表明：

在不訓練模型本身的情況下，最多可縮短57%的輸出
對整體正確率的影響可以忽略
推理延遲顯著降低

大模型知道自己在瞎說，但是無法停下來！華人團隊研究發現：2000token以后，大模型就開始表演“詞語沙拉”-AI.x社區圖片

三、為什么推理模型特別容易陷入“詞語沙拉”

作者提出了三種主要原因：

長上下文窗口模型能“記住”自己說過的廢話，從而把它再度引用、重組，形成自我循環。
高一致性偏好推理型模型被訓練成要維持語言流暢、思維連貫，即使已經偏題，也會強行“接著講完”。
缺乏顯式終止條件當前推理架構沒有“我想不出來了”的機制，因此在邏輯死胡同時，只能繼續生成表面合理的文字。

這三點共同導致模型在推理任務中，更容易“過度思考”，甚至產生語言幻覺。

四、“AI的幻覺”，其實也是算力幻覺

這篇論文還有另一個隱含觀點：

我們一直以為模型的“幻覺（hallucination）”是事實錯誤，但它也可能是算力層面的幻覺——模型把計算資源浪費在無意義的循環上，卻仍然“自信滿滿”。

研究者批評了目前業界和學界用于評估推理模型性能的標準（如 GSM8K、MATH、GPQA 等）本身存在缺陷。這些 benchmark 關注模型是否“答對”，但很少衡量模型是否高效、是否在浪費預算。

“我們認為，許多所謂的‘高效推理方法’之所以看起來有效，部分原因是評估基準本身過于寬松。一旦未來出現更全面的評測體系，許多被吹捧的高效推理方法可能會徹底失效，或表現與原生模型完全不同。”

這其實也是對整個“CoT（思維鏈）熱潮”的一次隱性反思：

當前模型的“推理能力”，有相當部分只是看起來在思考，而不是真正地在推理。

那么，評論區的各位大佬們：

你用 AI 時，有沒有遇到它“越解釋越離譜”的情況？如果 AI 能自己檢測到在胡說八道，并停下來，你會更信任它嗎？

參考鏈接：https://arxiv.org/pdf/2511.00536

本文轉載自??51CTO技術棧??，作者：聽雨

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

2000token

大模型

Claude 3.5

贊

回復

舉報

社區頭條

回復

51CTO

51CTO博客

51CTO學堂

大模型知道自己在瞎說，但是無法停下來！華人團隊研究發現：2000token以后，大模型就開始表演“詞語沙拉” 原創

一、推理模型的隱形漏洞：詞語沙拉

二、AI的“去水”神器：WordSaladChopper

1. 詞語沙拉的廣泛存在性

2. 分類器檢測效果

3. 干預后的改進

三、為什么推理模型特別容易陷入“詞語沙拉”

四、“AI的幻覺”，其實也是算力幻覺

目錄