精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型知道自己在瞎說,但是無法停下來!華人團隊研究發(fā)現(xiàn):2000token以后,大模型就開始表演“詞語沙拉”,純浪費錢

原創(chuàng) 精選
人工智能
LRM的“思維鏈”推理的代價極高。每一步內(nèi)部生成的文本都要被再次解碼、存儲、預(yù)測,計算開銷遠超普通對話模型。而且,模型并非總在“思考”——很多時候,它只是在不停地說廢話。

編輯 | 聽雨

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

推理型大語言模型(LRM),像 ChatGPT-5、Claude 3.5、Gemini 1.5 Pro 等模型,能生成長篇、結(jié)構(gòu)化的推理文本來說明自己的思考過程,比傳統(tǒng)LLM的推理能力更強,這已經(jīng)不是什么稀奇事了。

但一項來自明尼蘇達大學(xué)、萊斯大學(xué)、史蒂文斯理工學(xué)院和 Lambda Inc 的華人團隊最新研究指出,LRM在執(zhí)行推理任務(wù)時,會“陷入語言循環(huán)”,生成大量無意義的廢話,并且迅速燒掉你的 token。

研究者為此起了一個很生動的名字,“詞語沙拉”(Word Salad)。顧名思義:模型把詞語像生菜一樣不斷攪拌、重復(fù)、堆疊,看起來很豐盛,其實沒什么營養(yǎng)。

而更震撼的發(fā)現(xiàn)是,模型也會意識到自己在瞎說,但依然無法控制自己停下來。

圖片

一、推理模型的隱形漏洞:詞語沙拉

研究團隊指出,LRM的“思維鏈”推理的代價極高。每一步內(nèi)部生成的文本都要被再次解碼、存儲、預(yù)測,計算開銷遠超普通對話模型。而且,模型并非總在“思考”——很多時候,它只是在不停地說廢話。

“我們觀察到,LRM 在生成長鏈推理時,會出現(xiàn)一種‘幻覺式贅述’現(xiàn)象:重復(fù)先前的句子結(jié)構(gòu)、枚舉無關(guān)情況、或在解釋中兜圈子。它們在形式上表現(xiàn)為推理,但在語義上是空洞的。”

以往的研究(如《Demystifying Long Chain-of-Thought Reasoning in LLMs》《Small Models Struggle to Learn from Strong Reasoners》)指出,大模型在 CoT 推理中容易出現(xiàn)“過度思考”現(xiàn)象:即輸出大量重復(fù)、松散的解釋句式,以掩蓋其邏輯不確定性。

而研究團隊在分析 DeepSeek-R1-Distill 系列模型時發(fā)現(xiàn),在 GPQA-Diamond 數(shù)據(jù)集任務(wù)中:平均超過 55% 的生成 token 屬于“詞語沙拉”,即語義重復(fù)、無增量價值的內(nèi)容。

圖片圖片

這意味著,用戶在每次推理調(diào)用中,有一半的費用都被浪費在模型的“語言循環(huán)”上。

更關(guān)鍵的是,研究者發(fā)現(xiàn)這種行為并非偶然隨機,而是可預(yù)測的模式:

  • 在模型陷入循環(huán)前后,隱藏狀態(tài)的分布發(fā)生明顯變化;
  • 某些 token(特別是 \n\n)后面的狀態(tài)信號能準(zhǔn)確預(yù)示模型是否“失控”;
  • 模型在內(nèi)部表現(xiàn)出一種“覺察到自己在重復(fù)”的信號。

二、AI的“去水”神器:WordSaladChopper

為了解決這個問題,研究者的想法非常簡單粗暴:

如果模型在內(nèi)部“知道自己在胡說八道”,那么我們就可以直接監(jiān)聽它的隱藏層信號,在它開始胡說時立刻把它打斷。

他們提出了一個框架,叫WordSaladChopper(詞語沙拉切斷器) 。它的原理非常直接:1?? 在模型生成推理時,監(jiān)控每個段落(以雙換行符分割);2?? 如果連續(xù)兩個段落的隱藏狀態(tài)顯示“循環(huán)模式”,3?? 系統(tǒng)立刻切斷生成,并自動補上提示讓模型“從這里重新回答”。

圖片圖片

目前在github上已經(jīng)開源:https://github.com/wenyaxie023/WordSaladChopper

實驗全部在單臺 NVIDIA H100 GPU 上進行。研究者主要在 o1-mini 模型(OpenAI 推理型模型) 上運行實驗,并將結(jié)果與 GPT-4o-mini 以及 Claude 3.5-sonnet 進行對比,以驗證問題的普遍性。

所有測試均使用 S1 benchmark(由 OpenAI 發(fā)布的 reasoning-focused 評測集),該數(shù)據(jù)集包含大量需要多步推理、算術(shù)運算或邏輯歸納的題目。對于每個模型,研究者共生成 1000 條推理軌跡(reasoning traces),每條軌跡約 1000–3000 token。

訓(xùn)練用于檢測“詞語沙拉”的分類器時,他們將軌跡按雙換行符劃分為片段(chunk),每個 chunk 的最后一個 token 的隱藏狀態(tài)作為輸入特征。訓(xùn)練目標(biāo)是預(yù)測每個 chunk 是否屬于“詞語沙拉”循環(huán)。

為評估方法效果,研究者使用以下指標(biāo):

  1. Precision(精確率):被判定為“詞語沙拉”的片段中,實際為“詞語沙拉”的比例。
  2. Recall(召回率):所有真實“詞語沙拉”片段中,被正確檢測到的比例。
  3. F1 分數(shù):精確率與召回率的調(diào)和平均。
  4. Token budget waste(Token 消耗浪費):重復(fù)循環(huán)所占的輸出 token 比例。

此外,他們還關(guān)注了兩個定性指標(biāo):

  • 模型是否在陷入循環(huán)后仍嘗試“自我修正”;
  • 在檢測到循環(huán)后手動終止生成并重新提示時,模型能否成功繼續(xù)回答。

圖片圖片

結(jié)果發(fā)現(xiàn):

1. 詞語沙拉的廣泛存在性

“詞語沙拉循環(huán)”不僅存在于 o1-mini,也普遍出現(xiàn)在其他推理型模型中。Claude 3.5、GPT-4o-mini 在長推理任務(wù)中,都出現(xiàn)了明顯的自我重復(fù)現(xiàn)象。

尤其在數(shù)學(xué)推理 和多步邏輯任務(wù)中,模型常在 2000–4000 token 之后陷入無意義的長段自我解釋、重述、或?qū)Α白陨硭悸贰钡闹貜?fù)反芻。

“在 1000 條推理軌跡中,約有 61% 的軌跡出現(xiàn)過至少一次詞語沙拉循環(huán),平均浪費了 23% 的解碼預(yù)算。”

2. 分類器檢測效果

線性分類器在僅使用隱藏狀態(tài)(無需額外輸入或模型修改)的情況下,就能以較高精度檢測出這些重復(fù)片段:

圖片

研究者分析了模型的隱藏狀態(tài),發(fā)現(xiàn)當(dāng)模型陷入“詞語沙拉循環(huán)”時,內(nèi)部激活信號會出現(xiàn)非常明顯的模式變化。

這也是論文最震撼的發(fā)現(xiàn),不是模型啰嗦——而是它“知道自己在啰嗦”。

模型的神經(jīng)層在“語義混亂”時,會呈現(xiàn)出特征性波動。換句話說,AI 自己知道自己開始胡說八道了。

只不過,它停不下來。就像一個講不出重點的發(fā)言人,只能不停補充、重復(fù)、重述,以維持表面的“邏輯連貫”。

3. 干預(yù)后的改進

在檢測器實時接入后,當(dāng)系統(tǒng)監(jiān)測到連續(xù)兩個片段被判定為“詞語沙拉”時,就會終止生成并發(fā)出固定再生成提示。結(jié)果表明:

  • 在不訓(xùn)練模型本身的情況下,最多可縮短57%的輸出
  • 對整體正確率的影響可以忽略
  • 推理延遲顯著降低

圖片圖片

圖片圖片

三、為什么推理模型特別容易陷入“詞語沙拉”

作者提出了三種主要原因:

  1. 長上下文窗口模型能“記住”自己說過的廢話,從而把它再度引用、重組,形成自我循環(huán)。
  2. 高一致性偏好推理型模型被訓(xùn)練成要維持語言流暢、思維連貫,即使已經(jīng)偏題,也會強行“接著講完”。
  3. 缺乏顯式終止條件當(dāng)前推理架構(gòu)沒有“我想不出來了”的機制,因此在邏輯死胡同時,只能繼續(xù)生成表面合理的文字。

這三點共同導(dǎo)致模型在推理任務(wù)中,更容易“過度思考”,甚至產(chǎn)生語言幻覺。

四、“AI的幻覺”,其實也是算力幻覺

這篇論文還有另一個隱含觀點:

我們一直以為模型的“幻覺(hallucination)”是事實錯誤,但它也可能是算力層面的幻覺——模型把計算資源浪費在無意義的循環(huán)上,卻仍然“自信滿滿”。

研究者批評了目前業(yè)界和學(xué)界用于評估推理模型性能的標(biāo)準(zhǔn)(如 GSM8K、MATH、GPQA 等)本身存在缺陷。這些 benchmark 關(guān)注模型是否“答對”,但很少衡量模型是否高效、是否在浪費預(yù)算。

“我們認為,許多所謂的‘高效推理方法’之所以看起來有效,部分原因是評估基準(zhǔn)本身過于寬松。一旦未來出現(xiàn)更全面的評測體系,許多被吹捧的高效推理方法可能會徹底失效,或表現(xiàn)與原生模型完全不同。”

這其實也是對整個“CoT(思維鏈)熱潮”的一次隱性反思:

當(dāng)前模型的“推理能力”,有相當(dāng)部分只是看起來在思考,而不是真正地在推理。

那么,評論區(qū)的各位大佬們:

你用 AI 時,有沒有遇到它“越解釋越離譜”的情況?如果 AI 能自己檢測到在胡說八道,并停下來,你會更信任它嗎?

參考鏈接:https://arxiv.org/pdf/2511.00536

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2025-03-31 00:33:00

2025-01-14 13:04:08

2023-12-18 15:00:00

模型數(shù)據(jù)

2023-10-06 20:30:33

大模型LLMtoken

2023-04-26 12:19:09

大模型焦慮精神病學(xué)

2017-11-22 15:11:33

Java線程停止

2023-06-05 10:01:18

模型測評

2025-09-05 09:09:00

2025-09-02 10:03:34

2024-12-04 10:35:21

2024-11-11 10:46:05

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2023-11-03 07:47:12

機器資源大模型:

2025-03-03 08:46:00

2024-04-11 07:10:59

大語言模型AI人工智能

2023-09-07 20:33:08

2024-11-26 09:33:44

2024-07-31 08:14:17

2024-12-26 00:46:25

機器學(xué)習(xí)LoRA訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號

日本一极黄色片| 5g国产欧美日韩视频| 日韩一级视频在线观看| 欧美成人黑人| 日本一区二区三区四区| 国产精品日韩在线播放| 91香蕉一区二区三区在线观看| 欧美另类激情| 亚洲综合在线观看视频| 国产精品一区二区三区不卡| 国语对白永久免费| 久久一级电影| 精品国产乱码久久久久久图片 | 中国老头性行为xxxx| 久久视频精品| 日韩成人激情视频| 九色porny自拍| 国产女主播一区二区| 欧美aaa级片| 77成人影视| 日韩欧美中文字幕在线观看 | 涩涩涩久久久成人精品| 一区二区日韩av| 成人精品一二区| 潘金莲一级淫片aaaaaa播放| 久久国产小视频| 亚洲成人亚洲激情| 国产裸体舞一区二区三区| 国产区在线观看| 99久久国产综合精品麻豆| 国产精品久久久久久久久久久久久久| 国精产品久拍自产在线网站| 成人午夜三级| 色婷婷av一区二区三区大白胸| 在线视频不卡一区二区三区| 婷婷国产在线| 国产美女一区二区三区| 国产91精品最新在线播放| 日本妇女毛茸茸| 国产亚洲电影| 亚洲福利视频二区| 天天色天天综合网| 91av亚洲| 亚洲成精国产精品女| 异国色恋浪漫潭| 91九色国产ts另类人妖| www.国产高清| 亚洲国产精品日韩专区av有中文| 日韩激情在线视频| 国产免费无码一区二区| 99久久这里有精品| 色综合久久久久久久久| 成年女人18级毛片毛片免费| 秋霞午夜在线观看| 国产亚洲欧美中文| 精品国产一区二区三区麻豆免费观看完整版 | 日本老熟妇毛茸茸| 国产日韩欧美精品| 热这里只有精品| 国产在线黄色| 9l国产精品久久久久麻豆| 亚洲一区二区在线播放| 一区二区三区www污污污网站| 亚欧美中日韩视频| 91国产中文字幕| 久久免费精彩视频| 欧美视频日韩| 亚洲一区二区欧美激情| 亚洲国产精品电影在线观看| 欧美精品色视频| 亚洲精品777| 欧美日韩一区不卡| 国产视频1区2区3区| 热色播在线视频| 欧美午夜激情在线| 国产午夜伦鲁鲁| 亚洲欧美se| 91官网在线观看| 99热手机在线| 国产香蕉久久| 欧美精品在线视频| 交换做爰国语对白| 成人春色在线观看免费网站| 亚洲高清久久网| 91av在线免费| 成人在线视频你懂的| 337p日本欧洲亚洲大胆色噜噜| 国产老头和老头xxxx×| 韩国一区二区三区视频| 欧美电影精品一区二区| 波多野结衣加勒比| 91精品啪在线观看国产手机| 精品国精品国产| 午夜久久久久久久| 猛男gaygay欧美视频| 亚洲一级黄色片| 免费看一级黄色| 欧美激情自拍| 91a在线视频| 少妇无套内谢久久久久| 久久人体视频| 久久99精品久久久久久噜噜| 亚洲免费在线视频观看| 九九九久久久精品| 久久久水蜜桃| 高清免费电影在线观看| 精品露脸国产偷人在视频| 91亚洲免费视频| 日本成人7777| 欧美老女人在线视频| 亚洲成人av网址| 成人精品鲁一区一区二区| 亚洲一区二区精品在线观看| 国产在线看片免费视频在线观看| 欧美精品乱人伦久久久久久| 天天插天天射天天干| 亚洲精品网址| 国产精品国产三级国产aⅴ9色| 国精产品一品二品国精品69xx| 国产精品大尺度| 国产日韩一区二区在线| 91精品国产乱码久久久竹菊| 日韩在线精品视频| 日韩一级片中文字幕| 成人网在线播放| 综合一区中文字幕| 久久天堂av| 亚洲女人天堂av| 国产成人啪精品午夜在线观看| 久久99精品久久久久久国产越南 | 色综合久久悠悠| 中文字幕在线播放av| 91丝袜美腿高跟国产极品老师| 亚洲五码在线观看视频| 人人玩人人添人人澡欧美| 亚洲日本aⅴ片在线观看香蕉| 五月天婷婷丁香| 国产精品系列在线播放| 欧美 日韩 国产 在线观看| 国产69精品久久| 国产亚洲欧洲高清一区| 亚洲综合图片网| 91麻豆国产精品久久| www.日本在线播放| 美国十次av导航亚洲入口| 欧美丰满老妇厨房牲生活| 国产视频一区二区三区四区五区| 国产精品超碰97尤物18| 国产一级做a爰片久久| 日本女优一区| 国产精品爽爽爽爽爽爽在线观看| 粉嫩av一区| 欧洲av一区二区嗯嗯嗯啊| 中文字幕被公侵犯的漂亮人妻| 亚洲欧美日韩专区| 欧美一区二区三区在线免费观看| 欧美三级网站| 亚洲欧美一区二区三区四区| 亚洲av中文无码乱人伦在线视色| 久久人人97超碰com| 99精品免费在线观看| 成人嘿咻视频免费看| 国产精品最新在线观看| 男人的天堂在线视频免费观看| 6080国产精品一区二区| 欧美日韩中文字幕在线观看| 福利一区二区在线| 奇米精品一区二区三区| 九九精品久久| 国产精品欧美久久久| 毛片激情在线观看| 欧美成人乱码一区二区三区| 日韩成人免费观看| 久久久久亚洲蜜桃| 一起操在线视频| 欧美1区2区3区| 久久精品国产一区二区三区日韩 | 91精品免费看| 三级网站视频在在线播放| 日韩成人av在线播放| 这里只有精品免费视频| 亚洲三级理论片| 性色av蜜臀av浪潮av老女人| 天堂久久一区二区三区| 精品一区二区成人免费视频| www.丝袜精品| 欧美最猛性xxxxx(亚洲精品)| 91xxx在线观看| 日韩精品一区二区三区在线观看| 亚洲天堂日韩av| 国产精品人成在线观看免费| 欧美图片自拍偷拍| 日韩**一区毛片| 欧美在线观看黄| 精品国产1区| 懂色一区二区三区av片| 国产精品扒开腿做爽爽爽视频软件| 中文字幕日本欧美| 日本韩国免费观看| 欧美伦理视频网站| 69视频免费在线观看| 亚洲精品伦理在线| 天堂在线中文视频| 成人午夜av在线| 久久久久久久久久一区| 亚洲在线黄色| 欧美交换配乱吟粗大25p| 欧美午夜精彩| 国产在线精品一区二区三区| 国产不卡精品| 国产精品免费观看在线| 草草视频在线| 欧美成人精品在线播放| 黄色片视频在线观看| 精品少妇一区二区三区视频免付费| 99re国产在线| 欧美日韩国产综合新一区| 51精品免费网站| 国产免费成人在线视频| 欧美双性人妖o0| 国产乱一区二区| 天天操天天爱天天爽| 校园激情久久| 亚洲 欧美 综合 另类 中字| 亚洲美女视频| 亚洲欧美日韩精品久久久| 久久成人高清| 免费成人深夜夜行视频| 国产精品白浆| 99视频在线| 精品午夜av| 91亚洲精品一区二区| 欧美成人免费全部网站| 国产精品美女在线观看| 最新日韩一区| 国产精品第七影院| 日韩pacopacomama| 茄子视频成人在线| 天堂资源在线| 青青久久av北条麻妃黑人| 涩涩av在线| 欧美最近摘花xxxx摘花| 中文字幕乱码在线播放| 2021久久精品国产99国产精品| 2021中文字幕在线| 午夜精品视频网站| 色是在线视频| 人九九综合九九宗合| 亚洲精品国产精品国产| 国产精品69精品一区二区三区| 欧美片第一页| 国产精品久久久久77777| 欧美日一区二区三区| 国产精品日韩欧美| 图片一区二区| 97视频热人人精品| www.神马久久| 欧美不卡在线一区二区三区| 精品国产一区二区三区噜噜噜| 日韩精品一区二区三区四区五区 | 久久夜色撩人精品| 91精品久久久久久粉嫩| 欧美黄色性视频| 九九色在线视频| 97不卡在线视频| 新片速递亚洲合集欧美合集| 国产精品流白浆视频| 91麻豆精品| 国产欧美日韩伦理| 亚洲国产网址| 中文字幕人成一区| 雨宫琴音一区二区在线| 国产精品免费入口| 蜜桃精品在线观看| 黑人无套内谢中国美女| av激情综合网| 黄色av片三级三级三级免费看| 亚洲男人天堂一区| 国产无遮挡又黄又爽| 色综合久久88色综合天天免费| 亚洲在线观看av| 欧美成人一区二区三区| 污污视频在线观看网站| 在线观看日韩av| 不卡av免费观看| 国产精品偷伦视频免费观看国产| 老司机亚洲精品一区二区| 久久精品国产精品国产精品污| 欧美oldwomenvideos| 久久99久久99精品| 乱一区二区av| 国产人妻黑人一区二区三区| 国产精品久久福利| 日韩大片免费在线观看| 欧美人xxxx| 日本一区二区三区在线观看视频| 日韩有码在线电影| 九色porny丨国产首页在线| 91色视频在线导航| 国产毛片一区二区三区| 国产片侵犯亲女视频播放| 全部av―极品视觉盛宴亚洲| 国产一精品一aⅴ一免费| 国产精品嫩草影院av蜜臀| 亚洲国产综合久久| 欧美一区二区三区影视| 成年人在线观看网站| 97在线视频国产| 无码国模国产在线观看| 亚洲bbw性色大片| 久久不射网站| 高清中文字幕mv的电影| 亚洲色图欧洲色图| 在线观看国产精品入口男同| 亚洲精品国产精品国自产在线| 影院在线观看全集免费观看| 91精品久久久久久久久久久久久久 | 亚洲视频综合| 视频免费1区二区三区| 国产午夜一区二区三区| 青青草成人av| 亚洲激情成人网| 日韩激情av| 成人情趣片在线观看免费| 精品久久中文| 免费无码av片在线观看| a级高清视频欧美日韩| 曰本女人与公拘交酡| 欧美一区二区三区系列电影| 1024国产在线| 国产精品久久色| 国产一区二区三区网| 妺妺窝人体色www在线小说| av欧美精品.com| 精品午夜福利视频| 欧美大片免费久久精品三p| 国产黄色在线观看| 成人午夜在线观看| 天天射天天综合网| 在线观看岛国av| 成人欧美一区二区三区小说| 夜夜嗨aⅴ一区二区三区| 日韩中文字幕第一页| 四虎国产精品免费久久| 国产精品美女在线播放| 国产在线播放一区三区四| 日本精品在线免费观看| 7777女厕盗摄久久久| av免费网站在线观看| 97久久天天综合色天天综合色hd| 911久久香蕉国产线看观看| 在线观看日本www| 亚洲精品亚洲人成人网| 午夜精品久久久久久久99| 欧美激情视频免费观看| 久本草在线中文字幕亚洲| 极品美女扒开粉嫩小泬| 99久久精品免费| 亚洲欧美偷拍一区| 有码中文亚洲精品| 日韩av黄色| 成人短视频在线观看免费| 丁香六月久久综合狠狠色| 91国产丝袜播放在线| 亚洲日本aⅴ片在线观看香蕉| 国产第一亚洲| 2021狠狠干| 不卡的看片网站| 成人小视频在线播放| 久久精品国产91精品亚洲 | 精品国精品国产尤物美女| 美女扒开腿让男人桶爽久久软| 免费在线成人av| 九一久久久久久| 久久成人在线观看| 日韩黄色高清视频| 欧美视频第一| 男人天堂av片| 欧美激情在线一区二区| av高清一区二区| 777午夜精品福利在线观看| 日本一区二区免费高清| 男人女人拔萝卜视频| 色综合久久中文字幕| 黄色在线播放网站| 久久99国产精品99久久| 麻豆精品国产91久久久久久| 久久久国产成人| 一本色道久久综合狠狠躁篇的优点| 久久久久久爱| 久草青青在线观看| 亚洲免费三区一区二区| 少妇性bbb搡bbb爽爽爽欧美| 国产综合香蕉五月婷在线| 夜夜嗨av一区二区三区网站四季av| 亚洲色图欧美色| 亚洲国产精品久久久| 日日夜夜综合| 久久久久久香蕉| 亚洲午夜三级在线|