你解數(shù)學(xué)題時(shí),會(huì)把每一步都喊出來(lái)嗎?AI大模型應(yīng)該學(xué)會(huì) "默默思考" 的秘訣
昨天給孩子講數(shù)學(xué)題,發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:我自己算的時(shí)候,腦子里飛快過(guò)了好幾個(gè)思路,最后才得出答案;但給孩子講時(shí),必須把"先算括號(hào)里的""再乘除后加減"這些步驟一個(gè)個(gè)說(shuō)出來(lái)。這讓我想起最近讀到的一篇論文,突然意識(shí)到:AI的"思考"方式,居然也在經(jīng)歷類(lèi)似的轉(zhuǎn)變——從必須"大聲說(shuō)出"每一步,到學(xué)會(huì)在心里"默默盤(pán)算"。
你可能用過(guò)ChatGPT解復(fù)雜問(wèn)題,它會(huì)一條條列步驟,比如"第一步算總量,第二步求比例",這種"說(shuō)出來(lái)"的思考方式叫"顯式推理"。但今天要聊的"潛在推理",就像AI在心里打草稿,不用把所有步驟都轉(zhuǎn)換成文字,卻能更快更準(zhǔn)地得出答案。這背后的突破,可能會(huì)徹底改變AI的"認(rèn)知能力"。
為什么AI"說(shuō)話(huà)"思考效率低?
先聊聊傳統(tǒng)的顯式推理。就像我們發(fā)微信,每次只能發(fā)一段文字,AI的顯式推理也是用"tokens"(可以理解為語(yǔ)言片段)來(lái)傳遞中間思考。比如解一道數(shù)學(xué)題,AI要生成"因?yàn)锳所以B,又因?yàn)锽所以C"這樣的句子,每一步都是一個(gè)或多個(gè)tokens。

但這里有個(gè)大問(wèn)題:語(yǔ)言的"帶寬"太低了。論文里做了個(gè)驚人對(duì)比:一個(gè)顯式的token大概只能攜帶15比特的信息,就像一張只能寫(xiě)幾個(gè)字的明信片;而AI模型里的"隱藏狀態(tài)"(可以理解為它的"內(nèi)心活動(dòng)"),一次能傳遞40960比特的信息,相當(dāng)于一個(gè)裝滿(mǎn)細(xì)節(jié)的U盤(pán)。兩者差了差不多2700倍!
想象一下:你要給朋友描述一幅復(fù)雜的畫(huà),顯式推理就像只能用短信一句句說(shuō),而潛在推理相當(dāng)于直接發(fā)高清視頻——哪個(gè)效率高,一目了然。
更麻煩的是,語(yǔ)言會(huì)"框住"思考。有些復(fù)雜的邏輯關(guān)系,可能沒(méi)法用簡(jiǎn)單的文字說(shuō)清楚,就像數(shù)學(xué)家有時(shí)候靠公式和圖形思考,而不是純語(yǔ)言。AI被限制在語(yǔ)言里,自然也會(huì)錯(cuò)過(guò)一些更優(yōu)的思考路徑。
潛在推理:AI在"心里"建了個(gè)草稿本
潛在推理的核心 idea 特別簡(jiǎn)單:把思考過(guò)程從"語(yǔ)言文字"挪到AI的"內(nèi)部狀態(tài)"里。不用生成中間文字,直接在模型的隱藏狀態(tài)里完成多步推理。
打個(gè)比方:顯式推理像小學(xué)生做算術(shù),必須在作業(yè)本上寫(xiě)下每一步"3+5=8,8×2=16";潛在推理則像熟練的會(huì)計(jì),看一眼數(shù)字就能在心里快速算出結(jié)果,不用動(dòng)筆。

論文里把這種"內(nèi)心活動(dòng)"分成了兩種主要形式,我用兩個(gè)生活場(chǎng)景就能講明白:
垂直遞歸:像揉面團(tuán)一樣反復(fù)打磨
這種方法就像揉面團(tuán)——同樣的面粉和水,反復(fù)揉、反復(fù)壓,面筋會(huì)越來(lái)越勁道,口感越來(lái)越好。AI的垂直遞歸也是這樣:把同一組神經(jīng)網(wǎng)絡(luò)層"反復(fù)使用",讓信息在里面一次次循環(huán)、打磨。
比如Universal Transformer模型,它不像傳統(tǒng)模型那樣一層一層"走一遍就完",而是會(huì)根據(jù)問(wèn)題難度,決定要不要多"揉"幾次。簡(jiǎn)單問(wèn)題可能過(guò)兩層就夠了,復(fù)雜問(wèn)題就多循環(huán)幾十次。這就像做面包,簡(jiǎn)單的小面包揉幾分鐘就行,復(fù)雜的歐式面包可能要揉半小時(shí)。
我覺(jué)得最巧妙的是"Pre/Loop/Coda"結(jié)構(gòu)(前奏-循環(huán)-尾聲):先把問(wèn)題"看懂"(前奏),然后反復(fù)琢磨(循環(huán)),最后整理出答案(尾聲)。就像我們寫(xiě)報(bào)告,先理解需求,中間反復(fù)修改核心內(nèi)容,最后美化格式——分工明確,效率更高。
水平遞歸:像記賬本一樣積累信息
如果說(shuō)垂直遞歸是"往深了想",水平遞歸就是"往長(zhǎng)了記"。它像一本智能記賬本,不是把所有流水都記下來(lái),而是提煉關(guān)鍵信息,不斷更新,卻始終保持簡(jiǎn)潔。
傳統(tǒng)的Transformer模型記東西,有點(diǎn)像堆文件——新信息來(lái)了就往文件夾里塞,文件越來(lái)越多,找起來(lái)越來(lái)越慢。水平遞歸則像個(gè)精明的秘書(shū),會(huì)把舊信息壓縮成精華,再和新信息結(jié)合,始終保持一個(gè)"輕薄"的筆記本。
比如RetNet、Mamba這些模型,它們的隱藏狀態(tài)會(huì)像滾雪球一樣,把重要信息留下,不重要的慢慢淡化。就像我們記會(huì)議紀(jì)要,不會(huì)逐字記錄,而是提煉要點(diǎn),新的要點(diǎn)來(lái)了就更新紀(jì)要,始終保持清晰簡(jiǎn)潔。
神經(jīng)網(wǎng)絡(luò)的"車(chē)間分工":每層都有專(zhuān)門(mén)任務(wù)
潛在推理能成事兒,還得靠神經(jīng)網(wǎng)絡(luò)的"內(nèi)部分工"。論文里提出的"層專(zhuān)業(yè)化"理論特別有意思:就像工廠(chǎng)的不同車(chē)間,淺層、中層、深層神經(jīng)網(wǎng)絡(luò),干的活完全不一樣。
淺層:原材料處理車(chē)間
淺層網(wǎng)絡(luò)就像工廠(chǎng)的原料檢驗(yàn)員,負(fù)責(zé)處理最基礎(chǔ)的信息。比如讀一句話(huà)時(shí),淺層會(huì)先識(shí)別"誰(shuí)、什么時(shí)間、做了什么"這些基本要素,就像我們看文章先抓住主謂賓。
論文里發(fā)現(xiàn),淺層還特別擅長(zhǎng)記"事實(shí)性知識(shí)"。比如"北京是中國(guó)的首都"這種常識(shí),多半藏在淺層——就像我們大腦里的"即時(shí)記憶",快速調(diào)用,不用深想。
中層:核心加工車(chē)間
最精彩的推理發(fā)生在中層。這里像工廠(chǎng)的裝配線(xiàn),把淺層送來(lái)的原材料組裝成復(fù)雜的邏輯關(guān)系。比如解"小明有3個(gè)蘋(píng)果,媽媽又買(mǎi)了5個(gè),分給2個(gè)小朋友,每人幾個(gè)"這種題,中層會(huì)處理"3+5=8,8÷2=4"的邏輯鏈條。
更厲害的是,中層會(huì)形成專(zhuān)門(mén)的"推理電路"。就像工廠(chǎng)里為特定產(chǎn)品設(shè)計(jì)的專(zhuān)用生產(chǎn)線(xiàn),中層的某些神經(jīng)元會(huì)專(zhuān)門(mén)處理"因果關(guān)系",某些專(zhuān)門(mén)處理"數(shù)量比較"。我看到論文里說(shuō),只要干擾這些神經(jīng)元的活動(dòng),AI的推理能力就會(huì)明顯下降——足見(jiàn)它們的核心作用。
深層:質(zhì)檢與包裝車(chē)間
深層網(wǎng)絡(luò)主要負(fù)責(zé)"輸出優(yōu)化"。就像工廠(chǎng)的質(zhì)檢和包裝環(huán)節(jié),把中層加工好的結(jié)果再檢查一遍,然后整理成符合要求的形式。
不過(guò)論文也提到一個(gè)有趣的現(xiàn)象:深層有時(shí)候會(huì)"偷懶"。可能是因?yàn)樾畔鬟f到這里時(shí)已經(jīng)損耗了一些,也可能是優(yōu)化過(guò)度導(dǎo)致"形式大于內(nèi)容"。就像包裝太花哨,反而掩蓋了產(chǎn)品本身的質(zhì)量——這也是未來(lái)需要改進(jìn)的地方。
無(wú)限深度推理:AI學(xué)會(huì)"反復(fù)修改"
潛在推理的終極目標(biāo)之一,是讓AI能"想多久就想多久",而不是被固定的層數(shù)或步驟限制。這就像我們解難題時(shí),會(huì)反復(fù)琢磨、推翻重來(lái),直到滿(mǎn)意為止——論文里把這叫"無(wú)限深度推理"。
目前最有希望的是"文本擴(kuò)散模型",它的工作方式特別像我們寫(xiě)文章:
1. 先隨便寫(xiě)個(gè)初稿(可能全是錯(cuò)誤);
2. 通讀一遍,修改明顯的錯(cuò)誤;
3. 再讀,調(diào)整邏輯不順的地方;
4. 反復(fù)打磨,直到滿(mǎn)意。
傳統(tǒng)的AI生成文本,像寫(xiě)日記一樣"從左到右",寫(xiě)完一句就不能改了;而擴(kuò)散模型可以隨時(shí)回頭修改前面的內(nèi)容,就像用Word編輯文檔,哪里不對(duì)改哪里。論文里提到,這種方法特別適合數(shù)學(xué)推理和復(fù)雜規(guī)劃——畢竟誰(shuí)解題還不涂改兩筆呢?
我覺(jué)得最妙的是"置信度控制":模型會(huì)先集中精力修改那些"自己也沒(méi)把握"的部分,就像我們考試時(shí)先檢查不確定的題目,效率特別高。
未來(lái)的AI,會(huì)"想"得更像人嗎?
讀這篇論文時(shí),我總?cè)滩蛔“袮I的潛在推理和人類(lèi)的思考方式對(duì)比:我們平時(shí)思考,大多時(shí)候也是"默默進(jìn)行"的,只有需要解釋或記錄時(shí),才會(huì)轉(zhuǎn)換成語(yǔ)言。從這個(gè)角度看,潛在推理可能讓AI的"認(rèn)知過(guò)程"更接近人類(lèi)。
但挑戰(zhàn)也不少:比如怎么"看懂"AI的"內(nèi)心活動(dòng)"(可解釋性),怎么確保它在默默思考時(shí)不"走歪路"(可靠性)。論文里提到,目前還沒(méi)有統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn),不同模型的訓(xùn)練條件也不一樣,就像不同學(xué)校的學(xué)生用不同教材,很難直接比較——這也是未來(lái)需要解決的問(wèn)題。
不過(guò)可以肯定的是,潛在推理讓AI擺脫了語(yǔ)言的"鐐銬"。就像人類(lèi)發(fā)明文字是為了交流,但真正的思考往往超越文字本身,AI也正在邁出這一步。
最后想問(wèn)問(wèn)你:如果AI能在心里默默算對(duì)一道復(fù)雜的題,但說(shuō)不出具體步驟,你會(huì)相信它的答案嗎?歡迎在評(píng)論區(qū)聊聊你的看法。
參考資料
? 標(biāo)題:A Survey on Latent Reasoning,
? 作者:Rui-Jie Zhu, Tianhao Peng, Tianhao Cheng, Xingwei Qu, Jinfa Huang, Dawei Zhu, Hao Wang, Kaiwen Xue, Xuanliang Zhang, Yong Shan, Tianle Cai, Taylor Kergan, Assel Kembay, Andrew Smith, Chenghua Lin, Binh Nguyen, Yuqi Pan, Yuhong Chou, Zefan Cai, Zhenhe Wu, Yongchi Zhao, Tianyu Liu, Jian Yang, Wangchunshu Zhou, Chujie Zheng, Chongxuan Li, Yuyin Zhou, Zhoujun Li, Zhaoxiang Zhang, Jiaheng Liu, Ge Zhang, Wenhao Huang, Jason Eshraghian
? 單位:UCSC, FDU, NJU, PKU, RUC, UoM, UW-Madison, PolyU, M-A-P
? 鏈接:https://arxiv.org/pdf/2507.06203
本文轉(zhuǎn)載自???旺知識(shí)??,作者:旺知識(shí)

















