Meta打開AI元認知，讓AI不止會解題，還會總結套路了

2025-09-25 09:02:00

人工智能新聞

Meta、Mila-Quebec人工智能研究所、蒙特利爾大學、普林斯頓大學，他們提出了一套簡單的機制，給大模型打開了元認知，讓它學會了反思和總結。

大語言模型記性不太好。

具體來說，它們在解決需要多個步驟的復雜問題時，經常“顧尾不顧頭”。

比如它剛辛辛苦苦推導出一個幾何級數求和公式解了一道題，下一道題遇到類似的問題，它就把剛才的功夫忘得一干二凈，又從頭開始重新推導一遍。這個過程不僅浪費了大量的計算資源，還拖慢了響應速度。

這就像一個學生，每次考試都現場推導勾股定理，而不是直接記住a2+b2=c2。

Meta、Mila-Quebec人工智能研究所、蒙特利爾大學、普林斯頓大學，他們提出了一套簡單的機制，給大模型打開了元認知，讓它學會了反思和總結。

簡單說，就是讓模型在解完一道題后，自己回頭看看解題過程，把那些重復出現的、可以泛化的推理步驟給揪出來，然后打包成一個簡潔、可重用的‘行為’。

這個‘行為’就像一個武功招式，有個名字，還有一句心法口訣。比如下面這個：

systematic_counting → 通過檢查每個數字的貢獻而不重疊來系統地計算可能性；這樣可以防止遺漏案例和重復計算。

這些‘行為’招式會被收錄進一本不斷更新的‘行為手冊’里。以后再遇到類似的江湖難題，模型就直接翻開手冊查閱對應的招式就行。

這套玩法，研究人員稱之為‘元認知重用’。

AI如何打造自己的‘武功秘笈’

這本秘笈不是人類高手寫的，而是大模型自己琢磨出來的。

整個過程有點像一個三步走的自我修煉：

第一步，找一個策略大師。研究人員請來了DeepSeek-R1-Distill-Llama-70B這個模型擔任‘元認知策略師’。它基于Llama-3.3-70B-Instruct架構，是個解數學題和編程題的好手。

第二步，解題與反思。策略師先老老實實地解決一個給定的問題，寫下詳細的解題思路和答案。然后，它會像一個嚴格的老師一樣，回頭審視自己的解題過程，進行反思：邏輯通不通順？答案對不對？更重要的是，這里面有沒有什么可以提煉出來、以后能用得上的通用技巧？

第三步，提煉與入庫。策略師結合原始問題、自己的解題方案和反思，最終提煉出一套‘行為’，也就是（名稱，指令）的組合，然后把它們鄭重地寫進那本不斷加厚的‘行為手冊’里。

這個過程就像一個武學宗師，打贏了一場架，不僅要復盤勝負手，還要把其中的精妙招式總結成心法，傳給后人。

值得一提的是，這種‘行為手冊’里裝的是程序性的知識，是關于‘如何思考’的方法論。這和市面上主流的檢索增強生成（Retrieval-Augmented Generation，RAG）系統有本質區別，RAG主要存儲的是陳述性的事實知識，比如‘法國的首都是巴黎’，用來回答事實性問題。而‘行為手冊’教的是‘如何找到首都’的通用方法。

‘武功秘笈’的三種實戰用法

秘笈寫好了，研究人員設計了三種方式，讓這本手冊在實戰中發揮作用。

第一種，行為條件推理（Behavior-Conditioned Inference，BCI）。

這是最直接的用法。來了一個新問題，先別急著動手，去手冊里翻一翻，找幾條可能用得上的招式。然后把這些招式連同問題一起，作為上下文（context）喂給解題的模型。

這相當于給學生發了一張寫著關鍵公式和提示的‘小抄’。

怎么找相關的招式呢？

對于像MATH數據集這種題目本身就分好類的，比如‘代數’、‘幾何’，那就簡單了，直接從對應類別的行為里找就行。研究人員從MATH訓練集中隨機抽取了1000個問題，生成了一本包含七個章節（主題）的行為手冊，共計785條行為。

對于沒有分類的數據集，比如美國數學邀請賽（American Invitational Mathematics Examination，AIME）的題目，就得上點技術手段了。研究人員使用BGE-M3模型將問題和手冊里所有行為都轉換成向量，然后用FAISS（一個用于密集向量相似性搜索和聚類的庫）這個工具，快速找到和問題向量最接近的前40條行為。這種基于嵌入的檢索方式擴展性很強，理論上可以維護一個跨領域的超大行為庫，并且能以很低的延遲檢索。

實驗結果顯示，有了‘小抄’的模型，在MATH和AIME數據集上，用更少的輸出令牌就達到了與原始模型相當甚至更高的準確率。省錢又增效。

第二種，行為引導的自我改進。

這個玩法是讓模型自己教自己。模型（比如R1-Llama-70B）既是出題的元認知策略師，又是答題的學生。

它先用較少的計算資源（2048令牌預算）解一道題，得到一個初步的答案。然后，它從這個初步的解題過程中提煉出‘行為’，再把這些新鮮出爐的行為作為提示，回頭用更多的計算資源（2048到16384令牌）重新解這道題。

相當于一個學生做完草稿后，自己總結了一下方法論，然后用這個方法論去完善草稿，寫出更漂亮的最終答案。

研究人員設計了一個‘批判和修訂’的基線方法做對比，也就是讓模型直接回頭看自己的草稿，然后進行修改。

結果顯示，行為引導的自我改進方法，在準確率上幾乎全面優于簡單的‘批判和修訂’。而且隨著給的計算資源增多，性能提升也更穩定。這說明，提煉‘行為’這個步驟，確實能幫助模型更有效地進行自我提升。

第三種，行為條件監督微調（Behavior-Conditioned Supervised Fine-Tuning，BC-SFT）。

前面兩種方法，每次解題都得帶著那本厚厚的‘行為手冊’，不僅麻煩，還增加了輸入令牌的成本。有沒有辦法把這些武功招式直接內化成模型的本能呢？

有，就是監督微調。

這個過程需要三個角色：元認知策略師（還是R1-Llama-70B）、教師（也是R1-Llama-70B）和學生（比如Qwen或Llama系列的一些小模型）。

首先，策略師和教師合作，用BCI的方法生成一大批高質量的、帶有行為指導的解題范例。這批范例構成了一個特殊的訓練數據集DBC。

然后，讓學生模型在這個數據集上進行微調訓練。

關鍵點在于，訓練的時候，學生模型看到的是問題和教師給出的‘行為條件響應’，但并不直接看到行為本身。訓練完成后，在測試時，也只給學生模型問題，不給任何行為提示。

這么做的目的，是希望學生模型能通過學習這些優秀的解題范例，把其中蘊含的推理‘行為’融入到自己的參數里，變成一種直覺。

這就好比一個武學奇才，不需要看武功秘笈，只通過觀摩頂尖高手的過招，就領悟了其中的精髓，并化為己用。

實驗結果令人振奮。經過BC-SFT訓練的學生模型，不僅在解題時令牌效率更高，而且在幾乎所有計算預算下，準確率都超過了兩個基線（原始模型和在普通解題數據上微調的模型）。

更厲害的是，BC-SFT能有效地把一些本身不擅長推理的模型（比如Qwen2.5-14B-Base）調教成推理高手。這表明，BC-SFT不僅僅是教模型如何說得更簡潔，而是真正向模型的參數里注入了有用的推理能力。

研究人員檢查了訓練數據的答案正確率，發現帶有行為指導的范例（44.4%）和普通范例（42.7%）的正確率差距微乎其微。這說明，下游性能的巨大差異，源于解題過程的質量，而不是答案本身。

局限與未來

這項工作為大模型推理效率低下這個老大難問題，提供了一個優雅的解決方案。通過元認知重用，模型進化到可以回憶和運用已有的方法論。

這個框架是通用的，不局限于數學，未來可以在編程、科學推理、甚至開放式對話等領域大放異彩。

當然，目前的實現還有一些局限。

比如，行為的檢索是在解題開始前一次性完成的，不夠靈活。理想情況下，模型應該能在推理過程中，根據需要動態地、即時地去手冊里查找行為，就像人思考時隨時查資料一樣。

另外，這項研究目前只是一個概念驗證。未來能否擴展到構建一個跨越多個領域的龐大行為庫，并在大規模微調中應用，還有待觀察。

看來，不僅會解決問題，還知道‘如何’解決問題的AI就要來了。

責任編輯：張燕妮來源： AIGC開放社區

Meta AI 模型