精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

邁向System 2推理,100頁論文硬核講述Meta-CoT

人工智能 新聞
Meta-CoT 通過顯式建模生成特定思維鏈(CoT)所需的底層推理過程,擴展了傳統的思維鏈方法。

「我們有一份關于『推理時間計算』的新研究,以及我們過去幾個月一直在研究的內容!我們提出了一些理論,說明為什么它是必要的,它是如何工作的,我們為什么需要它,以及它對超級智能意味著什么。」

剛剛,斯坦福博士生 Rafael Rafailov 在 X 上官宣了一項他參與的新研究《 Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought 》。

圖片

Rafailov 進一步表示,「我們需要高級推理的主要原因在于問題的復雜性。模型訓練數據中雖然包含了難題的解決方案,但并未涵蓋這些解決方案的真實數據生成過程。解決方案本身是某種復雜的元思維鏈(Meta-CoT)的輸出,而這一過程并未被明確記錄下來。」

圖片

圖為解決一個數學問題的過程,這個問題是要找到一種運算符序列(包括加號 +、減號 -、乘號 * 和除號 /),使得數字 7、3、11、5 通過這些運算恰好使用一次得到結果 24。

Rafailov 所說的 Meta-CoT,是一種新穎的框架,它通過顯式建模生成特定思維鏈(CoT)所需的底層推理過程,擴展了傳統的思維鏈方法。

該研究認為,傳統的 CoT 方法雖然在解決簡單問題時有效,但未能捕捉到復雜推理的真實數據生成過程,這一過程通常涉及非線性、迭代性和潛在的探索與驗證。Meta-CoT 通過顯式建模這種潛在的「思考」過程,擴展了 CoT 方法。本文認為,這種建模對于解決需要高級推理能力的問題至關重要。

圖片

  • 論文地址:https://arxiv.org/pdf/2501.04682

該研究從認知科學的雙過程理論中汲取靈感,將 Meta-CoT 框架看作為一種 System 2 推理形式。本文奠定了 Meta-CoT 理論基礎,展示了如何通過系統搜索過程實現這一框架,以及如何將這些過程內化到一個單一的自回歸模型中。隨后,本文提供了實證證據,包括對 OpenAI 的 o1 和 DeepSeek-R1 等頂尖模型的分析,這些模型展現出了與內化(上下文)搜索一致的行為。接著本文進一步探索了通過過程監督來訓練 Meta-CoT 模型的方法,以及通過蒙特卡洛樹搜索(MCTS)和 A * 等搜索算法生成合成數據的技術。

最后,本文概述了一個在單一端到端系統中實現 Meta-CoT 的具體流程,該流程結合了帶有線性化搜索痕跡的指令調整和強化學習(RL)后訓練。

本文還介紹了一個名為 Big MATH 的項目,該項目整合了超過 100 萬個高質量、可驗證的數學問題,以促進這一領域進一步研究。

該研究不僅提供了理論洞見,還為在 LLM 中啟用 Meta-CoT 提供了一條實踐路線圖,為人工智能實現更強大和更類人的推理鋪平了道路。

為什么要提出 Meta-CoT?   

Meta-CoT 是什么樣的?     

我們要問自己一個問題:具有「思維鏈」提示功能的語言模型是否真的能夠表達任何函數,從而解決任意復雜的問題?今天,前沿模型的能力足以解決一大類數學推理問題。但是,它們仍然難以解決高級問題,如 HARP 和 Omni-MATH(通用奧林匹克級別數學基準)。作者提出了以下理論來解釋這些經驗觀察結果:

圖片


預訓練語料庫中的推理數據并不代表真正的數據生成過程,尤其是復雜問題的數據生成過程,它是大量潛在推理的產物。此外,這一過程一般不會以從左到右、自回歸的方式進行。


更詳細地說,預訓練語料庫和后訓練指令微調中普遍存在的思維鏈(CoT)推理數據遵循簡單問題(如代數計算、計數、基礎幾何等)解決方案的真實數據生成過程。例如,解決高中代數問題的教科書展示了生成答案的一般過程。如果我們遵循現有教科書中呈現的一些步驟或方法,我們最終可以得出解答。因此,這些可以通過具有恒定深度的 transformer 來學習,這些 transformer 能夠表達過程中每個單獨步驟的復雜性。

相比之下,復雜推理問題并不遵循這種模式。我們可能有一組三元組(q, S, a),其中 q 是問題,S = (s_1, ..., s_n) 是解答步驟,a 是(可選的)答案,但真實的數據生成過程并非自回歸的:

圖片

z_??是解答步驟中遺漏的潛在「思考」,這些可以通過從左到右的生成來完全表示,而數據集中的解答步驟 S = (s_1, ..., s_n) 是聯合生成的。

我們可以通過將推理解釋為潛在變量過程來形式化這一論證。具體來說,經典的思維鏈(CoT)可以被看作是:

圖片

即,最終答案產生的概率是通過對潛在推理鏈的邊緣化得到的。作者主張,對于復雜問題,真實的解生成過程應該被視為:  

圖片

即,解(a,s_1, . . . , s_n)的聯合概率分布以潛在生成過程為條件。請注意,這個參數是先前的 CoT 參數的 meta-generalization,因此作者將過程 q→z_1 → . . . → z_K 稱為 Meta-CoT。

傳統 CoT 有什么問題?   

根據之前的討論,一個問題自然地浮出水面:為什么 LLM 在這些高級推理任務上失敗了?如上所述,作者提出了預訓練和指令微調語料庫由類型為(q, s_1, ..., s_n, a)的數據組成,這些數據并不包含如方程 1 所示的真實數據生成過程。這個現象很常見 —— 教科書包含高級證明,但不包含推導這些證明的完整思考過程。

很多使用傳統思維鏈的工作受此影響,但 OpenAI 的 o1 系列看起來是個例外。作者表示,他們在困難的數學問題上看到了這種差異:「標準」模型會「模仿」人類編寫的解決方案(訓練數據),而像 o1 這樣的模型則根據難度逐步使用更多的計算。它似乎遵循真正的數據生成過程,而不僅僅是最終輸出(CoT)。

圖片

圖片

用語言模型進行深思熟慮的推理 —— 搜索

上一節介紹了 Meta-CoT 過程,并指出 LLM 在高級推理任務上表現不佳的原因是訓練數據未能充分代表真實的數據生成過程,即文本語料庫中未包含(或僅包含有限數量的)Meta-CoT 數據。因此,剩下的問題是:真實的數據生成過程是什么樣的?

首先,本文主張對于許多高級推理或目標導向問題,生成(問題的解決過程)和驗證(解決方案的正確性檢驗)之間存在顯著的復雜性 gap。

其次,假設存在一個不可忽視的生成器 - 驗證器 gap,作者認為文本語料庫中呈現的挑戰性問題的解決方案是一個擴展搜索過程的結果,這個過程本身在數據中并沒有得到體現。

圖片

作者表示,事實上,在基本策略之上構建搜索能力已經一次又一次地被證明會帶來巨大的能力提升。不過,這需要更多數量級的 scale 和數據才能內化到單個模型中。

圖片

邁向 Meta-CoT 推理

為什么需要將深思熟慮的推理過程內化到一個單一模型中?作者提出了兩個主要原因:

首先是效率:通過在自回歸模型的上下文中整合搜索,可以有效地完成探索,因為模型可以訪問上下文中所有先前訪問過的節點。事實上,正如圖 14 所示,即使是高級推理模型也會執行許多語義相同的重復推理步驟。

圖片

其次是超級智能:如果一個自回歸模型能夠學會在上下文中實現搜索算法,那么額外的強化學習(RL)訓練可能使模型發現新的推理方法。這將可能使模型能夠解決在基于符號的樹搜索方法下解決以前無法解決的問題類別。

在接下來的部分,作者進一步探討了如何訓練一個模型來內化這樣一個推理系統。

作者介紹了 STaR(Self-Taught Reasoner)方法背后的核心思想,該方法用于引導中間 CoT 步驟,以及如何將類似的概念泛化到元推理策略中。

具體而言,STaR 方法引入了一種迭代 bootstrapping 方法,旨在提高 LLM 的推理能力。STaR 專注于訓練模型以生成和完善推理過程,特別是對于需要復雜推理的任務,其采用了基于強化學習的方式來進行。

之后作者將 STaR 的思路擴展到 Meta-CoT。

通過搜索合成 Meta-CoT

本文探索了兩種用于生成合成訓練數據的主要搜索算法:蒙特卡洛樹搜索 (MCTS) 和 A* 變體。

蒙特卡洛樹搜索如下:

圖片

與圖 12 中由蒙特卡洛樹搜索(MCTS)產生的路徑相比,A* 搜索具有更少的回溯步驟,主要集中在關鍵步驟上。

圖片

過程監督

搜索方法的一個關鍵組成部分是評估函數??(q, S_??),它對推理鏈中的中間狀態進行評分。這些評估函數被廣泛稱為過程獎勵模型(Process Reward Models,簡稱 PRM)。通過整合過程監督,搜索機制獲得了在遇到次優路徑時回溯到早期有前景狀態的靈活性,從而實現了更有效的探索。然而,如何有效地獲取這些能力仍然是一個未解決的問題。

作者概述了構建此類過程指導模型的策略:

  • 學習過程獎勵模型;
  • PRM 質量及其對搜索的影響;
  • 可驗證問題與開放式問題。

在論文第 6 章,作者從元學習和元強化學習的角度對推理問題和 Meta-CoT 進行解釋。

在前面章節中,作者通過計算復雜性和生成器 - 驗證器 gap 的范例來激發上下文搜索的需求。在本節中,作者建立了一個替代公式,以幫助形式化強化學習訓練的實證結果。

作者假設獎勵函數??(S, q) → {0, 1} 是提示 q 的確定性(但先驗未知)函數,它只接受特定的解決方案集。在新的提示下進行測試時,這會產生獎勵函數的認知不確定性,即我們事先不知道該任務(提示問題)的完整接受或拒絕的解決方案集。

在接下來的第 7 章,作者提出了一種基于搜索的高級推理理論,以及一些早期的實證研究結果。作者建議遵循現代后訓練的整體結構,包括指令微調和強化學習訓練。感興趣的讀者,可以查看原論文了解更多內容。

總結

本文引入了 Meta-CoT 框架,用于理解和增強大型語言模型(LLMs)的推理能力。作者認為傳統的思維鏈并不能完全代表推理問題背后的數據生成過程。通過融入搜索、驗證和迭代優化的概念,Meta-CoT 為高級問題解決所需的認知過程提供了一個更完整的模型。

Meta-CoT 是實現大型語言模型更強大、更具泛化性推理能力的一種有前景的途徑。當前最先進模型的表現,以及在上下文探索和回溯方面的實驗,都支持了內部搜索過程對于復雜任務表現至關重要的假設。此外,本文提出的訓練流程為開發具有增強 Meta-CoT 能力的大型語言模型提供了一種具體的方法。

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-27 12:03:11

2025-10-15 00:00:00

2025-07-03 01:45:00

LLMCoT思維鏈

2024-07-15 00:30:00

MetaAI 模型大語言模型

2024-09-23 09:40:00

AI數學模型

2025-08-13 10:21:50

2024-12-12 09:00:00

2024-12-19 09:48:07

2025-08-29 09:09:00

AI模型數據

2024-09-20 15:35:33

2009-12-02 15:44:00

Visual Stud

2024-11-12 13:40:00

2025-02-24 08:30:00

視覺模型訓練

2022-06-13 10:43:11

谷歌模型學者

2025-04-07 07:30:00

模型AI訓練

2025-01-20 13:08:25

2025-05-21 09:02:20

2025-11-14 08:37:14

2025-06-30 08:49:00

2025-03-05 04:00:00

點贊
收藏

51CTO技術棧公眾號

欧美一级一级性生活免费录像| 国产精品免费观看视频| 久久久久久免费精品| wwwxx日本| 激情开心成人网| 亚洲欧美激情在线| 免费一区二区三区| 国产日产亚洲系列最新| 制服诱惑一区二区| 久久视频国产精品免费视频在线| 尤物网站在线观看| 亚洲精品三区| 日韩欧美999| 伊人网在线免费| 黄色片视频在线观看| 国产精品一区一区| 国产91九色视频| 久久午夜无码鲁丝片| av亚洲免费| 日韩电影在线观看中文字幕 | 国产亚洲成av人片在线观看 | 欧洲亚洲精品久久久久| 天天综合色天天综合| 国产免费色视频| 国产视频福利在线| av网站免费线看精品| 97人摸人人澡人人人超一碰| 成人黄色三级视频| 国产精品亚洲产品| 久久久人成影片一区二区三区观看| 农村老熟妇乱子伦视频| 亚洲电影男人天堂| 日韩国产一区三区| 亚洲麻豆一区二区三区| 免费精品一区| 制服丝袜成人动漫| 在线免费av播放| 日韩中文在线播放| 九热爱视频精品视频| 日韩电影免费一区| 欧美孕妇性xx| 日本三级午夜理伦三级三| 91av精品| 久久国产精品久久久久久久久久| 男人的天堂av网| jiujiure精品视频播放| 精品亚洲一区二区三区在线播放 | 久久婷婷成人综合色| 成人免费视频观看视频| 国产美女无遮挡永久免费| 美国一区二区三区在线播放 | 国产精品调教视频| 日韩欧美一二三四区| 亚洲综合中文网| 亚洲一区二区三区在线免费| 欧美一卡2卡三卡4卡5免费| 久久精品视频在线观看免费| 亚洲免费一区| 欧美一区午夜精品| 伊人av在线播放| 白白在线精品| 亚洲精品国产综合区久久久久久久 | 日韩欧美一区二区三区四区五区 | 不卡av日日日| 日本天堂中文字幕| 欧美午夜一区二区福利视频| 欧美激情欧美激情在线五月| 国产乡下妇女做爰毛片| 99热这里只有精品8| 欧日韩在线观看| 国产一级精品毛片| 狠狠狠色丁香婷婷综合久久五月| 成人写真视频福利网| 午夜精品久久久久久久第一页按摩 | 在线观看91视频| 性猛交ⅹ×××乱大交| 成人豆花视频| 亚洲成人黄色网| 91精品人妻一区二区| 欧美艳星介绍134位艳星| 精品国产一区二区三区四区在线观看 | 婷婷视频在线| 亚洲乱码中文字幕| 欧美成人免费在线观看视频| 成人免费无遮挡| 欧美日韩精品二区第二页| 中文字幕第六页| 亚洲精品亚洲人成在线观看| 最近2019中文字幕大全第二页 | 亚洲大片在线观看| 黄色av免费在线播放| 国产精品一区二区三区www| 亚洲国产精品高清久久久| 性欧美一区二区| 欧美日韩精品| 国产精品视频成人| 神马午夜一区二区| 国产精品久久看| 日韩a∨精品日韩在线观看| 日本欧美韩国| 亚洲国模精品一区| 永久av免费网站| 国产亚洲成人一区| 亚洲综合小说区| 国产系列电影在线播放网址| 亚洲无线码一区二区三区| 污视频免费在线观看网站| 国产精品白浆| 久久视频在线观看免费| 黄色av一区二区| 成人高清视频在线观看| 美国av在线播放| 免费成人美女女| 精品成人免费观看| 久久久久久视频| 秋霞午夜av一区二区三区| 国内精品视频免费| www.在线视频| 欧美日产国产精品| 久久亚洲AV无码专区成人国产| 影音先锋中文字幕一区| 92国产精品视频| 午夜在线免费观看视频| 一本色道久久综合精品竹菊| www.美色吧.com| 91成人免费| 国产日韩中文字幕| 成人免费在线电影| 色综合一个色综合亚洲| 成人免费毛片日本片视频| 欧美日韩国产探花| 99影视tv| 2021国产在线| 日韩午夜三级在线| www.5588.com毛片| 国产一区二区电影| 91视频成人免费| 国产精品xnxxcom| 久久精品视频一| 亚洲无码精品在线播放| 国产精品久久免费看| 中文字幕网av| 97精品国产福利一区二区三区| 国产精品免费网站| av资源在线观看免费高清| 在线亚洲高清视频| 人妻精品久久久久中文| 日韩精彩视频在线观看| 日韩视频在线观看国产| 成人做爰免费视频免费看| 国产一区二区三区精品久久久| 亚洲精品中文字幕乱码三区91| xfplay精品久久| 亚洲乱码中文字幕久久孕妇黑人| 日韩影视在线观看| 国产www精品| 女人天堂在线| 欧美三级电影在线观看| 亚洲精品国产精品乱码在线观看| 久久精品久久精品| 91视频成人免费| 免费成人三级| 国产999在线| 久久精品视频免费看| 欧美一卡二卡三卡| 日韩熟女精品一区二区三区| 91免费在线视频观看| 亚洲黄色a v| 久久伦理在线| 俄罗斯精品一区二区| 人人草在线视频| 宅男66日本亚洲欧美视频| 91亚洲国产成人久久精品麻豆| 亚洲久草在线视频| 中文在线一区二区三区| 免费成人美女在线观看.| 亚洲欧美一二三| 成人爽a毛片| 国产精品igao视频| 在线观看操人| 亚洲欧洲免费视频| 国产乱码久久久久| 五月婷婷欧美视频| 亚洲女同二女同志奶水| 成人免费毛片嘿嘿连载视频| 男人操女人免费| 国产精品久久久久无码av| 国产区一区二区| 九九热这里有精品| 国语对白做受69| 日本高清中文字幕在线| 日韩午夜激情视频| 最近日韩免费视频| 亚洲国产成人高清精品| ass极品国模人体欣赏| 成人爽a毛片一区二区免费| 不卡av免费在线| 影院欧美亚洲| 国产成人精品免费看在线播放| 欧美91在线| 99电影网电视剧在线观看| 亚洲伦乱视频| 69久久夜色精品国产7777 | 欧美激情第三页| 超碰国产在线观看| 亚洲国产精品字幕| 国产精品爽爽久久| 色8久久精品久久久久久蜜| 欧美精品一区二区蜜桃| 国产精品美女久久久久久久久| 国产乱了高清露脸对白| 国产成人在线观看| 日本肉体xxxx裸体xxx免费| 亚洲美女少妇无套啪啪呻吟| 成人在线观看www| 欧洲杯什么时候开赛| 免费试看一区| 欧美丝袜足交| 99久久一区三区四区免费| 日本国产一区| 国产精品露脸av在线| 范冰冰一级做a爰片久久毛片| 欧美精品xxx| 性网站在线观看| 日韩在线观看高清| 成人在线免费看| 亚洲欧洲在线观看| 欧洲伦理片一区 二区 三区| 日韩av中文在线| 俄罗斯嫩小性bbwbbw| 欧美一级片在线| 国产免费高清视频| 欧美日韩高清不卡| 亚洲性在线观看| 欧美人xxxx| 国产精品久久免费| 欧美久久久一区| 亚洲综合视频在线播放| 欧美少妇性性性| 波多野结衣绝顶大高潮| 日本丰满少妇一区二区三区| 潘金莲一级淫片aaaaaa播放| 欧美视频在线观看免费| 国产微拍精品一区| 欧美日韩综合视频网址| 91精品国产高清一区二区三密臀| 福利一区福利二区微拍刺激| 黄色大片网站在线观看| 欧美色视频日本高清在线观看| 欧美精品韩国精品| 色av综合在线| 在线观看国产精品视频| 欧美日韩一区二区在线观看视频| 中文字幕人妻互换av久久| 欧美日韩中文字幕精品| 一区二区三区精| 91精品国产91久久久久久一区二区 | 香蕉成人app免费看片| 九九热精品在线| caoprom在线| 欧美在线免费看| 成人在线免费av| 91免费看国产| 给我免费播放日韩视频| 久久国产精品 国产精品| 竹菊久久久久久久| 亚洲精品日韩在线观看| 欧美成人嫩草网站| 国产黄视频在线| 蜜臀av国产精品久久久久| 日韩不卡的av| 91色.com| 男人的午夜天堂| 亚洲成人免费观看| 国产成人无码专区| 欧美一区二区三区系列电影| 欧美一区二区三区激情| 亚洲欧美制服另类日韩| 黄色网页在线看| 性欧美激情精品| 91亚洲视频| 国产成人精品免费视频大全最热| 自拍偷拍精品| 最新黄色av网站| 小嫩嫩精品导航| 91丝袜超薄交口足| 26uuu国产电影一区二区| 国产极品美女在线| 欧美日韩一区二区免费在线观看| 中国黄色一级视频| 精品久久国产老人久久综合| 黄色片在线免费观看| 欧美另类69精品久久久久9999| 不卡av影片| 99在线影院| 国产欧美日韩精品一区二区免费| 青青草免费在线视频观看| 亚洲一区二区动漫| 超碰91在线播放| 日本一区二区三级电影在线观看 | 日本暖暖在线视频| 91黄色8090| 欧美黄视频在线观看| 欧洲av一区| 一区视频在线看| 91精品999| 久久精品免视看| 日本三级欧美三级| 欧美一区二区视频网站| 国产51人人成人人人人爽色哟哟 | 亚洲天堂久久av| 国产网红在线观看| 国产日产亚洲精品| 国产免费播放一区二区| 免费无码不卡视频在线观看| 国产乱对白刺激视频不卡| 国产三级短视频| 富二代精品短视频| 天天干天天摸天天操| 欧美人与物videos| 高清国产一区二区三区四区五区| 蜜桃91精品入口| aa级大片欧美三级| 蜜臀视频在线观看| 亚洲精品国产精华液| 91麻豆国产在线| 中文日韩电影网站| 日本久久免费| 久久久久久高清| 一区二区日韩免费看| 国产一级黄色录像| 亚洲国产欧美在线| 黄色av小说在线观看| 欧美成人午夜激情| 免费观看亚洲天堂| 大陆极品少妇内射aaaaaa| 国产一区二区精品久久| 在线观看黄网址| 91精品国产综合久久久久久漫画| 欧洲日本在线| 成人h猎奇视频网站| 日韩情爱电影在线观看| 亚洲天堂2018av| 国产精品国产a级| 亚洲性生活大片| 久久视频在线免费观看| 免费观看性欧美大片无片| 欧美黄色免费网址| 成人午夜碰碰视频| 亚洲精品www久久久久久| 亚洲精品久久久久中文字幕欢迎你 | 日本又骚又刺激的视频在线观看| 91av国产在线| 国产欧美日韩精品一区二区三区 | 中文字幕+乱码+中文乱码91| 中文字幕成人精品久久不卡 | 三级欧美在线一区| 免费观看a级片| 在线成人免费视频| 亚洲综合影视| 韩国精品一区二区三区六区色诱| 国产亚洲一级| 亚洲成人黄色av| 欧美日韩免费观看一区三区| 免费a级在线播放| 国产高清精品一区二区三区| 国产视频一区三区| 手机毛片在线观看| 欧美一级国产精品| 国产精品一二三产区| 日韩国产一区久久| 国精产品一区一区三区mba视频| 久久亚洲AV无码| 亚洲人成电影在线播放| 日本午夜免费一区二区| 97在线免费视频观看| 99久久久久久| 夜夜骚av一区二区三区| 欧美激情xxxx性bbbb| 国产调教一区二区三区| 8x8x成人免费视频| 亚洲国产aⅴ成人精品无吗| 九色在线播放| 亚洲综合av影视| 免费日韩一区二区| 久草视频手机在线| 亚洲精选一区二区| 精品国产不卡一区二区| 免费高清在线观看免费| 136国产福利精品导航| 色就是色亚洲色图| 亚洲free性xxxx护士hd| 亚洲制服少妇| 免费在线一级片| 国产香蕉97碰碰久久人人| 日韩高清一区| 欧美成人黄色网址| 亚洲成va人在线观看| 免费黄网在线观看| 蜜桃成人在线|