精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福大學CS25:大語言模型推理(Reasoning)

發布于 2025-6-4 06:52
瀏覽
0收藏

?核心觀點

1. 大語言模型推理的定義

常規觀點:大語言模型(LLM)的推理被視為類似人類的高級能力,定義模糊,常引發爭論。  

Zhou的觀點:推理爭論因缺乏明確定義而無意義;Zhou將推理定義為輸入與輸出之間的中間Token(推理步驟),僅是模型輸出的可預測行為,而非神秘過程。

2. 預訓練模型的推理能力

常規觀點:預訓練模型需通過思維鏈(CoT)提示或微調才能具備推理能力。  

Zhou的觀點:預訓練模型已具備推理能力,推理路徑存在于輸出空間中;問題在于解碼方式,例如通過探索更多候選而非貪心解碼即可挖掘推理,無需額外提示或微調。

3. 思維鏈提示的作用

常規觀點:思維鏈提示通過教模型逐步思考來啟用或增強推理能力。  

Zhou的觀點:思維鏈提示不增加推理能力,而是重塑輸出分布,將已存在的含推理步驟的響應提升至首位,使貪心解碼可直接選擇,屬于解碼優化而非能力增強。

4. 機器生成數據優于人類數據

常規觀點:人類標注數據是微調模型的最佳選擇,尤其適用于復雜推理任務。  

Zhou的觀點:在迭代微調中,機器生成的數據優于人類數據,因其分布更貼近訓練目標,直接優化輸出質量(如數學問題的正確性),符合機器學習第一原理。

5. 推理擴展的方向

常規觀點:提升推理能力主要靠擴大模型規模(如參數數量)。  

Zhou的觀點:理論表明,固定大小的Transformer模型通過生成足夠長的思維鏈(中間Token)即可解決布爾電路問題,擴展推理步驟長度而非模型規模是關鍵方向。

6. 自一致性的適用條件

常規觀點:自一致性(Self-Consistency)是一種通用技術,通過多次采樣并選擇最常見答案提升模型可靠性。  

Zhou的觀點:自一致性僅在模型生成中間推理步驟時有用,通過對推理路徑的概率邊緣化選擇最可能答案;若直接輸出答案,只需查看模型概率,無需自一致性。

7. 推理無需依賴搜索

常規觀點:推理任務(如數學或邏輯問題)依賴類似經典AI的窮舉搜索。  

Zhou的觀點:LLM推理從Token到Token的預測中涌現,無需顯式搜索;學習是可擴展的核心,搜索僅作為輔助工具而非推理本質。

8. 迭代微調的局限性

常規觀點:迭代微調是提升推理能力的通用方法,適用于大多數任務。  

Zhou的觀點:迭代微調依賴自動驗證器,僅適用于可驗證任務(如數學),對不可自動驗證的任務(如創意寫作)效果有限,限制其通用性。

9. 驗證器的重要性

常規觀點:強化學習算法(如PPO)是提升推理能力的關鍵技術。  

Zhou的觀點:驗證器是迭代微調和AI訓練的核心,遠超復雜算法的重要性;可靠驗證器決定數據質量和模型性能,是AI成功的基石。

10. AGI時間表的懷疑

常規觀點:AI社區普遍樂觀,認為通用人工智能(AGI)可能在2-5年內實現。  

Zhou的觀點:Zhou對AGI在短期內實現的說法持懷疑態度,認為當前方法有顯著局限,真正的挑戰是避免研究停滯而非過快達到AGI。

大語言模型推理(Reasoning)的定義


斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

很高興看到大家已經認為LLM很強大。你們可能會好奇,我對LLM是否能推理的看法是什么?我的答案是:這取決于推理(reasoning)的定義。今天我們將圍繞一個具體的推理定義展開討論。我從不參與關于LLM能否推理的爭論,因為沒有明確的推理定義,這些討論毫無意義。在LLM推理中,我們特指輸入與輸出之間的中間Token(intermediate tokens),這些Token被稱為推理或中間步驟。

這個概念并不新鮮。早在2017年,Deman發表了一篇論文,探討如何利用中間Token解決數學問題。當時,學術界對AlphaGo和AlphaZero的熱情高漲,但這篇論文極具開創性。如果你還沒讀過,我強烈推薦一讀。他們引入了自然語言來解決數學問題,而當時文獻中普遍采用符號方法或搜索。這在神經符號(neurosymbolic)研究中也很常見,通常使用中間過程來解決推理問題。

舉個例子說明LLM推理的用法。當我在Google Brain創立推理團隊時,我設計了一個任務:Last Letter Concatenation(末字母拼接)。這個任務作為激勵示例,可以用Transformer模型解決。例如,輸入“artificial intelligence”,輸出是將每個單詞末字母拼接的結果。如果沒有推理過程,模型可能直接輸出“LE”。但若有推理過程,模型會輸出:“‘artificial’的末字母是L,‘intelligence’的末字母是E,拼接L和E得到LE。”這里高亮的文本就是推理(reasoning),這就是我所說的推理。

如果你熟悉程序合成或神經符號推理,這個任務設計并不意外。我也嘗試過其他方案,比如拼接首字母,但所有大型模型都能輕松解決,因為網上有大量首字母拼接的例子,模型早已學會。但當我改為末字母拼接時,所有模型都失敗了。很多人會說:“這很自然,我們需要中間步驟,就像人類一樣。”如今LLM看似與人類很像,但作為研究者,我們要牢記:LLM只是預測模型(predictive models),不是人類。保持這個認知有助于理解許多新技術。

推理的理論基礎

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

為什么中間Token或推理重要?我們與斯坦福的Tima教授及其學生合作開展了理論研究。研究表明,對于任何可以用大小為\( T \)的布爾電路解決的問題,固定大小的Transformer模型通過生成\( O(T) \)個中間Token即可解決。這是一個強有力的結果。這里的“大小”指邏輯門的數量。例如,若使用GPU集群,\( T \)可能達到百萬、十億甚至萬億。如果直接生成最終答案,模型要么需要極深的網絡,要么根本無法解決問題。這就是我們從理論角度理解推理的依據,后續我會再回到這個理論論點。

解碼與思維鏈推理

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

有一種普遍觀點認為,預訓練模型(pre-trained models)若不經過CoT提示(Chain-of-Thought prompting)或微調(fine-tuning),無法進行推理。過去,大家熱衷于討論微調。這種觀點正確嗎?你們同意嗎?我認為這是錯誤的,非常錯誤。預訓練模型已經具備推理能力,我們需要的只是解碼(decoding),僅與解碼過程相關,無論那些技術看起來多么復雜。

舉個例子:我有三個蘋果,我爸比我多兩個蘋果,我們總共有多少個蘋果?如果你用預訓練模型(如LLaMA、DeepSeek或Chinchilla,我沒試過這些模型),輸入這個問題,模型很可能會輸出“5個蘋果”。顯然,這個答案是錯的。這是因為默認使用了貪心解碼(greedy decoding),問題出在解碼方式上。

如果查看第一個Token的第二候選(因為詞匯表很大),繼續解碼,你會看到:“我有三個蘋果,我爸比我多兩個蘋果,所以他有五個蘋果,3 + 5 = 8。”完美,對吧?我們只需探索更多候選。另一個選擇是第一個Token的第三候選“we”,解碼后得到:“我們總共有八個蘋果。”這也正確。第四候選可能是“you”,繼續解碼,依然能看到正確的CoT推理,最終答案正確。第五候選可能是“five”,那是錯誤的。

可以看到,推理路徑(reasoning path)已經存在于輸出空間(output space)中。特別是,第二和第四個回應基于CoT推理。問題在于如何選擇最佳回應。你可能認為可以根據輸出長度選擇,因為包含推理Token的輸出更長。但我們有更好的方法:根據答案置信度(answer confidence)選擇。置信度指模型預測Token的概率。對于包含CoT推理的回應,最終答案Token的置信度遠高于其他。例如,對于“8”這個Token,模型置信度接近98%,這在巨大詞匯表中非常高,通常每個Token的概率幾乎為零。

這個過程稱為Chain-of-Thought Decoding(思維鏈解碼),包含兩步:  

1. 超越貪心解碼,檢查更多生成候選;  

2. 選擇最終答案置信度最高的候選。

CoT解碼方法簡單,但仍需編程實現。聽說過去大家只想用自然語言,不寫代碼。當然,你們是例外。所以我們想:能否重塑模型的輸出分布,讓深思熟慮的回應自然排在首位?如果CoT回應排在首位,貪心解碼就能自然找到它。

思維鏈提示

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

現在來看CoT提示(Chain-of-Thought prompting)。如果你了解CoT提示,就能明白其工作原理。這是一個簡單方法。給定一個問題,你可能用一個相似問題作為示例,放在問題前,模型就會神奇地模仿推理風格,生成逐步解決方案。現在可以理解CoT提示為何有效:它改變輸出分布,將輸出空間中原有的CoT解決方案推到首位。

還有更簡單的方法:“Let's Think Step by Step”(讓我們一步步思考)。這在推理研究中是個驚艷的工作。論文發布時,我以為是玩笑,怎么可能?當時Google Brain團隊開發了PaLM模型,我在PaLM上試了這個方法。我知道PaLM的構建過程,絕對與這個“魔法”無關。但結果它竟然有效,我非常震驚。這篇論文極大啟發了我的推理研究。

這些提示方法簡單,且確實有效,但也有缺陷。CoT提示需要特定任務的示例,我對此不太滿意。如果我知道相似問題,我自己就能解決,為什么還要問別人?“Let's Think Step by Step”更通用,無需找相似示例,只需說“讓我們一步步思考”,魔法就出現了。但遺憾的是,其表現比少樣本提示(few-shot prompting)差得多。兩種方法看起來都不錯,但如果我問問題還得說“請一步步思考”,否則對方不會思考,這不符合預期。

監督微調

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

如何解決?一種流行方法是監督微調(Supervised Fine-Tuning, SFT)。思路簡單:收集一組問題及其人類標注的逐步解決方案,然后最大化人類解決方案的似然(likelihood)。對于LLM訓練,這只是最大化似然,之后模型可廣泛應用。

我提到2017年的Deman論文,他們正是這樣做的:收集數學字面問題及人類標注的逐步解決方案,訓練序列模型解決數學問題。2021年,OpenAI進一步擴展此方法,構建了更大的數據集GSM8K(小學數學問題),用它微調GPT-3模型。

舉例說明:可以用Last Letter Concatenation或蘋果數學問題作為訓練數據微調模型,然后用新問題測試,如“草莓里有多少小時?”我特意選這個問題,因為社交媒體上很多人認為這是測試AGI是否到來的好問題。

SFT是個通用的方法,一旦訓練好模型,就能廣泛應用。如果這能解決推理問題,我的講座到此結束——收集更多斯坦福的優秀示例,訓練模型即可。但實際上,SFT泛化能力不佳。2021年夏天,我們發現SFT在推理任務上表現不佳。怎么辦?擴展,擴展,再擴展——獲取更多數據訓練模型,看效果如何。教訓是:不要盲目擴展。一旦范式錯誤,無論如何擴展,都無效。

迭代微調與自我改進

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

如何解決SFT的泛化失敗?看看SFT流程:僅兩步。問題出在哪?出在人類數據上。如果你之前不知道,會很驚訝。如果人類數據有問題,Scale AI怎么賺錢?我團隊的一員發明了迭代微調(Iterative Fine-Tuning)。他告訴我,機器生成的數據可能比人類數據更適合訓練,我一開始非常驚訝。

首個嘗試稱為Self-Improve(自我改進)。不再從人類收集數據,而是讓模型生成數據。收集一組問題,讓模型生成逐步解決方案,然后最大化正確答案的似然。對于數學問題,你可能知道最終答案,但不知道逐步解決方案。模型生成解決方案后,檢查答案正確性:正確則選用,錯誤則丟棄。然后用此數據集微調模型,與SFT類似,唯一區別是數據來自模型而非人類。

這一方法由Eric、Tony和Noah提出,論文名為STAR,非常出色。STAR論文最初考慮用此方法節省標注成本,因為人類標注成本高。但后來我們從不同角度理解:一旦訓練數據由更優模型生成,模型就能自我改進。改進后,再次收集數據,重復此過程。這就是迭代微調。

我列了一篇2024年1月由BAAI研究者發表的論文,標題為“Reasoning with Reinforced Fine-Tuning”,這是我注意到的最早學術出版的迭代微調研究。在OpenAI流行后,大家開始公開討論迭代微調。我相信多家機構獨立發現了這個簡單但非常有效的想法。

在這個訓練循環中,驗證器(verifier)至關重要,用于判斷哪個回應正確。因為我們知道最終答案,只需用它選擇正確的推理路徑。可靠的驗證器是迭代微調的核心,而非算法。我知道很多人討論不同的算法,如PPO或強化學習的各種變體。如果有人發現顯著優于其他的方法,請告訴我,我可能錯過了什么。我很喜歡Richard Sutton的說法:“驗證:AI的關鍵”(Verification: The Key to AI),這是他2021年的文章標題。

為什么用模型生成的數據而非人類數據?不僅僅是為了節省成本,而是為了性能。有人有想法嗎?  

觀眾:是CoT結構的連貫性,還是人類解決問題方式的多樣性?  

Denny Zhou:模型生成的數據分布更接近訓練目標,訓練更有效。這與機器學習的第一原理相關:直接優化我們想要的目標。

推理優化的數學原理

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

若要構建推理或生成有趣內容的模型,需優化衡量生成質量的指標。指標因任務而異,例如數學問題的正確性、機器翻譯的BLEU分數或生成質量。有了指標,計算其梯度并進行反向傳播。數學上,我們定義一個函數\( R \),給定問題和模型參數\( \theta \),衡量回應質量。\( R \)可以是正確率、BLEU分數或任何目標。然后計算梯度,最大化指標的期望值。

為此,需通過采樣計算期望,這就是策略梯度(policy gradient)的由來。如果你理解數學原理,就沒啥神秘的。有人說要激勵模型思考或推理,我不用這些詞,我用標準的機器學習術語:定義指標,計算梯度,反向傳播。

一旦找到有效路徑,就需擴展方法。有趣的是,對于這種微調方法,我們擴展輸出長度或CoT長度。也可以擴展模型深度,因為分析表明,只要CoT足夠長,模型幾乎能解決所有可計算問題。這很驚人——無需擴展模型大小,只需最小固定大小的Transformer模型。

類人推理的涌現

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

我想強調LLM推理的美妙之處:類人推理過程從Token到Token的預測中涌現,而非依賴經典AI的窮舉搜索。Garry Kasparov在1997年輸給Deep Blue后說:“Deep Blue的智能就像程序化的鬧鐘。”我同意,但LLM推理不同,我們不做顯式搜索。講座前,有人引用了我的推文,說搜索已無關緊要,我很高興聽到這個。實際上,我用了你的代碼,發現搜索仍有用途。

舉個例子說明LLM推理與經典AI的區別。2024年12月,Google發布Gemini 2.0 Thinking Mode(思考模式)。雖然2.5 Pro更強大,但我選這個模型有原因。模型發布后,我試了一個2025年的數學問題,確保不在訓練集中:“用1到10的數字組成2025,每個數字用一次,僅用加法和乘法。”可以用Python寫窮舉搜索程序得到結果。看看模型的思考過程。

Gemini模型支持查看思考過程,非常有趣。一開始,模型說:“2025是個大數,暗示乘法占主導。”這很像人類思維。它注意到2025是45的平方(45 × 45)。我設計問題時沒意識到這點,這是重要線索。模型開始思考如何用乘法得到接近2025平方根(45)的大中間結果。思考過程很長,這正是我們微調時使用長CoT的原因。最終,模型給出答案:“(10 × 4 + 5) = 45,45 × 45 = 2025。”太棒了,無需任何搜索。

還有一篇關于CoT提示的論文,提到Game 24問題。這個問題比Game 24難得多。他們結合搜索和提示解決,但現在完全不需要,模型僅用自然語言就能解決Game 24。這就是迭代微調的強大之處。

我想再次引用Richard Sutton:“基于已有發現構建,只會讓發現過程更難看到。”他在加入Google DeepMind,看到AlphaGo和AlphaZero的成功后說,只有學習和搜索是可擴展的。但我強調:學習是可擴展的,我們只需學習。

迭代微調的局限性

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

迭代微調的巨大優勢是泛化能力強,但僅適用于可自動驗證的任務,因為訓練循環需要驗證器,無法納入人類驗證。并非所有任務都可自動驗證。有人能舉例說明不可驗證的任務嗎?  

觀眾:創意寫作。  

Denny Zhou:很好的例子。這是當前微調的重大限制。我知道很多人致力于改進RL算法。我希望看到更多研究解決不可驗證任務,如創意寫作或編碼。有人說AI幾年內會解決編碼問題,但我認為很具挑戰性。他們說的是競技編程,不是日常編程。我們關心設計、可讀性和協作,而不僅是最終答案。

自一致性與聚合

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

所有想法始于CoT解碼:推理路徑已存在于輸出空間,我們只需重塑輸出分布,讓貪心解碼找到它。然后討論了CoT提示和“Let's Think Step by Step”,它們重塑輸出分布,接著是SFT和迭代微調,非常強大。但我們仍有改進空間。

我想談兩個關鍵思路:聚合(aggregation)和檢索(retrieval)。我們看到LLM很強大,但生成推理Token然后輸出最終答案的解碼范式有問題。看起來很自然,對吧?給定問題,生成中間Token,然后是最終答案。有人看到問題嗎?  

觀眾:挑戰在于模型預測下一個Token的方式,導致結果與預期不一致。  

Denny Zhou:模型最初設計僅為預測下一個Token。我們要記住,LLM是預測模型,不是人類。

數學上,LLM解碼做什么?給定問題,生成推理,然后最終答案,通過貪心解碼找到回應。貪心解碼意味著最大化概率。但我們需選擇最自信的答案,二者不一致。簡單的條件概率數學很有用,理解解碼過程。我們可以修復:生成推理路徑后,需對所有推理路徑求和,計算最終答案的概率。這在機器學習中稱為邊緣化(marginalization),推理路徑本質上是隱變量。

這啟發了自一致性(self-consistency)方法:通過隨機采樣生成多個回應,選擇出現最頻繁的答案。例如,數學問題采樣多次,第一個回應可能是“18”,第二個“26”,再次“18”,選擇最頻繁的。這正是概率邊緣化的實現。我們不看推理路徑,只選最頻繁的答案,而非最頻繁的推理路徑,這是關鍵。

實證上,自一致性顯著提升性能。在GSM8K問題上,微調的GPT-3模型準確率33%,OpenAI用驗證器達到55%。PaLM模型加CoT得到58%,與驗證器相當。但應用自一致性后,準確率躍升至75%,相對提升近50%。PaLM 2甚至達到92%。o1模型(去年10月發布)通過聚合得到66.4%,自一致性仍有顯著提升。

采樣更多回應成本更高,但這是推理時擴展(inference-time scaling)的一種方式。推理時擴展有很多方式,如延長CoT也增加推理時間。有人說推理時擴展,我得知道具體擴展什么。自一致性顯然是一種擴展方式。

自一致性天然自校準(self-calibrated)。一致性越高,準確率越高。在GSM8K上,自一致性超80%時,準確率接近100%。關心預測不確定性或置信度的人可以多次采樣。

確保大家理解自一致性的關鍵:  

1. 當LLM不生成中間步驟直接輸出答案時,我們多次采樣,選擇最常見答案。有人有想法嗎?  

觀眾:可以直接獲取概率。  

Denny Zhou:對,就像經典機器學習,用邏輯回歸得到\( P(y|x) \),最大化概率。這就是傳統機器學習文獻中看不到自一致性的原因,它沒必要,僅對推理有用。

2. 可否改自一致性,讓LLM生成多個回應而非多次采樣,然后選最常見答案?可以試試。這稱為最大邊緣推理(maximum marginal inference),選擇概率最大的最終答案。數學是我們所需的一切。

自一致性有個問題:假設答案是單個Token。對于一般問題,答案可能不同。我們擴展為Universal Self-Consistency。例如,某問題第二個回應是“日本、中國、印度”,因這些國家在其他答案中出現最多,被選為最一致回應。

推理中的檢索

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

另一個方法是檢索。關于推理的爭論很多,有人說:“或許只是檢索,而非推理。”我在社交媒體上看到這些爭論。對我來說,區分檢索和推理很難。主持會議時,我們討論每篇論文的新穎性,與檢索-推理爭論類似。

觀眾:我試過并行運行不同模型,如Gemini 2.5,四個模型同時回答同一問題,然后用驗證器找最一致結果。  

Denny Zhou:對,這更像集成模型(ensemble model),類似隨機森林。數學原理與自一致性不同,但實現類似。好觀點。

我不關心檢索與推理的爭論。我在工業界,只關心性能。對我來說,檢索加推理最好,何必爭論?2024年我們發表了關于類比推理(analogical reasoning)的論文。舉個小例子說明檢索在推理中的重要性:“求一個正方形四頂點的面積……”我加了提示:“回憶一個相關問題,然后解決這個問題。”當時我試了GPT-3.5和我們自己的模型,都失敗了。加了提示后,模型解決了。它找到相關問題——計算坐標平面兩點間的距離,然后用公式計算距離和面積。

另一個例子是物理問題的Step-Back(回退)。解決前,給予少樣本示例,指導模型回退,考慮更抽象的問題,獲取原理,然后解決。這就是檢索在推理中的作用。現在大家知道Deep Research(深度研究),原理相同。我們有Gemini Deep Research,OpenAI也有。OpenAI的Deep Research負責人是我之前的實習生,博士畢業后加入OpenAI,發明了Deep Research。基本思路簡單:找到相似問題或知識解決問題。

總結與未來方向

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

別糾結LLM能否推理的爭論。有推理總比沒推理好。迭代微調優于SFT。聚合多個答案優于單一答案,盡管成本更高。檢索加推理優于單獨推理。

未來突破,我想看到如何解決非唯一可驗證答案的任務。過去,我也希望看到人們構建真實應用,而非僅解決基準測試。我認為所有基準測試很快會飽和。你們對AGI或構建熱情高漲,我想引用Richard Feynman:“真相總是比你想的更簡單。”這在研究中尤其正確。我看到很多學術論文試圖復雜化,所以我盡量讓講座簡單——確實很簡單。就這樣。

斯坦福大學CS25:大語言模型推理(Reasoning)-AI.x社區

問答環節

觀眾:你提到置信度,通常是取輸出Token序列的平均對數概率。你認為有更好的方法嗎?這對幻覺(hallucination)是好指標嗎?  

Denny Zhou:我說的置信度是指生成條件的概率。可以查看模型的log probs,看到概率。從實證觀察,推理路徑后,最終答案的置信度大幅提升。

觀眾:你提到Richard Sutton說擴展學習和搜索,但你認為擴展學習就夠了。能否展開為什么搜索不那么必要?  

Denny Zhou:我得更具體。構建模型時,不必考慮搜索。模型建成后,搜索可作為工具使用的一種特例,如CoT提示整合符號搜索。對于推理研究,我關心基本能力。模型可寫Python程序用搜索解決問題,但推理過程無需搜索。

觀眾:若無推理,你說無需采樣,因為可查看logits。但如果最可能的下一個Token導致分布擴散,而較不可能的Token導致更尖銳分布,采樣不會收斂于不同分布嗎?  

Denny Zhou:好問題。我們仍不清楚訓練中分布如何重塑,很不明確。很難回答,因為我們對最終分布缺乏好的解釋。

觀眾:如何區分推理和答案?需要從最終輸出字符串提取數字嗎?如果答案是程序怎么辦?  

Denny Zhou:好問題。如果答案是程序,提取更難。所以人們用微調解決數學或競技編程問題。對于一般情況,需為最終答案寫小心解析器。如果問題很具挑戰,低置信度答案可能是正確的,自一致性不完美。

觀眾:考慮到AGI可能在2-5年內到來,若90%工作自動化,你會培養孩子哪些技能讓他們生存?  

Denny Zhou:大問題。誰說AGI五年內到來?去年ICLR有人問AI風險,我說最可怕的是我回不去丟了工作。當前方法有很多限制。我真想看到AI研究的真正殺手級應用。AI模型擅長編程,是編碼的好助手,但我只知道這些。

本文轉載自????Andy730????,作者:常華?

收藏
回復
舉報
回復
相關推薦
成人激情四射网| 久久久久99人妻一区二区三区| 玖玖综合伊人| 奇米四色…亚洲| 欧美成人精品激情在线观看 | 精品人妻在线播放| 一区二区美女| 91精品在线观看入口| 日本欧美视频在线观看| 成年人在线观看视频| 国产精品1区2区| 欧美孕妇性xx| 欧美黑人性猛交xxx| 日韩av资源网| 91精品午夜视频| 久草资源站在线观看| 日韩一二三区不卡在线视频| 国产精品100| 日韩精品首页| 日韩av一卡二卡| 三级黄色片免费观看| 日韩高清在线| 亚洲大片在线观看| 樱空桃在线播放| 深夜福利视频在线观看| 国产电影一区在线| 国产精品中文在线| 羞羞影院体验区| 欧美另类女人| www.欧美精品| 少妇太紧太爽又黄又硬又爽小说| 国语一区二区三区| 欧美一区日本一区韩国一区| 波多野结衣作品集| videos性欧美另类高清| 亚洲一区av在线| 免费观看黄色大片| 永久免费av在线| 国产女人18水真多18精品一级做 | 肥臀熟女一区二区三区| 蜜桃一区二区三区在线观看| 日韩美女免费观看| 黄色在线免费观看| 日韩午夜电影| 欧美猛男性生活免费| 人人爽人人爽人人片| 国产精品亲子伦av一区二区三区| 日本韩国精品一区二区在线观看| 日韩精品视频在线观看视频 | 在线视频不卡一区二区| 国产福利视频网站| wwwav网站| 首页国产欧美久久| 2021国产精品视频| 国产在线拍揄自揄拍| 91精品秘密在线观看| 夜夜嗨av一区二区三区免费区| 性高潮久久久久久| 亚洲视频资源| 欧美区视频在线观看| 亚洲中文字幕久久精品无码喷水| xxx.xxx欧美| 亚洲一区自拍偷拍| av久久久久久| caoporn免费在线视频| 国产精品久久久久久一区二区三区 | 久久爱av电影| 男人天堂av网| 成人avav影音| 国产伦精品一区| 国产精品久久久久精| 奇米影视在线99精品| 欧洲成人免费视频| www.com国产| 久久黄色网页| 国产成人av在线播放| 亚洲国产成人精品女人久久| 亚洲制服少妇| 热99精品里视频精品| 亚洲天堂av片| 久久精品亚洲| 国产成人精品网站| 中文字幕免费高清在线观看| 久久99精品国产麻豆婷婷洗澡| 成人福利在线视频| 亚洲av无码乱码国产精品| 国产精品一卡二| 国产精品自拍首页| 熟妇高潮一区二区三区| 久久一夜天堂av一区二区三区| 欧美日韩精品久久| 成年人在线视频| 成人免费在线播放视频| 欧美日韩午夜爽爽| 美女搞黄视频在线观看| 高跟丝袜欧美一区| 免费看国产黄色片| 国产色99精品9i| 欧美1区2区视频| 亚洲视频在线看| 妖精视频在线观看免费| 欧美ab在线视频| 欧美亚洲国产日韩2020| 999视频在线| 国产一区二区中文字幕| 99久久久精品免费观看国产| 天天综合网在线| 国产精品三级视频| 日本老太婆做爰视频| 在线免费观看污| 色香蕉成人二区免费| 国产无遮挡猛进猛出免费软件| heyzo欧美激情| 少妇久久久久久| 日韩在线观看第一页| 精品亚洲porn| 欧美亚洲丝袜| 高清电影在线免费观看| 欧美日韩一区小说| 野外性满足hd| 伊人成人网在线看| 51国偷自产一区二区三区的来源 | 成人开心激情| 亚洲成人黄色在线| 亚洲欧美卡通动漫| 国产精品尤物| 国产成人av一区二区三区| 国产黄在线看| 午夜久久久影院| 看看黄色一级片| 日韩高清一区| 中文字幕在线日韩| 久草国产精品视频| 国产精品系列在线观看| 少妇精品久久久久久久久久| ririsao久久精品一区| 欧美日韩视频在线第一区| 国产精品无码电影| 牛牛国产精品| 国产精品视频播放| 九色在线观看视频| 亚洲图片欧美色图| 伊人影院在线观看视频| 欧美大黑bbbbbbbbb在线| 国产成人精品久久| 天天影院图片亚洲| 亚洲超丰满肉感bbw| 99久久99精品| 五月开心六月丁香综合色啪| 国产精品偷伦视频免费观看国产 | 亚洲综合电影| 亚洲国产免费av| 青春草免费视频| 极品销魂美女一区二区三区| 色噜噜一区二区| 国产高清自产拍av在线| 精品国产伦理网| 国产大片免费看| 国内欧美视频一区二区| 在线观看精品视频| 91久久青草| 久久综合电影一区| 91av久久久| 国产日韩亚洲欧美综合| 天天爽夜夜爽一区二区三区| 不卡在线一区| 国产美女精彩久久| 日本韩国在线视频爽| 欧美日韩一区在线观看| 在线观看免费黄色网址| 久久精品国产精品亚洲红杏| 一区二区免费在线视频| 国产精品视频首页| 上原亚衣av一区二区三区| 国产精品777777| 国产丝袜在线精品| 国产日韩欧美久久| 国产精品福利在线观看播放| 成人网欧美在线视频| 黄av在线免费观看| 日韩三级.com| 日韩av无码中文字幕| 91丨porny丨在线| av高清在线免费观看| 欧洲美女日日| 99高清视频有精品视频| 久九九久频精品短视频| 色综久久综合桃花网| a天堂在线视频| 亚洲一区二区综合| 欧美成人另类视频| 国产**成人网毛片九色| 50路60路老熟妇啪啪| 欧美xxav| 精品九九九九| 天然素人一区二区视频| 久久精品美女视频网站| 头脑特工队2免费完整版在线观看| 91福利视频网站| 婷婷伊人五月天| 99在线精品视频| 国产免费又粗又猛又爽| 五月精品视频| 久久亚裔精品欧美| 99er精品视频| 91精品国产99| 巨大荫蒂视频欧美另类大| 精品国产人成亚洲区| 中文字幕在线播出| 亚洲aⅴ怡春院| 亚洲国产123| kk眼镜猥琐国模调教系列一区二区| 久久黄色免费看| 欧美黄色精品| 日韩国产欧美一区| 日本免费一区二区三区视频| 911国产网站尤物在线观看| 国产婷婷视频在线| 亚洲色在线视频| 亚洲国产精彩视频| 欧美日韩一区在线观看| 欧美精品二区三区| 亚洲人成伊人成综合网小说| 泷泽萝拉在线播放| 国产福利91精品一区二区三区| 亚洲熟妇av日韩熟妇在线| 欧美激情五月| 亚洲精品9999| 伊人久久大香线蕉| 成人18视频| 亚洲欧美在线人成swag| 全亚洲最色的网站在线观看| 国产探花视频在线观看| 中文字幕九色91在线| 久草在线免费福利资源| 亚洲成人av片在线观看| 国产美女明星三级做爰| 欧美主播一区二区三区美女| 日本少妇性生活| 亚洲免费观看高清| 亚洲高潮女人毛茸茸| 91一区二区三区在线播放| 久久久久亚洲av成人网人人软件| 男女激情视频一区| 久久精品99国产| 影音先锋在线一区| 中文字幕日韩精品无码内射| 久久要要av| 亚洲资源在线网| 欧美日韩精品一区二区视频| 日韩影片在线播放| 香蕉视频一区| 精品一区二区三区国产| 国产精品2023| 国产精品区一区二区三含羞草| 看亚洲a级一级毛片| 国产日韩在线视频| 国产精成人品2018| 成人国产精品一区二区| 日韩一区二区三区四区五区| 国产精品久久久久久久久影视| 欧美电影免费观看高清完整| 青青久久aⅴ北条麻妃| 日韩伦理在线一区| 欧洲精品久久久| 波多野结依一区| 欧美专区第一页| 午夜不卡影院| 欧美影院久久久| 日本不卡1234视频| 国产v综合ⅴ日韩v欧美大片| 日韩精品三区| 国产精品丝袜一区二区三区| 欧美激情啪啪| 91成人免费在线观看| 国产美女精品视频免费播放软件| 不卡视频一区二区三区| 国产乱论精品| 久久久亚洲综合网站| 伊人久久大香线蕉综合网站| 欧洲国产精品| 国产精品不卡| 青草视频在线观看视频| 久久免费黄色| 亚洲黄色av片| jizz一区二区| 久久久久久久久久久久| 中文字幕av一区二区三区| 亚洲一区电影在线观看| 亚洲精品成人悠悠色影视| 九九视频在线免费观看| 婷婷中文字幕综合| 老熟妇一区二区三区啪啪| 91精品国产全国免费观看| 亚洲精品久久久久久久久久久久久久| 欧美精品一区二区三区在线播放| 日本免费不卡| 国产一区二区三区网站| 日韩激情av| 青青在线视频一区二区三区| 久久久加勒比| 国产福利久久精品| 精品亚洲成人| 免费看黄色a级片| 国产精品社区| 亚洲AV成人精品| 国产日韩欧美高清| 久久亚洲精品大全| 欧美色图天堂网| 国产1区在线观看| 亚洲午夜性刺激影院| 丁香花在线影院| 国产成人精品国内自产拍免费看 | 99在线国产| 九九精品久久| 中文字幕の友人北条麻妃| 久久青草久久| 中文字幕一区二区三区人妻在线视频 | 亚洲久久久久久久久久| 哥也色在线视频| 日本精品一区二区三区在线| 久久视频社区| 亚洲在线不卡| 久久综合导航| 亚洲精品乱码久久| 亚洲成av人影院在线观看网| 又污又黄的网站| 日韩激情第一页| 日本三级在线观看网站| 国产精品96久久久久久| 精品自拍偷拍| 宅男一区二区三区| 蜜臀精品一区二区三区在线观看| 第一页在线视频| 日韩一区中文字幕| 无码人妻精品一区二| 亚洲爱爱爱爱爱| 在线观看男女av免费网址| 国产在线精品成人一区二区三区| 亚洲欧洲av| 成人免费视频91| 国产91精品精华液一区二区三区 | 中日韩黄色大片| 精品区一区二区| 成人影院在线观看| 亚洲xxx自由成熟| 97精品97| 999在线观看| 国产精品美女www爽爽爽| 无码人妻精品一区二区三区蜜桃91| 欧美一级午夜免费电影| 国产cdts系列另类在线观看| 成人免费在线网址| 91精品天堂福利在线观看| 嫩草影院国产精品| 国产女人18水真多18精品一级做| 免费黄色网址在线| 亚洲人成电影网站色…| 久久人体大尺度| 美乳视频一区二区| 亚洲综合另类| www.色天使| 色婷婷国产精品综合在线观看| 黄色大片在线看| 国产精品爱久久久久久久| 精品av一区二区| 密臀av一区二区三区| 日本一区二区三区dvd视频在线| 波多野结衣黄色网址| 亚洲四色影视在线观看| 亚洲老司机网| 300部国产真实乱| 成人教育av在线| www.国产高清| 日韩精品中文字幕在线播放| 少妇精品视频一区二区免费看| 五月婷婷综合色| 激情图片小说一区| 久草视频在线资源| 亚洲国产精彩中文乱码av在线播放| 丰满诱人av在线播放| 精品午夜一区二区| 日韩av高清在线观看| 欧美福利在线视频| 日韩欧美成人一区二区| aa在线视频| 欧洲精品一区色| 麻豆精品在线观看| 超碰手机在线观看| 亚洲国产中文字幕久久网| 91精品论坛| 黄色网在线视频| 91丨九色丨黑人外教| 一区二区小视频| 欧美成人在线网站| 亚洲免费专区| 亚洲精品久久久久久宅男| 天天综合色天天| 91网页在线观看| 国产精品手机视频|