精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

僅靠邏輯題,AI數學競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini

人工智能 新聞
繼中國大模型突破硅谷圍堵后,國內團隊再放大招,揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數據進行低成本強化學習,讓 7B 小模型在邏輯推理測試中的表現超越 OpenAI o1,直逼 o3-mini-high。

本文由微軟亞洲研究院的謝天、洪毓謙、邱凱、武智融、羅翀,九坤投資高梓添、Bryan Dai、Joey Zhou,以及獨立研究員任慶楠、羅浩銘合著完成。

只刷邏輯益智題,竟能讓 AI 數學競賽水平大幅提升?

繼中國大模型突破硅谷圍堵后,國內團隊再放大招,揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數據進行低成本強化學習,讓 7B 小模型在邏輯推理測試中的表現超越 OpenAI o1,直逼 o3-mini-high。更令人驚嘆的是,在完全未見過的美國數學奧林匹克(AIME)測試中,該模型的推理性能提升了 125%!

  • 論文標題:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2502.14768
  • Github 鏈接:https://github.com/Unakar/Logic-RL

這是首個全面深入的類 R1 強化學習模型訓練動態過程分析。需要強調的是,該團隊不僅完整開源了全流程代碼,還發布了詳細的參數設置,訓練數據和設計經驗。

研究團隊開宗明義,提出要探究以下問題:

1.DeepSeek R1 所采用的 GRPO 未必就是最合適的強化學習(RL)算法?應該如何調參實現穩定訓練?由易到難的課程學習還有用嗎?

2. 從 Base 模型啟動 RL 與完全冷啟動,究竟有多大差異?哪種方式更優?

3. 訓練中,模型輸出長度常呈現近似線性增長的 Scaling Law,但這種增長速度是否等同于推理能力的提升?

4. 當模型頻繁使用 “verify” “check” 等反思性詞匯時,是否意味著其推理能力增強了?哪些 token 能可靠反映推理性能的提升?

5.RL 是真正掌握了抽象推理能力,還是僅僅依賴問題模板的死記硬背?相比傳統有監督微調(SFT),它的優勢究竟體現在哪里?

6. 推理過程中,模型時常混用中文和英文,這種語言切換現象對性能提升是否有實際幫助,甚至是否可能有害?

隨著強化學習 (RL) 訓練進行,各觀測指標變化。紅線是模型回答長度,藍線是驗證集準確率,黃色散點是兩種域外 (OOD) 的數學競賽正確率,三者均保持穩定增長趨勢:

測試時的計算量,自然而然地從數百 token,擴展到了數千 token,暗示著 RL 訓練正在鼓勵模型對思考路徑進行不斷的探索和修正。

在經過 5K 個邏輯問題的訓練后,7B 模型就發展出了一些在邏輯語料庫中原本不存在的高級推理技能 —— 如自我反思、驗證和總結能力。在沒見過的數學競賽題 (AIME/AMC)上,各自取得了 125% 和 38% 的性能提升。

方法

數據設定

常見的數學訓練集在問題難度上無明確界限,數學問題往往具有不定的邏輯深度、知識背景要求,對可控的分析實驗不友好。于是為了分析推理模型的機制,作者轉向了完全由程序合成的的「邏輯謎題」作為訓練數據。

示例問題:一個非常特殊的島嶼上只住著騎士和騙子。騎士總是說真話,騙子總是說謊。你遇到兩位島民:Zoey 和 Oliver。Zoey 說:「Oliver 不是騎士。」Oliver 說:「Oliver 是騎士且 Zoey 是騙子。」請問,誰是騎士,誰是騙子?

這個「騎士與騙子」謎題,因其合成設計和邏輯精確性而非常適合進一步分析:

1. 謎題對于模型來說都是未見過的數據,非常適合用來測試泛化能力

2. 通過改變游戲人數(2 到 8 個)和邏輯運算的深度(1 到 4 種布爾運算符的組合),可以調節難度

3. 每個謎題都有一個單一、明確的正確答案,正確性由生成算法保證。解答需要嚴格的演繹推理,因此減少了獎勵作弊的風險

4. 這消除了自然語言任務中常見的模糊性,使我們能夠清晰地區分真正的推理能力和數據表面上的記憶能力。

獎勵設計

模型起初會用作弊 (hack) 的方式來騙取獎勵分:

  • 跳過 <think></think> 過程并直接回答。
  • 將推理過程放在 <answer></answer> 標簽內。
  • 反復猜測答案而沒有適當的推理。
  • 在提供答案之外包含無關的廢話。
  • 在已經輸出一個 <answer> 后再次進入思考階段,因為推理不足。
  • 重復原始問題或使用諸如 “在此處進行思考過程” 之類的短語來避免真正的推理。

多輪迭代改進獎勵函數后,作者設計出了一種幾乎無法作弊的基于規則的獎勵系統。僅包含兩種獎勵類型:格式獎勵和答案獎勵。思考標簽應該嚴格按照順序出現,且出現次數唯一,思考過程必須包含真正的推理,答案組織要可提取且可讀。

  • 格式獎勵:按格式正確與否給 + 1 或 - 1 的獎勵。
  • 答案獎勵:答案無法被提取,獎勵為 - 2;答案部分錯誤時,獎勵為 - 1.5,答案正確時,獎勵為 + 2。

為了減少 Base 模型指令跟隨難度(遵守先思考再回答的范式),作者建議直接把 < think > 標簽手動加入 prompt 里。

實驗結果

作者經過百組對比實驗,對比了 PPO,GRPO,和 REINFORCE++。最后選擇采用性價比最好的 REINFORCE++ 算法完成主實驗。團隊遵循 DeepSeek Math 論文的建議,改動了 REINFORCE++ 算法實現,提出了兩點修正:將 KL 懲罰從 reward 計算提出,放進 loss 函數里;并且更換 KL 估計器,采用一種無偏非負的 KL 估計。

訓練方式上,作者嘗試了多組復雜調度 (例如高低溫多階段訓練),發現增益不高,由此決定采用最簡單的訓練方式:使用 4e-7 的學習率以及 0.7 的溫度一訓到底。經過 3.6K 步數的訓練之后,模型超越 OpenAI o1 2 倍,直逼 o3-mini-high 的性能。

有趣的發現與分析

「思考」token 詞頻與推理能力的關系?

作者檢查了思考相關的詞匯,在模型輸出的 < think></think > 內出現與否,對應答案的準確率:

1. 當 "wait" "verify" "yet"(稍等,驗證,然而)等等詞出現的時候,推理性能明顯更高。然而也有意想不到的情況:“recheck” 出現的時候,會導致推理分數下降,不是所有人們以為的思考詞都能漲點。recheck 可能表示模型總是舉棋不定,會更大概率犯錯。

2. 說 re-evaluate 和 reevaluate(再次評估)的行為完全不一樣。前者漲,后者跌。作者檢查了原始模型輸出,發現前者的頻次本身就很高,而后者幾乎不出現,這似乎表明模型使用自己偏好的詞能更順利地完成推理過程。

3. 語言混雜現象 (例如中英夾雜回答問題) 雖然迷人,但會削弱模型性能,增加模型犯錯的幾率。由此作者建議在格式獎勵中加入語言一致性懲罰。不僅能提高用戶的可讀性,還能潛在地增強性能。

突如其來的 Aha Moment 或許根本不存在?

作者統計了訓練過程中思考相關的各詞頻變化。RL 訓練自然地提高了與反思相關詞匯(如 verify, check)以及語氣舒緩詞(let's, yet, now that..)的頻率。

似乎不存在忽然的頓悟時刻 —— 即所謂的 Aha moment。這些思考性詞匯,在訓練的前十步就已經出現,只是頻次很低。并且在訓練過程中,這些詞語的詞頻只是緩慢增長,并不存在突然的頓悟。

SFT 依賴記憶;RL 泛化性更好

在訓練數據集上進行擾動,例如更換邏輯題里的表述(and->or/not),調換多人進行陳述的順序,使得問題答案和解答路徑發生完全改變。如果模型真的學會了題目背后的推理技能,應該在題目被擾動后還能保持相當的正答率。于是定義記憶分數 (LiMem) 為:測試集正確率 * 訓練集擾動后的出錯率。

為了獲得合理的有監督微調(SFT)思維鏈數據,作者用原模型進行 50 次拒絕采樣,挑選正確且最短的輸出作為新的 CoT 數據集。由此合理對比拒絕采樣微調(RFT)和強化學習(RL)的效率和記憶性。

SFT 是在記憶分數 (橫軸) 大幅增長的代價下,換取少量的測試集分數提高的;而 RL 幾乎不增長記憶性 (甚至出現了負增長),而縱軸上的測試集分數快速增長。

這暗示著強化學習的優越性:不依賴于數據本身的結構,用極低的數據代價就能實現高效進化,體現出超越當前數據領域的強大泛化性。

更長的思考過程是否代表了更好的推理性能?

作者在訓練過程中找到幾組反例,有力地駁斥了這種觀點。

雖然訓練動態中模型輸出長度總是自然增長,但其漲幅不能代表推理性能的同步增長。有時候模型會陷入 " 過度思考 “困境,輸出過長的思維鏈,更容易觸發長度崩壞。最有效率的思考過程,往往來自最短且正確的路徑。

故而,更長的輸出長度不是訓練過程里衡量推理性能的有效指標,只能當成自然產生的副產物看待。對測試集分數與模型輸出的觀察,是更穩妥的做法。

其它結果

除了上述結果,該研究還有幾個有趣的發現:

  • 冷啟動自有其好處,但非必需。無論是從 Base 模型還是 Instruct 模型開始,訓練動態都保持驚人的相似性。不過 SFT 后的模型往往擁有略高的準確率。
  • 對難度遞進的課程學習仍然重要。在固定的數據混合比例下,精心設計的課程學習方法總是優于隨機打亂。

更多研究細節,請參閱論文原文!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-20 19:52:50

2024-12-24 16:15:04

2025-02-08 17:00:11

2025-02-18 09:00:00

2025-10-24 12:07:12

2020-10-05 21:47:30

AI 數據人工智能

2025-01-10 11:42:40

2025-03-04 10:15:00

2025-03-13 06:34:49

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2025-06-25 08:54:03

模型訓練AI

2025-08-11 09:00:00

2024-05-09 08:33:33

2025-01-10 12:58:37

2024-05-07 09:33:03

模型手機

2025-05-26 08:52:00

2025-03-13 09:12:35

2025-02-08 11:44:03

2025-10-29 02:11:00

點贊
收藏

51CTO技術棧公眾號

狠狠v欧美v日韩v亚洲ⅴ| 国产午夜精品一区在线观看| 26uuu亚洲婷婷狠狠天堂| 日本国产精品视频| 我要看黄色一级片| 日韩高清电影免费| 欧美日本在线一区| 国产精品亚洲一区二区三区在线 | 国产精品久久久久久久妇| 亚洲三级网址| 日韩欧美国产三级电影视频| 无码精品a∨在线观看中文| 在线国产91| 成人avav在线| 亚洲一区二区免费| 国产免费www| 亚洲香蕉网站| 久久精品2019中文字幕| 男生裸体视频网站| 日韩欧美中文字幕在线视频 | 色综合导航网站| 永久免费av无码网站性色av| 国产极品模特精品一二| 欧美美女激情18p| 国产在线观看福利| 青青草原国产在线| 中文字幕在线不卡一区二区三区| 久久久国产精品一区二区三区| 国产女人18毛片18精品| 蜜臀久久99精品久久久久宅男 | 免费观看亚洲视频| 国产youjizz在线| 99re热这里只有精品视频| 1区1区3区4区产品乱码芒果精品| 波多野结衣在线观看一区| 99国产成+人+综合+亚洲欧美| 欧美另类第一页| av黄色免费在线观看| 精品免费av| 亚洲免费av网址| 欧产日产国产精品98| 警花av一区二区三区| 欧美日韩高清在线| 欧美午夜aaaaaa免费视频| 日韩影片中文字幕| 91国偷自产一区二区开放时间| 1024av视频| 精品众筹模特私拍视频| 综合精品久久久| 香蕉精品视频在线| 麻豆网站视频在线观看| 国产精品久久久久久一区二区三区 | 久久久久久久综合狠狠综合| 九九久久99| 天堂资源最新在线| 91精品国产自产在线丝袜啪| 欧美日韩aaaaaa| 在线免费黄色网| 中文成人在线| 日韩亚洲欧美在线| 女人扒开腿免费视频app| 日韩一区二区三区色| 日韩欧美国产精品一区| 亚洲色偷偷色噜噜狠狠99网| 久久精品亚洲成在人线av网址| 亚洲国产精品va在看黑人| 亚洲综合自拍网| 亚洲综合小说图片| 国产亚洲综合久久| 日韩精品一区二区三区在线视频| 亚洲国产一区二区三区在线播放| 久热精品视频在线观看一区| 久久免费播放视频| 香蕉成人久久| 国产精品一区二区久久| 国产一区二区三区三州| 国产精品一二二区| 久久精品日产第一区二区三区| 天天综合天天色| 日本一区二区成人| 国产精品对白一区二区三区| 天堂国产一区二区三区| 国产亚洲福利社区一区| 午夜探花在线观看| 欧洲一区精品| 欧美久久久久免费| 国产69视频在线观看| 免费精品国产| 蜜臀久久99精品久久久无需会员| 日韩 欧美 精品| 日韩电影免费在线观看网站| 国产欧美一区二区三区久久人妖| 精品人妻无码一区二区三区蜜桃一 | xxxxwww一片| 中文字幕亚洲影视| 久久中文精品视频| 国产精品视频免费播放| 精品在线视频一区| 精品一卡二卡三卡四卡日本乱码| av片在线看| 亚洲成在人线免费| 天天爽夜夜爽一区二区三区 | 日韩视频精品| 污视频在线免费观看网站| 91国偷自产一区二区三区成为亚洲经典 | 午夜影院在线看| 久久99精品久久久久久久久久久久| 国产精品中出一区二区三区| av在线资源站| 亚洲一区二区三区美女| 欧美三级午夜理伦三级富婆| 婷婷五月色综合香五月| 久久久精品久久久久| 最近免费中文字幕大全免费版视频| 国产剧情在线观看一区二区| 先锋影音日韩| 26uuu亚洲电影| 欧美mv日韩mv亚洲| 天天鲁一鲁摸一摸爽一爽| 影音先锋在线一区| 亚洲永久免费观看| 98在线视频| 色婷婷av一区二区三区软件| 国产精品扒开腿做爽爽爽a片唱戏| 亚洲精品小说| 国产日韩换脸av一区在线观看| 九色网友自拍视频手机在线| 午夜精品爽啪视频| 69xxx免费视频| 亚洲欧美文学| 亚洲专区国产精品| 看黄网站在线| 国产精品电影一区二区| 免费黄色福利视频| 婷婷综合一区| 日本久久久久久久| 涩涩视频在线观看免费| 婷婷国产在线综合| 永久免费未满蜜桃| 在线看片一区| 黄色小网站91| 女人高潮被爽到呻吟在线观看| 精品人伦一区二区色婷婷| 欧美日韩精品一区二区三区视频播放| 卡一卡二国产精品| 亚洲一区二区三区加勒比| 色猫猫成人app| 中文字幕久热精品视频在线| 亚洲精品国产欧美在线观看| 久久色中文字幕| 少妇人妻互换不带套| 日韩高清在线免费观看| 欧美亚洲成人网| 日本福利片高清在线观看| 欧美日韩亚洲视频| 性高潮久久久久久久| 日韩国产一区二| 亚洲精品中字| avtt久久| 久久久久久久久久国产精品| 亚洲国产精品suv| 亚洲福利视频三区| 久久久亚洲av波多野结衣| 米奇777在线欧美播放| 亚洲精美视频| 国产视频一区二| 国语自产精品视频在线看| 天堂av在线7| 欧美中文字幕亚洲一区二区va在线| 日本人亚洲人jjzzjjz| 国产一区二区三区久久悠悠色av| 老司机午夜免费福利视频| 97久久综合区小说区图片区| 欧美最猛性xxxxx免费| 国产视频二区在线观看| 91精品国产综合久久精品麻豆| 免费无遮挡无码永久在线观看视频| av成人免费在线观看| 黄色在线视频网| 狠狠综合久久| 秋霞毛片久久久久久久久| 亚洲男人在线| 91成人国产在线观看| 在线免费观看的av网站| 欧美精品一区二区蜜臀亚洲| 无码人妻精品一区二区三区不卡 | 免费视频一二三区| 久久久久久久久伊人| 在线视频日韩欧美| 国产精品美女久久久| 不卡中文字幕在线| 私拍精品福利视频在线一区| 成人黄色在线播放| 黄色在线网站噜噜噜| 在线播放日韩欧美| 黄色福利在线观看| 欧美色涩在线第一页| 日本在线视频免费| 国产精品久99| 9.1成人看片| 国产精品99久久久久久宅男| 无码人妻丰满熟妇区五十路百度| 亚洲天堂免费| 水蜜桃亚洲一二三四在线| 亚洲精品a区| 国产欧亚日韩视频| 成人免费无遮挡| 欧美激情区在线播放| 在线免费观看的av网站| 亚洲毛片在线免费观看| www.黄色一片| 欧美人xxxx| 日韩熟女一区二区| 天涯成人国产亚洲精品一区av| 国精品无码一区二区三区| 国产三级久久久| 国产男女猛烈无遮挡a片漫画 | 亚洲精品女人| 国产一级大片免费看| 99久久夜色精品国产亚洲1000部| 鲁丝一区二区三区免费| 成人h动漫精品一区二区器材| 成人精品视频99在线观看免费| 极品美女一区| 欧美孕妇与黑人孕交| 不卡一本毛片| 精品自拍视频在线观看| 日本www在线| 中文字幕欧美日韩| 成人在线免费观看| 国产亚洲欧洲高清一区| 色综合888| 日韩av综合网| 天天摸天天碰天天爽天天弄| 精品国产一区二区三区av性色| 精品人妻一区二区三区蜜桃 | 色婷婷av一区二区三区之红樱桃 | 亚洲一级Av无码毛片久久精品| 国产一区二区三区综合| 91 视频免费观看| 久久99精品久久久久久国产越南 | 亚洲中文字幕一区二区| 欧美亚洲禁片免费| 中文字幕1区2区3区| 欧美三级蜜桃2在线观看| 国产精品成人久久久| 欧美影院一区二区| 亚洲一区二区三区网站| 欧美精品 日韩| 国产三级伦理片| 日韩欧美亚洲一区二区| 亚洲成熟女性毛茸茸| 欧美不卡一区二区| 特级丰满少妇一级aaaa爱毛片| 日韩电影中文字幕在线| 国产三级视频在线播放线观看| 亚洲网站在线播放| 在线免费黄色| 久久91精品国产91久久久| 免费在线播放电影| 国产91精品久| 懂色aⅴ精品一区二区三区| 国产精品揄拍500视频| 欧美videos粗暴| 99中文视频在线| 欧美三级午夜理伦三级在线观看 | 99精品国产福利在线观看免费 | 国产一区二区久久精品| 97人人在线| 欧美精品在线免费播放| 国内激情视频在线观看| 国产成人免费av电影| 97色婷婷成人综合在线观看| 国产高清在线精品一区二区三区| 欧美大胆视频| 亚洲欧洲三级| 好吊一区二区三区| 少妇高清精品毛片在线视频| 麻豆精品久久久| 野战少妇38p| 欧美国产综合色视频| 国产极品国产极品| 精品免费在线视频| 国产一区二区自拍视频| 亚洲成人999| av在线首页| 欧美国产日韩二区| yiren22亚洲综合| 国产精品对白一区二区三区| 精品高清在线| 成人免费在线视频播放| 日日欢夜夜爽一区| 日韩高清一二三区| 亚洲国产成人私人影院tom| 永久免费看黄网站| 91久久香蕉国产日韩欧美9色| 国产免费黄色大片| 亚洲视频国产视频| 欧美6一10sex性hd| 国产精品免费久久久| 成人激情自拍| 自拍视频一区二区三区| 亚洲在线国产日韩欧美| 特黄特色免费视频| 国产精品久久久久永久免费观看 | 日韩欧美一区在线| 国产露出视频在线观看| 久久久亚洲网站| 中文字幕日本一区| 日本精品一区| 亚洲一区二区三区免费在线观看| 欧美一级特黄aaa| 亚洲国产高清aⅴ视频| 亚洲另类欧美日韩| 欧美变态口味重另类| 免费黄色在线| 国产精品黄色影片导航在线观看| 欧美a一欧美| 青草青青在线视频| 国产成人综合网站| 精品无码一区二区三区蜜臀| 欧洲一区二区av| 日韩大片b站免费观看直播| 高清欧美一区二区三区| 一区二区三区在线免费看| 二级片在线观看| 六月丁香婷婷色狠狠久久| 一色道久久88加勒比一| 一本大道久久a久久精品综合| 狠狠躁夜夜躁av无码中文幕| 久久成年人免费电影| 电影一区中文字幕| 日本丰满少妇黄大片在线观看| 久久99精品视频| 精品国产国产综合精品| 欧美精品日韩综合在线| 日本高清视频在线观看| 国产一区二区丝袜高跟鞋图片| 成人中文视频| 亚洲欧美日韩综合网| 国产精品污www在线观看| 国产乡下妇女三片| 一区二区三区黄色| 99久久婷婷国产综合精品首页| 日韩精品一区二区三区四区五区 | 99国产精品久久久久老师| 这里只有精品在线| 国产xxx在线观看 | 亚洲成人av网址| 国产一区二区三区欧美| 97人人做人人爽香蕉精品| 水蜜桃亚洲精品| 国产一区二区不卡| 久久久久久久久久久久久久久久久 | 一区二区三区四区日韩| 99视频在线观看视频| 一区二区三区精密机械公司| 亚洲精品国产手机| 97香蕉久久超级碰碰高清版| 自拍自偷一区二区三区| 波多野结衣天堂| 亚洲少妇30p| 亚洲国产精品无码久久| 91精品国产91久久久久久不卡 | 国产亚洲综合在线| 国产成人精品日本亚洲11| 日韩精品免费一区二区在线观看 | 欧美va在线观看| 亚洲v国产v| 国产一区三区三区| 成人午夜视频精品一区| 亚洲日本欧美中文幕| 欧美男男gaygay1069| 青草网在线观看| 久久久久久亚洲综合影院红桃 | 麻豆精品一区二区综合av| 青草草在线视频| 亚洲男人天堂网| 亚洲伦理网站| 狠狠干 狠狠操| 国产精品午夜电影| 亚洲欧美另类综合| 国产成人短视频| 欧美1级日本1级| 美女爆乳18禁www久久久久久| 91麻豆精品91久久久久久清纯| 538在线视频| 亚洲永久激情精品| www.亚洲色图.com| 亚洲一区二区视频在线播放| 久久久久久久av| 日韩中文在线电影| 最近中文字幕无免费| 欧美精品在线观看播放| 忘忧草在线日韩www影院| 在线视频91| 久久天堂av综合合色蜜桃网 | 精品亚洲一区二区| 亚洲aⅴ网站| 91看片就是不一样|