精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

We-Math 2.0:全新多模態數學推理數據集 × 首個綜合數學知識體系

人工智能 新聞
隨著 Vision-R1 、MM-Eureka 等工作將強化學習引入多模態推理,數學推理也得到了一定提升。然而,在邏輯性與知識系統性要求極高的數學任務中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。

本文作者來自北京郵電大學、騰訊微信、清華大學。共同第一作者為北京郵電大學博士生喬潤祺與碩士生譚秋納,其共同完成的代表性工作 We-Math 于 ACL 2025 發表,并曾在 CVPR、ACL、ICLR、AAAI、ACM MM 等多個頂會中有論文發表。本文的通訊作者為博士生導師張洪剛與微信視覺技術中心李琛,We-Math 系列工作為喬潤祺在微信實習期間完成。

  • 論文標題:We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
  • 論文鏈接:https://arxiv.org/abs/2508.10433
  • 主頁鏈接:https://we-math2.github.io/
  • 代碼鏈接:https://github.com/We-Math/We-Math2.0
  • 數據集鏈接:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard

近期,多模態大模型在圖像問答與視覺理解等任務中進展迅速。隨著 Vision-R1 、MM-Eureka 等工作將強化學習引入多模態推理,數學推理也得到了一定提升。然而,在邏輯性與知識系統性要求極高的數學任務中,模型仍然達不到像人類一樣進行嚴密推理的水平,這一問題仍然是開放性難題。

對此,我們仍然認為理想的學習范式應該是讓模型先掌握所需的知識,再進一步提升泛化能力。基于這一思考,我們提出了 We-Math2.0:

1. MathBook Knowledge System:我們首先搭建了一個系統性、完整、相對正交的知識體系:包含 5 個層級,491 個知識點與 1819 個知識原理,覆蓋了小學、初中、高中以及部分大學及競賽的知識。

2. MathBook-Standard:基于知識體系,我們發現開源數據集存在無法完整覆蓋、知識無法完成解構等問題,對此我們選擇對每個知識體系進行手動構建題目、畫圖,并結合一題多圖、一圖多題兩種思想,實現每個知識原理對應包含多個問題。

3. MathBook-Pro:我們希望進一步構造一個以模型為中心的數據空間來提升泛化能力。基于 MathBook-Standard 與知識體系,我們通過題目所需知識點數量、視覺復雜度、場景復雜度等三個維度對題目難度進行延展,將一條訓練數據拓展為 8 個不同難度的樣本。

4. 訓練策略:基于所構建的數據集,我們首先通過 1000 條數據進行 SFT 冷啟動微調,旨在改變模型的輸出范式,進一步首先利用 MathBook-Standard 的數據,構建了均值獎勵,旨在通過以知識原理為單位對模型進行獎懲。在此基礎上,我們利用 MathBook-Pro 的數據,構建了動態調度訓練(知識調度與模態調度)從而提升模型的泛化能力。

5. MathBookEval: 為了進一步評測模型在全面知識與推理深度層面的能力,我們提出了包含 1000 條樣本的 MathBookEval

為了實現嚴謹、高質量、具備高復雜度的圖像數據,我們的全部數據均為手動利用 Geogebra 專業化軟件新渲染而成,我們希望先通過手動構造高精度的數據來驗證這一思想的可行性。

目前不僅在 X 上收獲了一定的關注度,并且榮登 Huggingface Paper 日榜第一名!

We-Math 2.0

知識體系(MathBook knowledge system)

我們按照「定義 — 定理 — 應用」的思想構建了包含 5 個層級、491 個知識點、1819 個知識原理的知識體系,確保數學概念之間的層次關系與邏輯關聯得到清晰呈現,知識點之間、知識原理之間盡可能相互獨立。

具體而言,每個知識點均對應若干條基本原理。例如,在「三角形的面積」這一知識點下,細分為「三角形面積的基本公式」、「海倫公式」、「三角函數法面積公式」等不同的知識原理。

做法層面:一方面由人類專家基于教材、維基百科和國家課程標準設計初始結構;另一方面,收集開源數據集通過 GPT-4o 進行初步打標,并通過層次聚類生成知識體系。最終,由專家對兩者進行融合與修改,形成高質量的知識體系。

可以在我們的網站當中看到可視化的知識體系。

MathBook-Standard:雙向數據擴展策略

MathBook-Standard 采用「一題多圖」和「一圖多題」的雙向數據擴展策略,每道題目都標注了對應的多層級知識點,并嚴格覆蓋所提出的 1819 個數學知識原理。

具體而言,「一題多圖」是為同一道題生成不同的視覺變式,例如,一個關于三角形的種子問題可以通過改變角度生成不同類型的三角形圖像(如銳角、直角、鈍角三角形),從而提升模型在同一知識原理下的泛化能力;「一圖多題」則由專家基于同一圖像設計多個針對不同知識原理的新問題,全面考察不同的數學知識。

  • 數據集:https://huggingface.co/datasets/We-Math/We-Math2.0-Standard

MathBook-Pro

聚焦以模型為中心的學習路徑,MathBook-Pro 首次實現了針對多模態數學題目的三維難度建模。具體來說,我們從以下三個維度對每個種子問題進行難度擴展:

  • 推理步驟復雜度:通過增加題目涵蓋的知識點數量(不少于 6 個),系統性提升題目的邏輯難度。
  • 視覺復雜度:在保持核心幾何結構不變的基礎上,利用 GeoGebra 增加輔助元素或調整幾何配置,逐步增強圖像的視覺難度。
  • 語境復雜度:將問題描述從簡明的數學敘述拓展到更為復雜的現實或抽象情境,提升模型對語義和語境的理解能力。

每道種子題目可在這三大維度內擴展為 7 個難度層級,為后續的動態調度和強化學習訓練提供堅實基礎,助力模型實現更穩健的泛化能力。

  • 數據集:https://huggingface.co/datasets/We-Math/We-Math2.0-Pro)

訓練策略

SFT 冷啟動

首先,我們精選了 1,000 條涵蓋全部知識原理的數據,通過監督微調(SFT)實現模型冷啟動,讓模型初步掌握知識導向的推理鏈,激發潛力。隨后,我們采用 GRPO 算法進行兩階段漸進式強化學習:

預對齊強化學習

基于 MathBook-Standard,在每組包含相同知識原理的問題中,采用均值獎勵計算。對于一組變體題目:

獎勵計算為:

具體而言,平均獎勵不僅聚焦于單個問題,還反映了模型對同一知識原理下所有問題掌握情況,從而提供更全面的評價。

動態調度學習

基于 MathBook-Pro,動態調度策略能夠根據模型的錯誤類型,智能地調整訓練數據。MathBook-Pro 為每個種子問題構建了一系列難度逐漸增加的變體,如下所示:

其中,s,v,c 分別表示在推理步驟、視覺和語境上的復雜度增量,這就為每個種子題目形成了一條從基礎推理到高級推理的漸進路徑,基于此展開的增量學習機制如下:

  • 知識增量調度:對于從 ,若模型在上表現不佳,那么會先在 上進行訓練,其中包含多個針對新增知識點所設計的單知識原理問題。
  • 模態增量調度:當從 或  時,如果模型無法解決后者,則調度學習對應的  或 ,該集合包含專門聚焦新增視覺復雜或語境抽象部分的訓練樣本。

實驗結果

主要結果

  • 較 Baseline 有穩定提升:我們基于 Qwen2.5-VL-7B 開發了 MathBook-7B,并在四個主流數學推理測試集(MathVista、MathVision、MathVerse、We-Math)上進行了評估。結果顯示,MathBook-7B 的平均性能較 Qwen2.5-VL-7B 提升超過 5%。
  • 優異的知識泛化能力:在 MathVista 和 We-Math 測試集上,MathBook-7B 展現出優異的知識泛化能力,能夠高效解決多領域的復雜多步問題及其子問題,性能超過了其他強化學習方法的基線模型。
  • 用相對較少的數據解鎖較大的潛力:MathBook-7B 最終用 10K 左右的數據量訓練即達到與大規模數據集同等效果,充分凸顯了高質量數據與結構化知識體系的高效性。

消融實驗分析

  • 每個模塊均有性能提升,預對齊強化學習最有效:冷啟動微調與兩階段強化學習策略均提升了模型性能。特別是預對齊強化學習后的模型在 MathVista 和 We-Math 中取得了令人印象深刻的結果,這凸顯了知識學習在增強數學推理能力方面的關鍵作用。
  • SFT 帶來的性能提升有限,但對于釋放強化學習的潛力至關重要:SFT 有效改變了模型推理范式,為后續 RL 優化提供了基礎,從而顯著提升了整體性能。(可以從后續的案例分析中看到變化)
  • SFT 人類自然的語言形式優于結構化形式:通過對 SFT 數據范式與規模進行分析,我們發現,采用自然語言形式的 CoT(Chain-of-Thought)作為 SFT 數據優于結構化推理鏈,更能激發模型靈活推理能力的提升。
  • SFT 少量數據足以釋放強化學習的潛力:擴大 SFT 數據規模并非總能帶來更好的性能 —— 在少量精心挑選的 SFT 數據上訓練的模型,其表現可與大規模數據集模型媲美,甚至更優。

實例分析

我們在附錄中提供了具體的回答案例。對比表明,通過在 SFT 階段改變了輸出范式,MathBook-7B 能夠提供更簡潔、更精準的推理過程。例如,在 MathVision 測試集上,MathBook-7B 的回答更加簡潔,平均響應長度減少,但仍保留了所有必要的知識推理步驟,解決了基線模型「過度思考」的問題。我們認為這種思路可以與構建自我思考、自我反饋的方法結合,旨在讓模型在正向推理過程中高效有效地利用知識推理。

MathBookEval 中的實驗結果

  • 知識點數量影響顯著:模型準確率與題目知識點數量呈負相關,尤其在涉及 7-10 個知識點時,大多數模型準確率低于 50%,凸顯多步推理的挑戰性,驗證了知識點數量作為難度指標的有效性。
  • 代數與幾何表現差異明顯:模型在代數題上表現較好,準確率普遍超過 50%;但在幾何題上表現較差,反映出空間推理能力的不足。

We-Math 系列工作

我們希望通過 We-Math 系列工作,以長期且持續系統性的努力,推動多模態數學推理的發展。其愿景希望讓模型像人類一樣可以依據知識解決問題,同樣也能在未來成為人類的學習助手。

具體而言,We-Math (ACL 2025) 聚焦于模型的評測,2.0 版本更加聚焦于模型的訓練,現階段我們通過手動構建高精度的知識體系與題目驗證了這一思路的有效性。

從數據集的角度看,2.0 版本更希望凸顯 MathBook-Standard 的高質量與知識覆蓋全面性而 MathBook-Pro 則更多的是傳達一個有更多可能性的思路,后續我們也會進一步依照知識體系與三維空間探索大規模自動構建的可能性。

此外,2.0 版本我們也會將全部的圖像數據與 GGB 源文件開源,我們認為這不僅會對多模態推理有所貢獻,也會對 AI for Education 有著一定的貢獻,相信在未來,知識學習會是很重要的基石。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-03-27 08:36:08

2023-12-05 13:28:00

AI模型

2012-07-27 09:25:40

2021-01-06 15:29:54

數據科學數學知識數學工具

2018-05-11 09:43:55

2024-12-02 08:30:00

2025-03-19 08:30:00

AI模型數據

2015-07-28 17:52:36

IOS知識體系

2018-03-22 19:48:47

前端HTML5數學知識

2017-08-15 17:06:55

前端HTML5手勢原理

2024-11-07 13:19:03

2021-07-27 15:40:13

計算機奧運 技術

2017-06-22 13:07:21

2012-03-08 11:13:23

企業架構

2023-12-12 13:51:00

AI訓練

2017-02-27 16:42:23

Spark識體系

2017-04-03 15:35:13

知識體系架構

2025-02-27 10:08:19

2022-10-31 09:36:47

深度學習數據集
點贊
收藏

51CTO技術棧公眾號

久久久久久久黄色| 欧美精品性生活| 日韩有码第一页| 久久激情一区| 久久久国产精品x99av| 国产一区二区福利| 日韩精品乱码av一区二区| 精品日韩欧美在线| 一级黄色香蕉视频| 亚洲男同gay网站| 久久午夜免费电影| 91亚洲va在线va天堂va国 | 亚洲天堂中文网| 欧美日韩1区| 在线观看国产精品淫| 久久久久久无码精品人妻一区二区| 一级毛片久久久| 亚洲天堂免费在线观看视频| 欧美日韩一区在线观看视频| 蜜臀久久99精品久久久| 精品一区二区三区免费毛片爱| 91精品国产乱码久久久久久蜜臀 | 午夜久久tv| 国产一区二区黄| 欧美做受高潮中文字幕| 亚洲伊人伊成久久人综合网| 色婷婷精品大视频在线蜜桃视频| 成年在线观看视频| 美女羞羞视频在线观看| 久久久三级国产网站| 国产一区二区免费电影| www.蜜臀av.com| 精品在线免费观看| 国产精品久久久久久亚洲影视| 国产成人精品av久久| 我不卡手机影院| 中文字幕亚洲欧美日韩在线不卡| 捆绑凌虐一区二区三区| 亚洲91网站| 欧美久久一区二区| 亚洲欧美自拍另类日韩| 日韩av超清在线观看| 色综合久久中文综合久久97 | 久久精品日产第一区二区| 久久久久久一区二区三区| 亚洲最大的黄色网址| 成人综合久久| 色狠狠av一区二区三区香蕉蜜桃| av黄色在线免费观看| 亚洲+变态+欧美+另类+精品| 亚洲精品福利在线观看| 久久久久成人精品无码中文字幕| 成人激情自拍| 精品国产乱码久久久久久牛牛| 国产一级二级av| 无码国模国产在线观看| 日韩精品一区二| 久久久久亚洲AV成人网人人小说| 91在线一区| 亚洲国产黄色片| 黄色av网址在线观看| 日韩精品导航| 亚洲人成在线电影| 美国黄色特级片| 91亚洲一区| 久久综合电影一区| 黄色一级免费视频| 影音先锋久久精品| 欧美中在线观看| 国产精品成人无码| 激情图片小说一区| 国产经典一区二区三区| 性插视频在线观看| 欧美极品少妇xxxxⅹ高跟鞋| 亚洲欧美日产图| 在线电影福利片| 亚洲国产精品久久久久秋霞影院 | 日韩中文视频| 欧美日韩亚洲另类| 少妇精品无码一区二区| 日韩精品在线观看av| 亚洲产国偷v产偷v自拍涩爱| 暴力调教一区二区三区| 日本一区二区精品| 羞羞的视频在线看| 欧美日韩亚洲国产一区 | 久久精品国产色蜜蜜麻豆| 亚洲一区二区在线| 午夜成人免费影院| 国产精品青草久久| av在线观看地址| 四虎4545www国产精品| 欧美一区二区在线观看| 国产三级国产精品| 婷婷综合在线| 5252色成人免费视频| 中文字幕乱码视频| 丁香桃色午夜亚洲一区二区三区| 热re99久久精品国99热蜜月| 成年人网站在线| 色综合 综合色| 中文字幕久久久久久久| 免费观看久久av| 色与欲影视天天看综合网| 97人妻一区二区精品视频| 国产精品香蕉一区二区三区| 区一区二区三区中文字幕| 欧洲一区二区三区| 精品视频资源站| 在线观看国产网站| 永久亚洲成a人片777777| 日本在线观看天堂男亚洲| 亚洲av无码乱码在线观看性色| 国产人成一区二区三区影院| 亚洲人精品午夜射精日韩| 日韩城人网站| 正在播放亚洲1区| 中文字幕亚洲高清| 国产suv精品一区二区883| 亚洲三区在线观看| 日韩pacopacomama| 亚洲电影成人av99爱色| 成人在线观看小视频| 日本特黄久久久高潮| 精品一区二区三区日本| 麻豆91在线| 欧美日韩一区在线观看| 免费看黄色的视频| 99伊人成综合| 国产麻豆日韩| 国产在线xxx| 日韩一区二区三区视频在线| 国产一级淫片久久久片a级| 亚洲欧美高清| 欧美精品人人做人人爱视频| 蜜桃视频动漫在线播放| 亚洲第一色在线| 国产亚洲精品av| 国产精品一级在线| 99热这里只有精品7| 91麻豆精品国产91久久久更新资源速度超快| 亚洲一级片在线看| 欧美国产一级片| 国产欧美视频一区二区| 91在线视频观看免费| 国产探花在线精品| 国产精品美乳一区二区免费| 国产大片在线免费观看| 欧美天堂亚洲电影院在线播放| 一区二区三区伦理片| 久久青草久久| 天堂一区二区三区| 玖玖精品在线| 久久天堂电影网| 精品国产乱码一区二区三| 亚洲美女免费视频| 日本美女视频网站| 一本久道综合久久精品| 蜜桃麻豆91| 欧美日韩激情电影| 最近2019中文字幕mv免费看| 国产精品无码久久av| 亚洲欧洲综合另类在线| 91视频在线免费| 老司机一区二区三区| 四虎一区二区| 亚洲一级大片| 91高清视频免费观看| 九色国产在线观看| 欧美精品一二三| 国产精品a成v人在线播放| 91丝袜呻吟高潮美腿白嫩在线观看| 国产天堂在线播放| 午夜精品毛片| 欧美精品久久一区二区三区| 91综合免费在线| а√天堂在线官网| 亚洲大胆人体av| 91青青草视频| 亚洲欧美日韩国产综合在线| 国产性生活毛片| 麻豆精品国产91久久久久久| 性一交一乱一伧国产女士spa| 亚洲人和日本人hd| 91老司机在线| 国模冰冰炮一区二区| 久久久精品亚洲| 日韩精品系列| 4hu四虎永久在线影院成人| 日本免费一二三区| 国产精品国产三级国产普通话三级| 亚洲午夜精品在线观看| 麻豆成人在线| 成人免费a级片| 欧美日韩中文字幕一区二区三区| 不卡一区二区三区视频| 日韩中文视频| 91精品国产色综合| 免费av在线| 日韩久久午夜影院| 亚洲AV无码成人片在线观看| 欧美性猛交xxxx黑人交| 国产在线成人精品午夜| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 亚洲国产精品中文| 国产精品污视频| 一本色道久久综合精品竹菊| 玖玖爱免费视频| 国产精品久久久久久久第一福利| 国产夫妻性爱视频| 国产精品456| 免费av不卡在线| 噜噜噜久久亚洲精品国产品小说| 国产又粗又猛又爽又黄的网站| 欧美偷拍综合| 欧美美乳视频网站在线观看| 粉嫩av一区二区| 亚洲自拍小视频| 少妇高潮一区二区三区99| 欧美在线视频播放| av电影免费在线看| 欧美久久精品一级黑人c片 | 亚洲色大成网站www久久九九| 国产精品高清无码在线观看| 成人av网址在线| 亚洲成人精品在线播放| 久久国产精品区| 亚洲另类第一页| 日本美女一区二区| www.日日操| 视频在线观看一区二区三区| 国产成人久久777777| 午夜一区不卡| 亚欧无线一线二线三线区别| 亚洲黄色精品| 日韩五码在线观看| 亚洲人成免费| 国产精品无码av在线播放| 亚洲乱码视频| 国产视频一视频二| 免费精品视频| 国产偷人视频免费| 视频一区中文字幕| 天天爽天天爽夜夜爽| 免费久久99精品国产| 国内自拍视频网| 卡一卡二国产精品| 成人黄色一级大片| 国产真实乱对白精彩久久| 国产乱码一区二区三区四区| 国产自产视频一区二区三区| 久久久久亚洲av片无码v| 国产精品白丝av| 黄色在线免费播放| 91在线视频免费观看| 老头老太做爰xxx视频| 国产欧美在线观看一区| 人人艹在线视频| 自拍偷自拍亚洲精品播放| 欧美日韩综合一区二区| 亚瑟在线精品视频| 欧美一级特黄视频| 欧美性高清videossexo| 国产亲伦免费视频播放| 日韩精品在线一区| 亚洲aaa在线观看| 最近的2019中文字幕免费一页| 麻豆tv在线| 欧美精品18videos性欧| 在线看的毛片| 国产精品一区二区三区毛片淫片 | 高h视频在线播放| 欧美成人黄色小视频| 91九色美女在线视频| 日韩美女在线播放| 国产精品一区免费在线 | 老司机免费在线视频| 欧美激情a在线| 欧美7777| 亚洲自拍偷拍色片视频| 亚洲综合图色| 一本久久a久久精品vr综合| 欧美日韩精品一本二本三本| 日日橹狠狠爱欧美超碰| 久久精品久久99精品久久| 深田咏美中文字幕| 日韩电影大全网站| 欧美日韩精品综合在线| 国产叼嘿视频在线观看| 亚洲色图av在线| 牛牛精品视频在线| 国产精品第一页在线| 日韩在线成人| 日韩在线观看电影完整版高清免费| 欧美日本一区| 小泽玛利亚视频在线观看| 9l国产精品久久久久麻豆| 久草福利资源在线| 一本色道久久综合精品竹菊| 亚洲国产日韩在线观看| 在线电影欧美日韩一区二区私密| 1区2区3区在线| 91在线观看免费高清| 亚洲小说图片| 97超碰在线人人| 精品亚洲porn| 一级在线观看视频| 午夜欧美在线一二页| av中文字幕观看| 色av中文字幕一区| 亚洲一区站长工具| 国产欧美丝袜| 欧美一区网站| 天堂中文av在线| 国产日韩欧美高清| 国产精品久久久久久99| 日韩视频一区在线观看| 日本中文字幕在线看| 国产精品久久91| 妖精视频一区二区三区| aa视频在线播放| 国产成人av一区| 真实国产乱子伦对白在线| 欧美日韩国产高清一区| 国产精品久久久久久久龚玥菲| 26uuu国产精品视频| 综合中文字幕| 成人毛片100部免费看| 国产一区二区三区免费| 久艹在线观看视频| 欧美亚洲综合色| 8888四色奇米在线观看| 日韩av电影在线播放| 亚洲日本三级| 成人羞羞国产免费网站| 久久久国产一区二区三区四区小说| 国产精品久久久久久99| 日韩经典中文字幕| 综合毛片免费视频| 日本午夜精品一区二区三区| 日精品一区二区三区| 永久免费毛片在线观看| 欧美色综合影院| www亚洲人| 国产日韩欧美日韩大片| 91成人精品| 久久发布国产伦子伦精品| 洋洋成人永久网站入口| 黄色av小说在线观看| 国产91精品久久久| 欧美日韩123| 日日噜噜夜夜狠狠| 中文字幕一区二区在线观看| 国产视频第一页| 久久久久久久久久久免费| 国偷自产av一区二区三区| 日韩av综合在线观看| 2024国产精品| 伊人久久国产精品| 免费不卡在线观看av| 国产区精品视频在线观看豆花| 欧洲黄色一级视频| 国产性做久久久久久| 91tv国产成人福利| 欧美巨乳美女视频| 香蕉久久精品| 欧美黄色性生活| 一区二区三区四区高清精品免费观看| 黑人乱码一区二区三区av| 国产91精品久久久久久久| 成人久久久久| 国产ts在线观看| 岛国av午夜精品| 欧美激情免费| 黄色99视频| 麻豆专区一区二区三区四区五区| 一区二区视频免费看| 日韩精品视频在线观看网址| 91国内外精品自在线播放| 成人在线免费高清视频| 久久婷婷国产综合国色天香| 97视频免费在线| 97精品视频在线| 久久精品国产68国产精品亚洲| 中国男女全黄大片| 在线看不卡av| 丁香花在线高清完整版视频| 日韩av在线一区二区三区| 国产电影精品久久禁18| 黄色av网站免费观看| 久久99热精品这里久久精品| 精品国产99| 午夜视频在线观看国产| 欧美日韩精品免费观看视频| 色一区二区三区| 91麻豆天美传媒在线| 国产三级一区二区三区| 天天摸夜夜添狠狠添婷婷| 成人在线免费观看视视频| 久久精品免费|