精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

賈佳亞團隊新作:10k數據讓大模型數學能力超GPT-4

人工智能 新聞
如何強化推理能力,一直是大語言模型領域的重要問題之一。

只要10k數據,就能讓大模型的數學成績增長5.6%。

港中文賈佳亞團隊推出了基于推理步驟的大模型優化策略,能夠像老師教學生一樣優化大模型。

利用這種方法,72B Qwen模型的數學成績超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一眾閉源模型。

圖片

老師在糾正學生錯誤時,不會只告訴學生最終答案錯了,還會告知具體哪個步驟錯了,以此快速糾正其錯誤。

賈佳亞團隊正是學習了這一特點,將斯坦福團隊推出的DPO(直接偏好優化)進一步細化,形成了逐步應用的策略Step-DPO

該方法讓Qwen-72B模型在多個數據集上進步明顯,同時也獲得了更強的長鏈條推理任務能力。

像教育學生一樣訓練大模型

如何強化推理能力,一直是大語言模型領域的重要問題之一。

常見的思維鏈策略通過在輸入提示詞部分添加“Let’s think step by step.”,來使模型在輸出中完成逐步推理,但對于復雜的問題,僅通過修改提示詞不足以引導模型正確解決問題。

由于復雜問題涉及的推理過程較長,有時包含數十個推理步驟,一旦其中任一步驟出錯,就難以得到正確的結果。

此外,現有方案旨在通過監督式微調(SFT)階段增加問答數據以實現更好的對齊。

然而,當SFT數據達到一定數量時,模型經常出現幻覺,性能也隨之趨于飽和。

一個潛在的原因是,隨著偏好輸出的概率上升,非偏好輸出的概率也會隨之增加。

為了抑制幻覺,提升模型的事實性,斯坦福大學提出了直接偏好優化方法,其工作原理是創建基于人類偏好對的數據集,每個偏好對都包含一個輸入提示、偏好輸出以及非偏好輸出。

然后對語言模型直接進行微調,最大限度地提高生成的可能性,并減少輸出的可能性。

因此,DPO的優化目標為:

圖片

其中πθ與πref分別表示當前微調模型以及參照模型。

但在長鏈條推理任務中,DPO無法準確判斷推理過程中的錯誤步驟,從而無法聚焦關鍵出錯步驟。

如下圖所示,基于DPO的模型在訓練過程中無法準確判斷推理步驟正確與否。

圖片

因此,作者提出了基于推理步驟的直接偏好優化——Step-DPO

圖片

就像老師在糾正學生錯誤時,不會只告訴學生最終答案錯了,還會告知具體哪個步驟錯了,以此快速糾正其錯誤。

與此類似,Step-DPO不再像DPO從整體上對比答案,而是將每個推理步驟視為一個基本單元,并且對比單個推理步驟,從更精細的角度提升模型的多步推理分析能力。

Step-DPO的優化目標為:

圖片

除此之外,作者還提出基于模型自生成的數據處理流程。如圖所示,該流程包含以下三個步驟:

圖片

第一步是錯誤收集

首先,給定一組數學問題D0=(x,y∧),其中x是數學問題,y∧是其真實答案。

然后,使用初始模型πref來得到每個數學問題x的答案。

在進行模型推理之前,需要添加思維鏈(CoT)前綴作為提示,以確保模型的推理結果被結構化為多個推理步驟,每個步驟均以“Step i:”開始。

經過模型推理可得到每個數學問題x的推理結果y,然后選擇與真實答案y∧不一致的那些結果,并匯總得到數據集D1

圖片

第二步是錯誤步驟定位

每個錯誤推理結果y都呈現為一系列推理步驟的序列y=s1,s2,…,sn,隨后需要人工或利用GPT-4驗證每個推理步驟的正確性,直到找到第一個錯誤步驟sk,并記錄其步驟編號。

然后將sk選為錯誤的推理步驟slose,從而得到D2

圖片

最后是錯誤步驟修正

為了獲得D2中每個樣本對應的正確推理步驟,需要對模型πref進行推斷,使用提示x和前面的正確推理步驟s1~k-1來采樣多個輸出ycont,此過程可以表示為:

圖片

隨后保留ycont中那些與真實答案一致的輸出,并將其中的第一個推理步驟作為swin,最終得到數據集D:

圖片

下圖展示了一個數據樣本示例。值得一提的是,該數據準備流程無需大量的人工介入,人類或GPT-4只需要判斷給定推理步驟是否正確,而無需親自撰寫答案來修正錯誤。

圖片

10k數據帶來數學能力大幅提升

Step-DPO可以在SFT模型或現有的開源Instruct模型上進行微調,僅通過10K數據以及數百個訓練步數,即可取得大幅度的數學能力提升。

如下圖所示,在Qwen2-7B-Instruct模型的基礎上進行Step-DPO可在MATH測試集上獲得5.6%準確率的提升

在Qwen2-72B-Instruct模型的基礎上進行Step-DPO,可在MATH和GSM8K測試集的準確率分別達到70.8%和94.0%,超過一系列閉源模型如Gemini-1.5-Pro、GPT-4-1106,以及Claude-3-Opus。

除此之外,在難度較高的包含數學競賽題的Odyssey-MATH榜單上也有顯著提升。

圖片

經過Step-DPO之后,模型更加魯棒,減少幻覺的產生,在推理過程中也不容易出錯。如以下兩個例子所示。

假設h(x)=f-1(x),如果h(2)=10,h(10)=1,h(1)=2,求f(f(10))。

圖片

t的平方根大于2且小于3.5,滿足這一條件的整數t有多少個?

圖片

即便是下圖這道數學競賽題,經過Step-DPO之后的模型也可以做對。

在所有非增函數f:{1,2,…,10}→{1,2,…,10}中,有些函數有固定點,另一些沒有,這兩種函數的數量相差多少?

圖片

目前,該項目的代碼,數據,模型,Demo均已公開至GitHub和Hugging Face,同時支持在線體驗。

論文地址:https://arxiv.org/abs/2406.18629
GitHub:https://github.com/dvlab-research/Step-DPO
在線Demo:http://103.170.5.190:7870/
模型(HF):https://huggingface.co/collections/xinlai/step-dpo-6682e12dfbbb2917c8161df7
數據(HF):https://huggingface.co/datasets/xinlai/Math-Step-DPO-10K

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-18 12:56:29

2023-10-04 10:38:38

模型方法

2023-05-15 15:38:59

AI模型

2024-02-04 12:22:47

AI數據

2023-08-09 17:38:47

模型AI

2024-04-15 12:54:39

2023-12-10 15:05:47

AI模型

2024-05-09 08:33:33

2024-02-07 12:39:00

AI數據

2023-10-08 13:11:00

訓練數據

2023-10-19 08:27:31

AI模型

2024-01-30 21:18:57

模型智能CMMLU

2023-10-09 12:36:08

人工智能數據

2025-01-24 14:14:35

模型框架視頻

2023-11-03 13:07:00

AI模型

2023-12-09 14:30:50

2022-05-20 10:43:30

AI模型

2024-01-30 20:08:07

谷歌GPT-4Bard

2024-04-07 13:40:20

2025-04-03 11:16:10

點贊
收藏

51CTO技術棧公眾號

韩国三级hd两男一女| 五月天在线免费视频| 四虎影院在线免费播放| 欧美r级电影| 日韩欧美国产三级| 亚洲熟女乱色一区二区三区| 夜级特黄日本大片_在线 | 黄色片网站免费在线观看| 日本不卡一二三区| 日本a级片免费观看| 国产专区在线| 国产精品自拍在线| 欧美在线视频免费播放| 性生交大片免费全黄| 国产精品18hdxxxⅹ在线| 91国偷自产一区二区三区成为亚洲经典 | 国产一级精品在线| 国产91在线播放精品91| 黄色在线观看免费| 日本一区二区免费高清| 亚洲第一网站免费视频| 人人爽人人爽av| 亚洲成a人片| 亚洲成人午夜影院| 吴梦梦av在线| 国产大学生校花援交在线播放| 国产成人av电影在线播放| 国产精品视频地址| 午夜婷婷在线观看| 亚洲毛片一区| 久久99精品久久久久久噜噜| 无码少妇精品一区二区免费动态| aaa国产精品视频| 69堂成人精品免费视频| 青青青国产在线视频| 九色porny自拍视频在线播放 | 永久久久久久| 久久精品蜜桃| 93久久精品日日躁夜夜躁欧美| 成人精品一区二区三区| 亚洲无码精品一区二区三区| 中文在线不卡| 国内伊人久久久久久网站视频| 精品无码久久久久成人漫画| 成人一区二区| 夜夜嗨av一区二区三区四区| 亚洲做受高潮无遮挡| 欧美网色网址| 亚洲精品ady| 91传媒理伦片在线观看| 亚洲精品一区二区三区在线| 欧美一区二区三区成人| 伊人免费视频二| 亚洲色图综合| 日韩一区二区三区高清免费看看| 亚洲第一区第二区第三区| 日韩深夜福利网站| 91精品啪在线观看国产60岁| 午夜啪啪小视频| 国产精品免费精品自在线观看| 制服.丝袜.亚洲.另类.中文| 亚洲高清在线不卡| 精品一区二区三区亚洲| 日韩精品最新网址| 性欧美18—19sex性高清| 国内精品国产成人国产三级粉色| 亚洲国产精品va在线| 成人在线视频免费播放| 天天操综合520| 亚洲深夜福利视频| 日本精品久久久久中文| 四季av一区二区三区免费观看| 日韩一区视频在线| 18岁成人毛片| 99国产精品久久久久久久| 人九九综合九九宗合| 国产亚洲久一区二区| 精品制服美女丁香| 91在线观看网站| 婷婷亚洲一区二区三区| 久久久国产精品麻豆| 色一情一乱一伦一区二区三区丨 | 91精品中文字幕| 国产精品影视网| 国产一区二区三区四区五区在线| 青草久久伊人| 亚洲少妇30p| av在线免费观看国产| 日韩av影片| 欧美美女视频在线观看| 免费a级片在线观看| 日韩成人影视| 亚洲精品少妇30p| 一二三四视频社区在线| 丝袜美腿诱惑一区二区三区| av成人激情| 最近2019中文字幕mv免费看| tube国产麻豆| 国产精品美女久久久浪潮软件| 国产精品wwww| 精品毛片一区二区三区| 91免费小视频| 男人的天堂成人| 性欧美xxx69hd高清| 91精品福利在线一区二区三区| 成人在线电影网站| 999国产精品视频| 91高清视频免费| 国产伦子伦对白视频| 久久夜色精品国产欧美乱极品| 亚洲综合激情五月| 亚洲一区二区三区四区| 精品国产露脸精彩对白| 美国黄色片视频| 久久久精品性| 国产伦精品一区二区三区视频免费 | 日韩经典一区二区三区| 精品自拍偷拍视频| 人人超碰91尤物精品国产| 国产区二精品视| av在线看片| 欧美日韩一本到| 公侵犯人妻一区二区三区| 精品动漫av| 亚洲free性xxxx护士hd| 日韩欧美小视频| 日本高清视频一区二区| xxxx黄色片| 亚洲网站啪啪| 999视频在线免费观看| 91porn在线观看| 日本高清视频一区二区| 亚洲成人av免费在线观看| 亚洲天堂偷拍| 电影午夜精品一区二区三区| 成人a在线视频免费观看| 欧美午夜精品久久久久久孕妇| av在线网站观看| 亚洲黄色一区| 精品久久久久久一区| 51漫画成人app入口| 精品国产伦理网| 久久精品国产亚洲av高清色欲| 国产剧情一区在线| 中文字幕免费在线不卡| 国精品产品一区| 在线观看不卡av| 欧美 亚洲 另类 激情 另类| 国产欧美精品国产国产专区| 农村妇女精品一二区| 欧美精品momsxxx| 国产精品aaa| 国产小视频在线观看| 在线欧美日韩国产| 久久久精品成人| 免费在线欧美视频| 日韩国产美国| 欧美黄色网络| 久久夜色精品国产亚洲aⅴ| 国产成a人亚洲精v品无码 | 三级黄色在线视频| 99re这里只有精品6| 亚洲1区2区3区4区| 亚洲欧洲日韩在线| 日韩成人网免费视频| 黄色正能量网站| 亚洲精品97久久中文字幕| 久久精品国产亚洲av高清色欲 | 在线观看日韩国产| 性猛交ⅹxxx富婆video| 免费成人你懂的| 男人的天堂成人| 亚洲精品97久久中文字幕无码 | 在线不卡一区二区| jizz日本在线播放| 国产精品1区2区3区| 婷婷五月综合缴情在线视频| 国产欧美日韩在线一区二区| 国产精品视频在线播放| 国产盗摄在线观看| 亚洲精品www| 91资源在线视频| 亚洲一二三四在线| 欧美成人国产精品一区二区| 精品无码三级在线观看视频| 人人妻人人做人人爽| 国产麻豆一区二区三区精品视频| 91精品国产综合久久香蕉922| 欧美另类tv| 亚洲天堂网在线观看| av中文字幕观看| 一本大道久久a久久精品综合| 国产精品18在线| 99视频一区二区三区| 依人在线免费视频| 一本久道久久综合婷婷鲸鱼| 一区二区三区四区欧美日韩| 日本国产精品| 91精品在线一区| 自拍偷拍欧美视频| 欧美日韩成人免费| 日韩伦理在线电影| 亚洲欧美日本精品| 亚洲精品福利网站| 欧美久久久久中文字幕| 亚洲免费在线观看av| 亚洲欧美激情在线| 免费观看a级片| 9色porny自拍视频一区二区| 日本77777| 日本不卡视频在线| 日本精品一区在线观看| 国产精品啊啊啊| 国产精品h视频| 国产一区二区三区四区二区| 国产精品乱子乱xxxx| av国产精品| 国产欧美va欧美va香蕉在| 秋霞伦理一区| 久久久久久久久久国产| 国产精品一区二区三区视频网站| 亚洲欧美中文字幕| 午夜在线视频观看| 精品国产不卡一区二区三区| 国产乱淫a∨片免费观看| 欧美性xxxxhd| 日产精品久久久| 午夜视频在线观看一区二区 | 欧美日韩精品久久久| 青青草免费观看视频| 亚洲成人免费看| 久久久国产精华液| 伊人婷婷欧美激情| 一级黄色录像视频| 亚洲精品欧美激情| 91麻豆免费视频网站| 国产精品久久久久久亚洲毛片| 五月天综合视频| 久久女同性恋中文字幕| 中文字幕在线播放视频| 成人动漫视频在线| 精品国产aⅴ一区二区三区东京热| 国产在线不卡一区| 亚洲欧美日韩网站| 国产精品亚洲人在线观看| 中文字幕日韩综合| 激情偷乱视频一区二区三区| 91看片破解版| 国产毛片精品视频| aaaaa黄色片| 成人毛片视频在线观看| 亚洲欧美综合视频| www.亚洲精品| 插吧插吧综合网| 国产欧美日韩在线| 免费看的黄色录像| 亚洲免费色视频| 久一区二区三区| 精品久久久久久久久久久| 久久黄色精品视频| 欧美午夜精品电影| 草逼视频免费看| 亚洲国产精品推荐| 国产专区在线| 久久久国产在线视频| 黄色在线看片| 欧美最顶级的aⅴ艳星| 成人免费av电影| 91在线高清免费观看| 国产乱人伦丫前精品视频| 免费av一区二区三区| 国产高清一区| 国产3p露脸普通话对白| 日本少妇一区二区| 中文字幕在线国产| 国产日本一区二区| caoporn91| 偷拍与自拍一区| 中文在线观看av| 日韩精品自拍偷拍| yiren22亚洲综合伊人22| 久久中文字幕在线| 三妻四妾的电影电视剧在线观看| 精品亚洲男同gayvideo网站| 中国黄色a级片| 国产亚洲短视频| 欧美黑人精品一区二区不卡| 欧美日韩国产一区二区| 免费黄色片视频| 欧美一区二区三区免费| 青青草在线免费观看| 久久久极品av| 成人黄色免费短视频| 亚洲综合国产精品| 国产精选一区| 欧美日韩一道本| 激情国产一区二区 | 国产日韩欧美麻豆| 久久久综合久久久| 欧美精品三级在线观看| 日韩精品123| 九色91av视频| 欧美美女被草| 日本不卡一区二区三区视频| 国产精品a久久久久| 免费看污污网站| 99re热视频精品| 极品盗摄国产盗摄合集| 欧美性感一类影片在线播放| 天天操天天爱天天干| 美女精品久久久| 福利一区视频| 欧美精品欧美精品| 亚洲最黄网站| 亚洲图片欧美另类| 亚洲男人天堂一区| 亚洲系列在线观看| 亚洲午夜精品视频| 国模冰冰炮一区二区| 国产在线精品一区二区三区》| 亚洲草久电影| 五月天激情视频在线观看| 久久久精品国产免大香伊| 黄色大片网站在线观看| 亚洲成人a级网| 国产在线xxx| www日韩av| 欧美日韩ab| 女人扒开双腿让男人捅| 亚洲精品精品亚洲| 国产欧美久久久精品免费| 色诱女教师一区二区三区| 亚洲国产尤物| 日韩欧美三级电影| 日韩精品欧美精品| 四虎国产精品成人免费入口| 日本韩国一区二区三区视频| 极品白浆推特女神在线观看 | 欧美精品在线看| 精品国产一级| 女人床在线观看| 丁香婷婷综合网| 日韩精品一区二区在线播放| 精品99久久久久久| 激情国产在线| 久久久精品动漫| 久久久久久穴| 日本午夜精品视频| 欧美日韩电影在线播放| 国产原厂视频在线观看| 亚洲最大av网| 黄色日韩精品| 熟女少妇一区二区三区| 日本韩国视频一区二区| 91社区在线| 91观看网站| 禁久久精品乱码| 欧美色图亚洲激情 | www.中文字幕| 久久久久久国产精品久久| 欧美精品中文| 一区二区三区国产免费| 国产精品久久久久影院亚瑟| 国产又大又黄的视频| 九九视频直播综合网| 日本久久成人网| 人人干人人干人人| 亚洲精品精品亚洲| 青梅竹马是消防员在线| 成人深夜直播免费观看| 亚洲福利免费| 91社区视频在线观看| 日韩亚洲欧美成人一区| 国产在线观看www| 亚洲一区二区在线看| 处破女av一区二区| 精品视频一二三区| 欧美大尺度在线观看| 久操成人av| 欧美日韩一区二区区别是什么| 精品女厕一区二区三区| 1pondo在线播放免费| 丁香婷婷久久久综合精品国产 | 黄网动漫久久久| 在线免费av网站| 国产精品9999久久久久仙踪林| 日韩专区在线视频| 中文字幕av免费在线观看| 亚洲精品网站在线播放gif| 欧洲美女精品免费观看视频| www.日本在线播放| 亚洲国产精品av| 污污的视频网站在线观看| 国产欧美亚洲精品| 亚洲精品美女91| 日本精品人妻无码77777| 亚洲性av在线| 红杏视频成人| 色姑娘综合天天| 91福利精品第一导航|