精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清華UCSD提出全新微調方法,8B小模型媲美GPT-4o!科學問題正確率提高28%

人工智能 新聞
最近,一支來自UCSD和清華的研究團隊提出了一種全新的微調方法。經過這種微調后,一個僅80億參數的小模型,在科學問題上也能和GPT-4o一較高下!或許,單純地卷AI計算能力并不是唯一的出路。

我們都知道,在科研界,LLM在解決簡單科學問題時表現得游刃有余,但在應對復雜問題時往往會出現幻覺。于是,為了讓模型更靠譜,研究人員嘗試給模型裝上科學工具,幫助它們解決高難度任務。

然而,一旦用上工具,模型就「上癮」了!甚至連一些不怎么難的問題都要靠工具解決。這不僅讓計算成本暴漲,還影響了模型自己「獨立思考」的能力——就像有的人有了計算器就不再心算一樣。

相較而言,人類科學專家在解決科學問題時,通常會先評估問題的復雜性,再決定使用基本推理或專業工具。

正是受這種解決問題流程的啟發,一支來自UCSD和清華的研究團隊提出了一種全新的微調方法,讓模型「邊適應邊學習」,學會在使用外部科學工具和依賴內部知識之間做出合理選擇。

圖片

論文地址:https://arxiv.org/abs/2411.00412

這一方法的顯著意義在于它大大提高了模型效率。

研究人員僅使用一個擁有80億參數的LLM——遠小于行業巨頭如GPT-4——便在測試數據集上實現了28.18%的答案準確率提升和13.89%的工具使用精度提高。

這挑戰了AI開發中的一個慣有想法:更大的模型必然能帶來更好的結果。

教會AI在使用外部工具和依賴內部知識之間進行判斷——就像訓練一位年輕科學家如何在相信自己計算的同時知道何時咨詢專業設備——可能比單純地卷AI計算能力更為重要。

微調方法簡介

微調方法由兩部分組成:World Knowledge Distillation(WKD)和Tool Usage Adaptation(TUA)。

圖片

World Knowledge Distillation可以翻譯為「世界知識蒸餾」。在WKD過程中,LLM通過學習那些借助工具生成的解答,來掌握和積累特定領域的知識。

WKD分為監督微調和偏好優化兩部分。

對于所有問題,研究人員提示LLM使用工具生成確定性的解答,然后將這些解答作為目標,進行監督微調(SFT)。

在遇到開放式問題時,除了進行監督微調外,LLM會生成一組不同的解答提議,并使用預定義的指標對這些提議進行排序,以構建偏好對;然后利用這些數據進行偏好優化。

圖片

而在Tool Usage Adaptation中,研究人員首先在基準數據集的問題上評估經過WKD微調后的LLM。對于每個問題,他們采樣生成一組直接回答,以計算其準確率。

基于預設的準確率閾值,他們將問題分為兩個子集:簡單問題集,即LLM可以直接解決的問題;以及復雜問題集,即LLM需要借助工具回答的問題。

對于簡單問題集,保持與WKD一致的對齊目標,即繼續通過內化已有知識直接作答;而對于復雜問題集,研究人員將對齊目標切換為包含工具使用軌跡的增強解答,并訓練LLM準確地遵循這些軌跡。

實驗過程

研究人員使用Llama-3.1-8B-Instruct作為微調方案的基礎模型。同時還對其他最先進的開源和閉源模型進行了廣泛評估,包括GPT-4o、GPT-4o mini、Claude 3.5 Sonnet和Llama-3.1-70B-Instruct。

數據集

研究人員使用了兩個現有的公開數據集MATH和SciBench,并構建了四個新的科學數據集用于實驗:Mujoco、偏微分方程(PDEs)、氣候科學和流行病學。

四個數據集的構建遵循系統化流程:首先,基于專家咨詢和模擬器功能設計了特定領域的問題模板;接著,通過在科學合理的參數范圍內進行采樣,生成單獨的問題;最后,利用LLMs和工具使用軌跡生成相應的解答。

圖片

Mujoco中主要涉及剛體和柔體動力學相關問題。

圖片

在偏微分方程(PDEs)中,研究人員設計了內部的數值求解器,并編制了關于熱傳遞、化學工程、人口模擬等領域的問題。

圖片

氣候科學問題數據集則以神經代理模型為中心。該模型接受時間、氣候情景(如SSP126、SSP245)、溫室氣體排放(CO?,CH?)和氣溶膠氣體(BC,SO?)等輸入,輸出相應的地表溫度。

圖片

圖片

流行病學問題數據集使用了最先進的代理模型。模型輸入包括每個加利福尼亞州縣的28天多維特征以及24維的州級初始條件,用于描述流行病狀態。模型輸出未來28天的流行病狀態預測。

圖片

四個自定義數據集主要由多項選擇題構成,而其中的氣候科學數據集還包含開放式問題(例如關于氣候變化緩解的政策建議)。公開的MATH和SciBench數據集則完全由數值問題組成。

外部科學工具

研究人員為不同數據集使用了不同的工具。

對于Mujoco數據集,他們使用了官方API;

對于PDEs數據集,他們利用了內部的數值求解器;

對于氣候和流行病學數據集,他們使用了封裝對應神經代理模型的API;

對于開放式數據集,他們采用了Python代碼解釋器。

評估指標

實驗主要評估了兩種準確率:答案準確率和工具使用準確率。

答案準確率

答案準確率量化了模型提供的正確答案比例。

對于自定義數據集中的多項選擇題(MCQs),研究人員根據模型是否選擇正確選項來分配二進制分數。

對于MATH和SciBench數據集中的數值答案,如果答案在真實值的±5%的容差范圍內,則視為正確答案。

工具使用準確率

工具使用準確率評估模型是否能在工具使用方面做出智能決策,即在回答較難問題時使用工具,而在回答較簡單問題時直接作答。

問題根據訓練模型是否可通過Pn(無工具使用)回答來劃分為簡單(E)或困難(H)。當使用允許工具選擇的Pi時,決策進一步標記為T(使用工具)或N(不使用工具)。例如,HT表示模型在處理一個困難問題時選擇使用工具。

工具使用準確率定義為:

圖片

實驗結果

答案準確率

該微調方法在自定義數據集上的表現顯著優于所有基準模型,這些數據集通常未在預訓練中涵蓋。

盡管在公開數據集上,微調過的模型并未超越當前的最先進模型,但相比于未微調的基礎模型,該方法顯示出顯著的改進。這一在公開基準測試上的性能差距,可能是由于當前最先進模型具有更多的參數量,并對開源數據集進行了特定優化。

圖片

工具使用準確率

總體而言,訓練模型在所有數據集上均實現了最佳的工具使用準確率,除了在SciBench數據集上排名第二。

圖片

相比之下,其他模型的準確率大約為50%,表明兩種典型情況:要么過度依賴工具,要么從不嘗試使用工具。

除了表中展示的優勢外,研究人員還進一步分析了MATH數據集上的工具使用決策情況,該數據集在下圖中根據問題難度提供了先驗標簽。

圖片

訓練模型在問題難度增加時顯示出合理的工具使用增長。基礎模型則無論問題難度如何均表現出對工具的過度依賴;而Claude 3.5在面對簡單和困難問題時均表現出更多的直接回答信心,可能是因為MATH是一個公開數據集,該模型在訓練期間已接觸到類似問題。

作者介紹

Bohan Lyu

Bohan Lyu目前在清華大學修讀計算機科學與經濟學雙學位。

2023年,他加入清華NLP實驗室,受劉知遠教授的指導。

2024年夏天,他前往加州大學圣地亞哥分校(UCSD)的計算機科學與工程系Rose-STL實驗室,導師是Rose Yu教授。本研究部分工作在他訪問UCSD期間完成。

他的研究興趣是設計創新的計算機科學方法,特別是專注于語言技術、知識發現和數據挖掘,以解決現實世界的挑戰。

此前,他曾擔任過ICLR 2024、ICML 2024和ACL 2024研討會的審稿人。

Yadi Cao

Yadi Cao在加州大學圣地亞哥分校(UCSD)計算機科學與工程系擔任博士后研究員,導師是Rose Yu教授。

此前,他在加州大學洛杉磯分校(UCLA)獲得了計算機科學博士學位,導師是Chenfanfu Jiang教授和Demetri Terzopoulos教授。

他的博士研究主要集中在偏微分方程(PDE)的數值解和機器學習方法,特別是在計算固體和流體動力學方面。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-08-21 16:01:58

2025-10-28 02:11:00

2025-08-07 14:05:40

OpenAI大模型開源

2024-07-23 12:32:11

2025-05-27 15:19:52

GPUMetaGPT-4o

2025-09-28 15:35:32

AI模型強化學習

2025-06-26 09:09:31

2025-10-10 01:00:00

8B模型GPT-4oAgent

2024-07-02 01:09:02

2025-01-16 16:39:44

2025-05-12 08:50:00

2025-10-13 08:50:00

2024-08-15 15:45:00

AI訓練

2025-01-08 09:00:00

訓練數據研究

2025-05-06 15:32:23

模型AI測試

2025-09-24 08:53:10

2024-10-06 09:00:00

AI訓練數據

2025-01-21 10:10:56

2025-08-14 10:25:11

點贊
收藏

51CTO技術棧公眾號

国内成人精品视频| 中文字幕一二三四区| а中文在线天堂| 亲子乱一区二区三区电影| 麻豆av一区| 99re国产在线| 午夜久久免费观看| 制服丝袜av成人在线看| 800av在线免费观看| 极品颜值美女露脸啪啪| 麻豆视频在线免费观看| 国产精品影视网| 91精品成人久久| 亚洲一二三精品| 成人18夜夜网深夜福利网| 91国产福利在线| 99久久婷婷国产精品综合| 日韩av在线最新| 精品999在线| 欧美男男video| 国产婷婷精品av在线| 亚洲自拍偷拍福利| 人妻少妇精品无码专区| 91麻豆精品国产综合久久久| 亚洲国产成人av网| 日韩国产高清一区| 国内爆初菊对白视频| 日韩二区三区在线观看| 日本三级中国三级99人妇网站| 精品国产视频一区二区三区| 加勒比久久高清| 欧美日韩亚洲综合一区| 国产午夜大地久久| 亚洲大胆人体大胆做受1| 国产人成一区二区三区影院| 在线视频亚洲一区| 精品91一区二区三区| 欧美日韩在线中文字幕| 亚洲欧美自拍另类日韩| 美女日韩欧美| 精品成人国产在线观看男人呻吟| 成人手机在线播放| 69视频在线| 久久精品一二三| 久久精品99| 隣の若妻さん波多野结衣| 久久99深爱久久99精品| 国产精品久久色| 波多野结衣 久久| 亚洲永久网站| 69av成年福利视频| 黄色小视频在线免费看| 欧美午夜国产| 欧美激情精品久久久久久变态| 亚洲人与黑人屁股眼交| 日韩视频在线观看| 影音先锋欧美精品| 91成人精品一区二区| 欧美美女一区| 综合网中文字幕| 欧美波霸videosex极品| 欧美中文一区二区| 中文字幕免费精品一区| 国产精品视频在| 国产精品x453.com| 久久人人爽亚洲精品天堂| 亚洲伦理一区二区三区| 久久精品不卡| 久久伊人91精品综合网站| www日韩在线| 国产精品黄色| 97在线观看免费| 麻豆精品久久久久久久99蜜桃| 老司机精品久久| 国产精品夜色7777狼人| 国产麻豆91视频| 国产成人在线视频免费播放| 国产精品久久久久久久小唯西川 | 成人黄色网免费| 国产情侣自拍小视频| 国产一区二区精品久久91| 91九色蝌蚪成人| 天天舔天天干天天操| 久久久久久久久久久黄色| 亚洲一区3d动漫同人无遮挡| а√资源新版在线天堂| 午夜伊人狠狠久久| 丁香啪啪综合成人亚洲| 日韩午夜视频在线| 精品国产一区二区三区四区四| 日本xxxx裸体xxxx| 日韩精品一区二区三区免费观看| 久久亚洲国产精品成人av秋霞| www.youjizz.com亚洲| 男人的天堂亚洲在线| 91精品久久久久久| 欧美熟妇乱码在线一区| 国产欧美一区二区三区在线看蜜臀 | 一级黄色片免费| 成人一区二区三区在线观看| 欧美性bbwbbwbbwhd| 黄色网址在线免费| 午夜精品久久久久久久久久| 91视频免费版污| 成人av在线播放| 亚洲第一精品夜夜躁人人爽| 久久综合在线观看| 色婷婷久久久| 精品国内自产拍在线观看| 久久久久亚洲av片无码下载蜜桃 | 男人添女荫道口图片| 交100部在线观看| 欧美三级三级三级爽爽爽| 在线免费黄色小视频| 日韩美脚连裤袜丝袜在线| 中文字幕亚洲欧美日韩在线不卡 | 亚洲欧美丝袜中文综合| 国产精品美女一区二区三区| 999久久欧美人妻一区二区| 神马久久午夜| 日韩欧美的一区二区| mm131丰满少妇人体欣赏图| 欧美a级在线| 国产成人在线精品| 高清国产mv在线观看| 欧美韩国日本不卡| 国产一线二线三线女| 涩涩涩久久久成人精品| 亚洲国产天堂久久综合网| 国产3级在线观看| 亚洲永久视频| 国产乱码精品一区二区三区不卡| 69视频在线| 一本到不卡免费一区二区| 欧美激情 亚洲| 久久影视一区| 欧洲午夜精品久久久| 亚洲第一免费视频| 国产精品久久久一本精品| 日韩在线一级片| 91精品短视频| 欧美激情亚洲自拍| 国产日韩欧美一区二区东京热 | 18禁裸乳无遮挡啪啪无码免费| 在线电影一区二区| 国产在线999| 香蕉视频在线看| 欧美在线不卡视频| 日本xxx在线播放| 亚洲国产精品第一区二区三区| 亚洲bt天天射| 成人免费看片| 91精品国产全国免费观看| 毛片aaaaaa| 日韩精品亚洲专区| 欧美日韩在线不卡一区| 超碰在线99| 亚洲电影第1页| 亚洲综合久久av一区二区三区| 蜜臀av性久久久久蜜臀aⅴ四虎| 麻豆成人av| 蜜臀久久精品| 亚洲国产天堂久久国产91 | 国产精品99蜜臀久久不卡二区| 天天干天天爱天天操| 偷窥少妇高潮呻吟av久久免费| 一区二区三区精密机械公司| 国产美女高潮久久白浆| 青青视频在线观| 午夜免费久久看| 美女又爽又黄免费| 999在线观看精品免费不卡网站| 国产伦精品一区二区三区照片91| 91福利区在线观看| 亚洲精品国偷自产在线99热| 欧美超碰在线观看| 亚洲国产激情av| 亚洲天堂网2018| 亚洲最新色图| 99re在线| 高h视频在线播放| 亚洲精品v欧美精品v日韩精品| 日韩三级一区二区三区| 久久夜色精品一区| 91热这里只有精品| 欧美gayvideo| 91原创国产| 成人av影院在线观看| 亚洲美腿欧美激情另类| 亚洲av无码乱码国产精品fc2| 欧美高清在线一区二区| 肉色超薄丝袜脚交| 亚洲精品乱码| 色播五月综合| 91精品尤物| 欧美性视频精品| 在线观看免费版| 精品蜜桃在线看| 亚洲欧美日韩激情| 中文字幕一区二区三区乱码在线| 激情av中文字幕| 久久青草久久| 久久久久亚洲av无码专区喷水| jizz性欧美23| 国产精品激情av电影在线观看| 国产调教视频在线观看| 精品国偷自产国产一区| 国产成人精品777777| 亚洲天堂精品在线观看| 91丨porny丨对白| 蜜桃av噜噜一区二区三区小说| 国产精品三级一区二区| 国产精品tv| 91色在线视频| 韩漫成人漫画| 欧美富婆性猛交| yourporn在线观看视频| 欧美成人激情免费网| 国产乱码在线观看| 亚洲综合男人的天堂| 91资源在线播放| 成人黄色777网| 91看片在线免费观看| 亚洲美女啪啪| 免费看日本黄色| 色婷婷综合网| 欧美 日韩 国产在线| 狂野欧美xxxx韩国少妇| 国产精品高精视频免费| 青春草视频在线观看| x99av成人免费| 日本私人网站在线观看| 精品国产乱码久久| 国产精品无码免费播放| 欧美中文字幕久久| 9i精品福利一区二区三区| 亚洲一区在线电影| 登山的目的在线| 国产色综合久久| 一本色道综合久久欧美日韩精品| 国产精品99久久久久久宅男| 日韩av卡一卡二| 日韩在线一区二区三区| 久草资源站在线观看| 国产一区二区中文| 特级黄色录像片| 日韩av大片| 亚洲一区二区在线免费观看| 亚洲欧洲美洲国产香蕉| 精品乱色一区二区中文字幕| 日本一区二区三区电影免费观看| 成人欧美一区二区三区黑人孕妇 | 日本成人一级片| 一本色道久久综合亚洲精品按摩| 日本三级欧美三级| 亚洲超碰精品一区二区| 久久精品无码人妻| 亚洲精品久久久蜜桃| 免费在线看黄网址| 亚洲精品日产精品乱码不卡| 波多野结衣久久久久| 中文字幕国产一区| 少妇的滋味中文字幕bd| 亚洲欧洲中文日韩久久av乱码| 欧美a级片免费看| 中文字幕日韩一区二区| 99鲁鲁精品一区二区三区| 国产精品高清亚洲| 希岛爱理中文字幕| 一区二区三区免费网站| 国产一级在线播放| 午夜av电影一区| wwwwww国产| 日本久久电影网| 国产成人无码av| 欧美精品电影在线播放| 国产精品伦一区二区三区| 欧美一级欧美一级在线播放| www.成人精品| 亚洲国产小视频| 奇米影视888狠狠狠777不卡| 亚洲色图18p| 国产cdts系列另类在线观看| 欧美人在线视频| 国产免费拔擦拔擦8x高清在线人| 欧亚精品中文字幕| 欧美天堂一区| 国产一区二区三区四区hd| 亚洲ab电影| 永久免费精品视频网站| 欧美日韩视频| av片中文字幕| 国产精品99久久久久久有的能看| 妖精视频一区二区| 久久久久久夜精品精品免费| 久久久精品成人| 亚洲一二三四久久| 波多野结衣午夜| 日韩视频一区在线观看| 深夜影院在线观看| 色yeye香蕉凹凸一区二区av| 在线三级电影| 国产精品亚洲一区二区三区| 亚洲国产视频二区| 欧洲精品码一区二区三区免费看| 五月精品视频| 800av在线免费观看| 麻豆91在线观看| 无码成人精品区在线观看| 亚洲国产高清在线观看视频| 国产精品不卡av| 在线观看区一区二| 三级网站在线看| 日韩亚洲在线观看| 国产免费拔擦拔擦8x高清在线人| 国产日韩欧美日韩| 私拍精品福利视频在线一区| 正在播放亚洲| 一区二区激情| 亚洲一二三不卡| 国产午夜精品久久久久久免费视| 久久国产精品波多野结衣av| 欧美在线高清视频| 久久伊伊香蕉| 国外成人性视频| 99国内精品久久久久| 免费试看一区| 激情欧美一区| 亚洲自拍第三页| 国产网站一区二区| 日本少妇xxxx动漫| 91精品国产aⅴ一区二区| 在线视频婷婷| 欧美尤物巨大精品爽| 99久久香蕉| 亚洲黄色网址在线观看| 老司机午夜精品| 国产三级av在线播放| 欧美日韩国产精品一区| 性一交一乱一伧老太| 国产亚洲日本欧美韩国| 香蕉久久免费电影| 国内一区二区三区在线视频| 欧美一区二区| 亚洲图片 自拍偷拍| 亚洲三级久久久| 一区二区久久精品66国产精品| 亚洲区免费影片| 天天综合av| 欧美日韩亚洲一区二区三区在线观看 | 欧美性受xxxx黑人| 欧美日免费三级在线| 欧洲视频在线免费观看| 欧美孕妇毛茸茸xxxx| 免费看成人吃奶视频在线| 国产又爽又黄ai换脸| 韩国欧美国产1区| 婷婷激情四射网| 欧美一个色资源| 91精选在线| 国产一区二区精品免费| 精品成人一区| 性欧美丰满熟妇xxxx性久久久| 五月婷婷综合网| 国产免费av在线| 国产免费一区视频观看免费 | 中文字幕综合一区| 在线高清欧美| 8x8x华人在线| 99久久国产综合色|国产精品| 草久久免费视频| 亚洲欧美在线一区二区| 粉嫩91精品久久久久久久99蜜桃 | 韩日视频在线| 国产精品丝袜白浆摸在线 | 成人午夜视频在线观看| 日韩欧美性视频| 亚洲日韩欧美视频| 图片一区二区| 九色在线视频观看| 日本一区二区免费在线| 97超碰资源站| 欧美国产日本高清在线| 国产尤物久久久| 8x8x成人免费视频| 亚洲综合久久av| 亚洲av成人无码网天堂| 国产成人综合av| 久久久久久影院| 秘密基地免费观看完整版中文| 日韩欧美精品网址| 婷婷免费在线视频| 97久草视频| 久久久999| 久久久久久久久久综合| 亚洲黄一区二区| 欧美xxx性| 欧美一区二区综合| 老司机精品视频一区二区三区| 久久久久久久极品|