精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

7B級形式化推理與驗證小模型,媲美滿血版DeepSeek-R1,全面開源!

人工智能 新聞
近日,由香港科技大學牽頭,聯合中科院軟件所、西安電子科技大學、重慶大學等單位,開源了一系列形式化推理與驗證大模型,僅用 7B,即可在相關任務上獲得與 671B 滿血版 DeepSeek-R1 相當的水平!

研究團隊構成:香港科技大學、中國科學院軟件研究所、西安電子科技大學和重慶大學。團隊核心成員:香港科技大學的研究助理教授曹嘉倫,主要研究領域包括 AI&SE、人工智能測試、形式化驗證等;中國科學院軟件研究所副研究員陸垚杰,主要研究領域包括大語言模型及其應用。

隨著 DeepSeek-R1 的流行與 AI4Math 研究的深入,大模型在輔助形式化證明寫作方面的需求日益增長。作為數學推理最直接的應用場景,形式化推理與驗證(formal reasoning and verification),也獲得持續關注。

然而,近期的形式化推理大模型大多只針對單一形式化語言模型,缺乏對多形式化語言、多形式化任務場景的深度探索。 

近日,由香港科技大學牽頭,聯合中科院軟件所、西安電子科技大學、重慶大學等單位,開源了一系列形式化推理與驗證大模型,僅用 7B,即可在相關任務上獲得與 671B 滿血版 DeepSeek-R1 相當的水平!

  • 論文標題:From Informal to Formal–Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs
  • 論文鏈接:https://arxiv.org/abs/2501.16207
  • Hugging Face 模型鏈接:https://huggingface.co/fm-universe

正如 Meta FAIR 和斯坦福大學等多所機構在去年年底的立場論文(Formal Mathematical Reasoning: A New Frontier in AI)中所指出的,多語言形式化驗證模型正日益成為業界發展的趨勢

事實上,形式化驗證(formal verification)不僅是計算機科學的核心問題,也是形式化數學最直接的應用之一。然而,由于其門檻高、人力消耗大和部署成本高,形式化驗證的普及與推廣一直受到限制。

憑借大模型在語義理解、代碼自動生成等方面的優勢,引入該技術有望大幅加速驗證流程,從而有效降低人力成本并提升自動驗證效率。

形式化任務拆解

研究團隊首先對形式化驗證任務進行了分層拆解,從非形式化的自然語言輸入到可驗證的形式化證明(formal proof)或可檢測的模型(model checking)。在此基礎上,研究團隊將傳統的端到端形式化驗證流程細化為六個子任務,包括驗證需求分解、形式化規約片段生成、規約補全、填空,以及代碼到形式化規約的自動生成。

圖 1 形式化驗證任務拆解

這一過程可以與代碼生成(code generation)任務相對照:代碼生成任務旨在將自然語言描述的功能轉換為相應的代碼實現,而形式化證明生成或模型生成(formal proof/model generation)則將自然語言描述的驗證需求轉化為由形式化語言編寫的形式化證明(proof)或模型(model)。

圖 2 從代碼生成到形式化證明生成

研究團隊從 Github 收集了五種形式化語言的經過一系列數據收集、清洗與整理,最終得到了 14k 數據用于訓練微調(fm-alpaca),4k 數據用于測試(fm-bench)。

圖 3 數據準備過程

大模型在形式化細分任務上的能力對比

通過對五種形式化語言(Coq, Lean4, Dafny, ACSL, TLA+)在形式化證明寫作上六種細分能力對比,研究團隊獲得了一些有趣的發現。

形式化任務的角度(如圖 4),未經微調的通用指令大模型更擅長從代碼生成形式化證明(準確率 43.57%),而不擅長從自然語言生成形式化證明(8.65%~10.61%),遠低于代碼生成任務(從自然語言生成編程語言如 Python)。

滿血版(671B)DeepSeek-R1 平均準確率為 27.11%,而其他參數規模在 8B 至 72B 的模型平均準確率僅介于 7.32% 與 18.39% 之間。

另外,研究團隊觀察到在形式化規約填空的任務中,較大規模的模型往往不及小規模模型。例如,70B 的 llama3.1-instruct 模型在填空(列「ProofInfill」)上的準確率僅為 8B 模型的一半。這一現象可能與這些模型的微調策略:指令模型被訓練得更擅長生成,而非填空。研究團隊還發現,盡管 70B 級規模模型填寫的形式化規約片段看似更加正確,但因常常包含額外的內容,導致「說多錯多」,因此最終的準確率反而不如小模型。

圖 4 驗證任務上的差異(微調前)

大模型在不同形式化語言上的能力對比

形式化語言的角度看(見圖 5),大模型在 ACSL 上的效果最好(34.92%),Dafny 次之(15.92%)。研究團隊認為,原因可能在于:一方面,ACSL 語言的關鍵詞更貼近自然語言,其語法結構又類似于 C 語言,使得生成過程更為順暢;另一方面,ACSL 規約片段相對較短,而 Coq 和 TLA 等語言的規約片段較長,生成難度更大。

圖 5 還顯示,僅通過增加生成次數(從 1 次提升至 5 次),即可在不用微調的情況下,得到 10.82%~63.64% 的提升。之后,進一步結合上下文學習(in-context learning),可以進一步將準確率翻番(51.33%~532.83%)。

圖 5 形式化語言上的差異(微調前)

微調帶來的能力提升

接下來,研究團隊在 3 個 7~8B 的基礎模型(LLaMA-3.1,Qwen-2.5,Deepseek-coder-v1.5)上用 fm-alpaca(14k 數據),同時對比了普通的對話型指令微調數據集 tulu-v3 和 ultra-chat。

如圖 6,經過形式化數據 fm-alpaca 微調之后,大模型在各類形式化任務上均有明顯提升(模型名以「fma」為后綴的模型),性能幾乎翻倍。

值得注意的是,這種顯著提升僅用了 14k 條形式化相關的指令數據(instruction-response pairs)。

有趣的是,當把形式化數據和對話型指令數據混合微調時,能進一步提升模型性能,從 21.79%(僅用 fm-alpaca 微調)提升至 23.75%(fm-alpaca + ultrachat)和 25.16%(fm-alpaca + tulu)。

圖 6 微調前后結果對比

對比圖 5 與圖 6 還可以發現,盡管增加迭代次數和上下文學習可以提升準確率,但仍比不上微調帶來的提升。

能力遷移探究

最后,研究團隊進一步探索了形式化數據微調對大模型數學、推理和編程等任務上的「遷移能力」。他們通過對比微調前后在上述任務上的表現差異,以驗證大模型能否通過形式化驗證能力訓練中習得推理、數學等「元能力」。

實驗結果令人驚喜:利用形式化數據(FM-Alpaca)進行微調后,模型在數學、推理、代碼任務上的平均性能平均性能提升達到了 1.37% 至 5.15%。

該觀察或為未來探索模型「元能力」、「能力遷移」提供啟發。

總結

  • 高質量數據集構建:研究團隊構建了包含 18000 對高質量指令 - 響應對的微調數據集(fm-alpaca)與評估集(fm-bench),覆蓋 5 種主流的形式化語言(Coq, Lean4, Dafny, ACSL, TLA+)和 6 種不同形式化推理與驗證任務;
  • 形式化任務分解與評估:將從非形式化的自然語言需求到形式化、可驗證的證明的轉換過程細分為六個子任務,明確了每一步的目標和挑戰,有助于精確定位大模型的能力瓶頸;
  • 微調模型開源:通過微調,7~8B 的小模型在生成形式化證明的能力得到顯著提升,模型的性能提高了近三倍,在評估任務上媲美 671B 滿血版 DeepSeek-R1;
  • 后續啟發與影響:基于三種基礎模型的微調模型均已開源;完整的執行上下文和自動驗證流程也將開源,這將有助于降低形式化驗證的門檻,減少人力消耗及部署成本。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-27 10:28:32

2025-03-06 17:29:21

2025-02-12 12:45:59

2025-06-25 08:54:03

模型訓練AI

2025-06-06 09:07:00

模型LLMAI

2025-07-30 09:06:02

2025-03-07 08:30:00

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-17 12:13:26

AI模型生成

2025-02-03 14:17:27

2025-04-11 12:04:58

2025-03-19 10:10:43

2025-02-13 01:00:00

2025-03-05 03:00:00

DeepSeek大模型調優

2025-03-04 09:00:00

2025-03-07 08:50:03

點贊
收藏

51CTO技術棧公眾號

国产精品电影院| 九九热hot精品视频在线播放 | 国产日韩一区在线| 久久爱一区二区| 一区二区免费| 一本大道久久a久久精二百| 亚洲一区二区三区加勒比 | 久久久久久久久久免费视频| 精品色999| 欧美大片一区二区| 国产精品亚洲二区在线观看| 中文字幕在线播放网址| 91一区二区三区在线观看| 国产精品久久久久久av福利软件| 欧美激情一区二区视频| 国产在视频线精品视频www666| 欧美一级免费大片| 欧美一级黄色影院| 国产蜜臀在线| 最新国产の精品合集bt伙计| 精品久久久久久亚洲| 亚洲视频久久久| 一区二区国产在线观看| 久久久www成人免费精品张筱雨| 三级视频网站在线观看| 99亚洲男女激情在线观看| 大荫蒂欧美视频另类xxxx| 中文字幕一区二区三区有限公司| 日本一二三区在线视频| 国产精品一区二区三区四区| 国产精品免费视频xxxx| 欧美啪啪小视频| 一区免费视频| 欧美美女操人视频| 免费黄色激情视频| av伊人久久| 亚洲精品午夜精品| 国产精品麻豆入口| 综合激情五月婷婷| 日韩精品中文字幕一区二区三区| 色一情一区二区三区| 国产精品亚洲d| 一本久道中文字幕精品亚洲嫩| 久操网在线观看| 久久国产精品黑丝| 一区二区三区精密机械公司| 天天成人综合网| 欧美精品电影| 国产精品国模大尺度视频| 日韩精品久久久毛片一区二区| 天堂а√在线8种子蜜桃视频 | 免费国产在线精品一区二区三区| 欧美在线 | 亚洲| 成人性生交大片免费| www国产亚洲精品| 不卡的日韩av| 国产成人av一区二区| 91|九色|视频| 国内毛片毛片毛片毛片| 国产激情精品久久久第一区二区| 亚洲jizzjizz日本少妇| 99国产精品99| 粉嫩13p一区二区三区| 成人午夜电影在线播放| 亚洲乱色熟女一区二区三区| 从欧美一区二区三区| 国产精品久久久久久久免费大片| 高潮毛片7777777毛片| 成人av在线播放网址| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 欧美在线视频全部完| 中文久久久久久| 啪啪av大全导航福利综合导航| 在线成人免费视频| 亚洲人成在线播放网站岛国| 最新欧美日韩亚洲| 午夜影院免费在线| 亚洲国产日韩在线一区模特| 激情伊人五月天| 在线成人精品视频| 粉嫩久久久久久久极品| 日韩大陆毛片av| 国产伦理片在线观看| 欧美好骚综合网| 欧美激情视频免费观看| 久久99精品波多结衣一区| 葵司免费一区二区三区四区五区| 国产精品视频男人的天堂| 99久久久久久久| 99久久综合狠狠综合久久| 日本在线高清视频一区| 成人免费看片| 欧美日韩午夜剧场| 欧美丝袜在线观看| 林ゆな中文字幕一区二区| 亚洲最新av网址| 国产免费无码一区二区视频| 性欧美精品高清| 成人国产在线激情| 深夜福利在线观看直播| 国产精品国产三级国产普通话三级| 狠狠干视频网站| 欧美gay囗交囗交| 欧美一区二区精品久久911| 中文字幕av观看| 99国内精品久久久久久久| 午夜剧场成人观在线视频免费观看| 波多野结衣午夜| 丁香六月久久综合狠狠色| 水蜜桃一区二区| 丰满诱人av在线播放| 欧美日韩日本视频| 91av在线免费| 欧美视频在线观看| 国产精品免费福利| 瑟瑟在线观看| 午夜欧美在线一二页| 三级一区二区三区| 欧美一区三区| 欧美猛男性生活免费| 在线观看xxxx| 久久精品日韩一区二区三区| 欧美精品久久久久久久久久久| 亚洲一区导航| 中文字幕日韩精品有码视频| 亚洲盗摄视频| 色视频www在线播放国产成人| 久久精品视频久久| 久久99久久99小草精品免视看| 蜜桃91精品入口| 国产精品一区hongkong| 91精品国产色综合久久ai换脸| 亚洲综合欧美综合| 一二三区精品| 久久国产一区二区| xxx.xxx欧美| 欧美成人猛片aaaaaaa| 日韩在线观看免| 蜜臀av性久久久久蜜臀aⅴ| 欧美精品一区二区三区久久| 超碰高清在线| 亚洲国产欧美一区二区三区久久| 久久久精品99| 国产成人亚洲综合色影视| 玖玖精品在线视频| 伊人久久综合网另类网站| www.国产一区| 91精品国产乱码久久久久| 中文字幕第一区| 一区二区三区视频在线观看免费| 精品日本12videosex| 国产成人精品日本亚洲| 毛片免费在线观看| 欧美视频专区一二在线观看| 亚洲狠狠婷婷综合久久久久图片| 国产精品一区毛片| 久久婷婷人人澡人人喊人人爽| 美女搞黄视频在线观看| 日韩精品视频在线免费观看| 波多野结衣国产| 久久久夜色精品亚洲| 日韩无套无码精品| 不卡中文字幕| 成人黄色av免费在线观看| www免费视频观看在线| 91麻豆精品国产无毒不卡在线观看| 熟女av一区二区| 国产suv精品一区二区三区| av在线观看地址| 日韩aaa久久蜜桃av| 国产成人精品电影久久久| 91电影在线播放| 日韩欧美在线一区二区三区| 国产无码精品一区二区| 91蝌蚪porny成人天涯| 日韩中文字幕组| 亚洲国产日韩欧美在线| 99se婷婷在线视频观看| 美女露胸视频在线观看| 最好看的2019年中文视频| 国产三级按摩推拿按摩| 亚洲一级电影视频| 国产精品高清无码在线观看| 久久99九九99精品| 日韩在线视频在线| 欧美日韩xxxx| 亚洲xxx自由成熟| 蜜桃麻豆影像在线观看| 中文字幕亚洲欧美日韩2019| 亚洲国产欧美另类| 色激情天天射综合网| 欧美做爰啪啪xxxⅹ性| 成人久久18免费网站麻豆| 国产第一页视频| 综合色一区二区| 欧美极品一区二区| 激情视频亚洲| 国产成人一区二区三区小说| 亚洲欧美成人影院| 亚洲老板91色精品久久| 国产精品无码在线播放| 色综合久久综合中文综合网| 动漫性做爰视频| 久久久不卡影院| 91福利视频免费观看| 三级不卡在线观看| 日本男女交配视频| 欧美色图在线播放| 国产日韩亚洲精品| 国产成人免费视频网站视频社区| 青青草原一区二区| 欧美wwww| 久久久国产视频| 国产永久av在线| 亚洲大尺度美女在线| 国产又黄又粗又猛又爽| 日本韩国精品在线| 日韩精品国产一区二区| 亚洲色图欧洲色图| 91狠狠综合久久久久久| 99riav久久精品riav| 色偷偷中文字幕| 青草av.久久免费一区| 无罩大乳的熟妇正在播放| 亚洲综合色站| 欧美一级免费在线观看| 国产综合久久久| 蜜桃狠狠色伊人亚洲综合网站| 亚洲视频国产精品| 成人中心免费视频| 亚洲高清影院| 国产在线拍偷自揄拍精品| 肉色欧美久久久久久久免费看| 91国产高清在线| 97人人在线视频| 久久久久久久成人| 污污的网站在线看| 久久伊人精品天天| 激情成人四房播| 久久久电影免费观看完整版| 日本视频在线免费观看| 最近2019中文字幕在线高清| a天堂在线资源| 中文字幕av一区二区| 国产色在线 com| 亚洲人午夜精品免费| 国产一二三在线观看| 亚洲欧美国产一区二区三区| 欧美亚洲日本| 亚洲精品影视在线观看| 美国成人毛片| 在线视频日韩精品| 免费av在线网址| 久久精品视频在线| 国产美女在线观看| 欧美日韩成人在线播放| 国产福利在线免费观看| 97视频在线观看播放| 在线播放高清视频www| 欧美一级视频在线观看| 欧美xxxx做受欧美护士| 国产精品女视频| 国产日韩欧美中文在线| 97自拍视频| 三区四区在线视频| 亚洲一二在线观看| 国产一二在线观看| 色婷婷综合久久久久| 国产网站在线免费观看| 色悠悠久久88| 大片免费在线看视频| 久久91亚洲精品中文字幕奶水 | 久久久国产91| www欧美xxxx| 国产成人精品网站| 电影91久久久| 久久爱av电影| 久久视频精品| 霍思燕三级露全乳照| 午夜在线精品| 亚洲一区二区三区四区五区| 国产成人欧美日韩在线电影| 在线免费观看黄色小视频| 欧美国产日韩在线观看| 欧美黄色一区二区三区| 色偷偷成人一区二区三区91| 国产理论视频在线观看| 亚洲国内精品在线| 成人在线免费视频| 精品少妇v888av| 91精品韩国| 99精彩视频| 欧美码中文字幕在线| 九一免费在线观看| 石原莉奈在线亚洲三区| 日本黄色www| 国产欧美精品国产国产专区 | 亚洲伊人精品酒店| 国产精品久久一区| 中文在线免费一区三区| 欧美日韩在线播放一区二区| 欧美日韩激情视频一区二区三区| 一区二区在线视频播放| 欧美xxx黑人xxx水蜜桃| 国产精品国产三级国产aⅴ浪潮| 亚洲三区欧美一区国产二区| 亚洲国产一区二区精品视频 | 欧美午夜精品久久久久久浪潮| 97超碰人人草| 亚洲色图欧美制服丝袜另类第一页| 国产成人高清精品| 国产成人精品在线播放| 盗摄牛牛av影视一区二区| 亚洲欧洲国产精品久久| 国产亚洲在线观看| 久久综合桃花网| 中国av一区二区三区| 中文字幕视频网站| 亚洲成av人乱码色午夜| av网站在线免费看推荐| 国产精品嫩草影院一区二区| 台湾色综合娱乐中文网| 国产一级做a爰片久久毛片男| 久久99精品国产| 国产成人一区二区在线观看| 欧美日韩另类字幕中文| 懂色av成人一区二区三区| 久久精品亚洲热| 日韩免费在线电影| 午夜精品一区二区三区在线观看| 久久婷婷久久| 中文精品在线观看| 天天色 色综合| 蜜臀av午夜精品| 欧美激情亚洲精品| 色悠久久久久综合先锋影音下载| 国产一区一区三区| 久久99九九99精品| 欧美风情第一页| 3d成人h动漫网站入口| 欧美一级二级三级区| 国产中文字幕91| 婷婷成人基地| 日本中文字幕观看| 国产精品久久久99| 91久久久久久久久久久久| 日韩亚洲国产中文字幕| 久久婷婷五月综合色丁香| 亚洲国产一区二区精品视频| 久久国产精品一区二区| 熟女少妇a性色生活片毛片| 在线不卡一区二区| 超鹏97在线| 高清视频一区二区三区| 精品福利电影| 国产色视频一区二区三区qq号| 色综合久久综合| 黄色电影免费在线看| 国产精品视频在线观看| 手机在线电影一区| 日本网站在线看| 一区二区高清在线| 手机av免费在线观看| 国产91在线播放精品91| 国产污视频在线观看| 欧美男生操女生| av网址在线| 国内一区二区三区在线视频| 免费一区视频| 潮喷失禁大喷水aⅴ无码| 欧美一级在线视频| 免费在线看污片| 另类小说综合网| 蜜桃久久精品一区二区| 中文字幕av播放| 日韩高清av一区二区三区| 欧美日韩免费看片| 黄色一级视频播放| 波波电影院一区二区三区| 999视频在线| 欧美成年人视频网站| 欧美日日夜夜| 亚洲精品性视频| 五月婷婷激情综合| 波多野结衣在线影院| 97超碰人人看人人| 母乳一区在线观看| 日本在线一级片| 亚洲老司机av| 亚洲免费一区三区| 黄色a级片免费| 亚洲老司机在线| 欧美一区二区少妇| 99九九视频| 蜜臀va亚洲va欧美va天堂| 黄色一级片在线| 伊人久久久久久久久久| 136导航精品福利| www.色就是色| 亚洲3atv精品一区二区三区|