精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4搞不定的圖推理,港科大7B模型搞定

人工智能
混合任務指令調優(Mixed-Task Instruction Tuning):在第一階段,團隊專注于提升模型解釋和解決各種圖問題的能力。通過這種方法,GraphWiz學習處理包括理解問題、識別圖的屬性、應用圖算法等在內的多個子任務。

大模型執行圖推理任務,我們是希望大模型僅僅給出結果,還是在給出準確答案的同時,輸出詳細的推理過程?

先來看GPT-4的表現:

給出了一個非常簡短且錯誤的答案(判斷該圖中沒有環),這可能是由于模型在處理長輸入時的局限性,或者是對圖的復雜結構理解錯誤所致。這顯示了大型模型在適應圖論問題時面臨的挑戰。

相比之下,港科大團隊開發的GraphWiz不僅給出了正確的答案,還提供了一條清晰且詳細的推理路徑。

圖片圖片

GraphWiz 的設計目的是提升目前開源的大型模型在解決各種圖推理任務時的能力:

通過對大型模型進行針對性的微調,處理不同復雜度的圖推理任務,并同時輸出明確而連貫的推理路徑。

對于人類來說,要在這樣規模的圖中檢測環是極具挑戰性的。通常,人類需要借助外部工具或花費大量時間來完成這一任務,因為僅僅依靠腦力計算是不切實際的。

這突顯了GraphWiz在空間推理和記憶保持方面的能力。它表明,該模型已經有效地吸收了圖論的基本原理,并能夠自主地在大規模且復雜的圖結構中進行導航和推理。GraphWiz在處理復雜圖問題方面的能力,證明了其在實際應用中的巨大潛力。

總的來說,本篇文章的主要貢獻如下:

  • 創建了GraphInstruct,一個大規模的數據集,用于訓練語言模型處理圖任務,并提供清晰推理路徑,提高可解釋性。
  • 推出了GraphWiz,一個開源的大型語言模型,擅長通過明確推理解決各種圖問題,性能優于GPT-4。
  • 研究了訓練數據量和DPO框架下采樣策略等對模型性能的影響,并探索了GraphWiz跨任務遷移的能力,為后續模型優化和性能提升提供指導。


圖推理任務介紹

在本研究中,團隊精心挑選了九種不同計算復雜度層次的圖問題,涵蓋了研究的廣度和深度,包括:

  • 四個線性復雜度任務:連通性和環檢測、二分圖檢驗、拓撲排序;
  • 三個多項式復雜度任務:最短路徑、最大三角形和、最大流;
  • 以及兩個NP完全任務:哈密爾頓路徑和子圖匹配。

圖片圖片

通過選擇這九個圖問題,團隊的工作從簡單到復雜、可解到難解的問題上進行了全面的圖論探索。這種多樣化的選擇不僅有助于團隊理論上理解圖算法,而且還能解決廣泛的實際應用問題。

GraphInstruct數據集構建

圖片圖片

GraphInstruct的構建包括以下幾個關鍵步驟:

圖問題生成。為了打造一個多樣而具挑戰性的圖問題庫以供模型訓練與測試之用,團隊通過編程輔助的方法,為每一種預設的任務生成隨機圖問題。團隊為每一個任務設計了獨特的模板,以捕捉圖的特有屬性,例如圖是有向還是無向,邊是否有權重等。隨機圖的生成團隊采用了Erd?s-Rényi(ER)模型。

顯式推理路徑生成。GraphInstruct為每一個圖問題對都配備了一條顯式推理路徑。考慮到手動標注這些圖任務的推理路徑既復雜又耗時,團隊選擇利用GPT-4來生成初步的推理路徑。

數據增強與拒絕采樣。由于觀察到GPT-4在許多圖任務上的表現欠佳,比如在初始數據集中的最大流任務上自由不足100個樣本是正確的,團隊采用了拒絕采樣策略來增廣數據集,以包含更多樣的推理路徑。

挑選多樣化的推理路徑。這個步驟需要在準確度和多樣性之間找到平衡。為此,團隊采用了一系列精細化策略,這些策略分為基于字符串和基于語義的方法,用以篩選出不同的生成推理路徑。

GraphWiz訓練

圖片圖片

基于GraphInstruct,團隊訓練了GraphWiz,旨在優化當前大模型解決圖問題并給出顯式推理路徑的能力。GraphWiz的訓練方法是一個創新的兩階段過程:

混合任務指令調優(Mixed-Task Instruction Tuning):在第一階段,團隊專注于提升模型解釋和解決各種圖問題的能力。通過這種方法,GraphWiz學習處理包括理解問題、識別圖的屬性、應用圖算法等在內的多個子任務。

直接偏好優化對齊(Direct Preference Optimization Alignment ):第二階段,團隊通過訓練模型區分更有效與不太有效的問題解決路徑來進一步銳化模型的推理能力。DPO對齊使模型能夠識別和生成更理想的推理路徑,從而提高解決問題的效率和準確性。

GraphWiz性能評測

團隊對GraphWiz進行評估,旨在回答以下關鍵問題:

  • Q1: GraphWiz在不同復雜度的圖問題上的表現如何,特別是與目前最強大的閉源模型GPT-4相比如何?
  • Q2: 訓練數據量的變化對GraphWiz的性能有什么影響?
  • Q3: GraphWiz 對不同圖問題的遷移能力如何?
  • Q4: 圖中節點數量的變化會如何影響GraphWiz的性能?此外,它能有效處理的最復雜的圖是多大的?
  • Q5: 超參數?如何影響模型性能?

圖片圖片

從上表中可以看出,團隊的模型在各種開源模型上展示出了卓越的結果,顯著超過了GPT-4的性能。這一點在從簡單到困難類別的各種任務中都保持一致。DPO進一步提高了模型平均性能。然而,DPO可能對特定任務有不利影響。這表明,雖然DPO通常有助于改善模型推理,但可能需要進一步調整,以避免對某些問題類型產生負面影響。

圖片圖片

根據上表,團隊觀察到隨著訓練語料庫的增加,兩個模型都有效果的提升,比如GraphWiz (Mistral-7B)的平均準確率從1:1比率的46.56%上升到1:5比率的53.75%。這表明更多的多樣化推理路徑通常有利于模型解決圖推理問題的整體性能。

團隊可以注意到在某些任務上,如三角形和漢密爾頓路徑問題,準確性并沒有顯著提高,甚至隨著數據量的增加而略有下降。例如,GraphWiz (Mistral-7B) 在三角和問題上在1:1比率下的準確性為47.00%,然后在1:5比率下降至38.75%。這可能表明了過擬合現象,即模型開始記住訓練數據中的模式,這些模式并不適用于未見過的數據。

總之,雖然增加數據量和推理路徑的多樣性通常可以導致更好的模型性能,但在某些復雜任務中存在潛在的過擬合跡象,這強調了需要仔細設計模型訓練,并對不同的圖問題任務進行驗證,以確保廣泛的泛化能力。

圖片圖片

為了探索GraphWiz在不同圖任務中的遷移能力,團隊建立了一個額外的模型變體:GraphWiz-High。這個模型僅在兩個高復雜度(NP-完全)圖任務上進行訓練:漢密爾頓路徑和子圖匹配。為了研究其遷移能力,團隊進行了兩個比較實驗:

高復雜度任務比較。團隊首先將GraphWiz-High與常規的GraphWiz在高復雜度任務上進行比較。上圖(a)表明GraphWiz的表現更好,驗證了混合任務訓練的有效性。這個結果也表明模型能夠將從其他任務學到的知識轉移到特定的高復雜度任務上。

零樣本遷移能力。團隊進一步測試GraphWiz-High在從未訓練過的低和中復雜度任務上的零樣本遷移能力。如上圖 (b) 所示,GraphWiz-High與Mistral-Base相比有顯著的性能提升。即使與ChatGPT相比,團隊的模型也能保持相當的性能。考慮到ChatGPT和GraphWiz-High之間在參數數量上的巨大差異,這表明團隊的模型具有值得稱贊的跨任務泛化能力,展示了實際應用的重大潛力。

圖片圖片

為了解答關于模型性能如何隨著不同圖大小變化的問題,以及確定模型能夠有效解決的最大圖大小,團隊在上圖展示了GraphWiz在表現最佳任務(a)環檢測和最差任務(b)最短路徑上的性能。

從圖中,團隊得出以下結論:

GraphWiz和GPT-4在圖的大小增加時都表現出性能的下降。然而,團隊的模型在大多數時候當圖大小上一致時優于GPT-4,這表明了對圖結構更強大的理解和處理能力。

團隊觀察到在最短路徑上,隨著節點數的增加,性能顯著下降。這種下降很可能可以歸因于兩個主要因素:該任務要求高推理和記憶能力,因為更高時間復雜性,以及強大的計算技巧,這可能對模型的容量構成額外挑戰。實際上,團隊發現兩種模型主要依賴枚舉來得出解決方案。因此,隨著圖大小的增加,所需的枚舉推理呈指數級增長,導致當節點數超過60后,準確率顯著下降,之后幾乎不再有準確性。

這些觀察表明,盡管GraphWiz在處理與圖相關的任務方面明顯優于GPT-4,但存在一個復雜度的閾值——特別是在需要超出簡單推理的計算的任務中——即使是最先進的模型的性能也開始顯著下降。

圖片圖片

最后,團隊還探究了參數?對模型效果的影響。團隊觀察到,較高的 ?似乎在一定程度上有利于困難任務的性能,但這并非嚴格的線性關系,并且在不同的模型大小之間也不一致。這表明,仔細調整 ? 對于在不同難度任務之間取得最佳平衡,提高模型的整體準確性是必要的。

更多樣例

團隊還展示了更多不同任務上GraphWiz的推理樣例。

連通性任務:

圖片圖片

漢密爾頓路徑任務:

圖片圖片

最短路徑任務:

圖片圖片

子圖匹配任務:

圖片圖片

論文鏈接:https://arxiv.org/abs/2402.16029項目主頁:https://graph-wiz.github.io/

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-03-04 13:36:00

模型訓練

2024-02-07 12:39:00

AI數據

2024-05-09 08:33:33

2025-04-16 15:28:31

模型AI數據

2025-11-04 08:42:27

2023-10-08 13:11:00

訓練數據

2025-07-14 09:00:00

2024-07-31 15:38:00

2023-06-19 08:19:50

2023-09-23 12:50:39

AI訓練

2025-08-01 14:32:35

AI模型訓練

2025-06-10 09:07:00

2025-04-16 09:35:03

2023-04-09 16:17:05

ChatGPT人工智能

2023-05-15 15:38:59

AI模型

2024-06-03 10:43:34

2023-12-26 08:17:23

微軟GPT-4

2023-11-03 13:07:00

AI模型

2023-01-06 07:37:08

JavaScript技巧t性能

2023-11-18 09:37:49

點贊
收藏

51CTO技術棧公眾號

亚洲成人av福利| 欧美日韩色视频| 日韩伦理在线视频| 欧洲一区二区三区精品| 99九九热只有国产精品| 亚洲午夜久久久久久久久电影院| 青青久久aⅴ北条麻妃| 久久成年人网站| 久久精品国产亚洲a∨麻豆| 国产精品亲子伦av一区二区三区| 国产精品一级黄| 一区二区三区久久精品| 日本日本19xxxⅹhd乱影响| 国产老女人乱淫免费| 九九综合在线| 欧美日韩精品在线视频| 国产色视频一区| av手机在线播放| 成人美女黄网站| 成人激情校园春色| 欧美国产高跟鞋裸体秀xxxhd| 蜜臀av免费观看| 国产一二三区在线视频| 国产精品18久久久久久久久| 正在播放欧美视频| 丁香啪啪综合成人亚洲| 无码精品视频一区二区三区| 欧美久久影院| 欧美一级午夜免费电影| 中文字幕乱码一区二区三区| 亚洲天堂久久久久| 成人免费av| 在线精品视频免费播放| 日本午夜一区二区三区| 欧美性受xxx黑人xyx性爽| 欧美精选视频在线观看| 色香蕉成人二区免费| 久久久久久国产精品免费免费| 国产中文字幕免费| 国产精品17p| 婷婷国产v国产偷v亚洲高清| 精品蜜桃传媒| www.五月婷婷.com| 外国成人免费视频| 亚洲天堂久久av| 亚洲免费999| 91一区二区三区在线| 国产 日韩 欧美大片| 久久久久久久久久久免费| 亚洲一区二区在线免费| 日韩伦理精品| 国产精品美女久久久久久久久| 国产欧美一区二区三区久久| 国产无套丰满白嫩对白| 日韩成人a**站| 日韩女同互慰一区二区| 自慰无码一区二区三区| 青青草原国产在线| 久久综合狠狠综合久久激情| 国产精品亚洲激情| 国产一级av毛片| 国语产色综合| 精品少妇一区二区三区在线播放| 人妻熟妇乱又伦精品视频| 韩国日本一区| 亚洲国产精品成人久久综合一区 | 欧美性xxxx图片| 日韩成人av电影| 91久久精品午夜一区二区| 中文字幕欧美人与畜| 秋霞影院午夜丰满少妇在线视频| 国产精品一区专区| 国产福利久久精品| 亚洲熟妇无码久久精品| 精品一区二区在线免费观看| 97香蕉超级碰碰久久免费软件| 亚洲精品一区二区三区影院忠贞| 国产永久精品大片wwwapp| 亚洲人高潮女人毛茸茸| 一级黄色毛毛片| 51精品国产| 欧美三级日韩在线| 一女被多男玩喷潮视频| 日本免费久久| 制服丝袜亚洲网站| 无码aⅴ精品一区二区三区浪潮 | 久久久精品中文字幕麻豆发布| 国产精品综合久久久| 国产影视一区二区| 蜜桃视频一区| 午夜精品国产精品大乳美女| 欧美不卡视频在线观看| 重囗味另类老妇506070| 中文字幕亚洲自拍| 印度午夜性春猛xxx交| 国产亚洲第一伦理第一区| 最近2019中文字幕在线高清| 国产偷人妻精品一区| 菠萝蜜一区二区| 欧美成人精品在线视频| 免费精品在线视频| 日本不卡高清| 欧美富婆性猛交| 波多野结衣人妻| 成人一区在线观看| 超碰97人人人人人蜜桃| a网站在线观看| 蜜桃视频第一区免费观看| 青草成人免费视频| av中文字幕第一页| 国产网站一区二区| 日韩国产伦理| av在线日韩国产精品| 久久精品免费在线观看| 妺妺窝人体色www看人体| 色在线视频网| 亚洲综合图片区| 欧美在线观看黄| 三级网站视频在在线播放| 色婷婷狠狠综合| 性活交片大全免费看| 国产伦乱精品| 菠萝蜜影院一区二区免费| 香蕉成人在线视频| 亚洲精品国产首次亮相| 欧美成人免费播放| 一级aaaa毛片| 久久久精品免费网站| 成人免费播放器| 一个人www视频在线免费观看| 岛国精品视频在线播放| 日日夜夜精品视频免费观看| 亚洲一区二区三区免费| 色先锋资源久久综合5566| 成人午夜视频在线播放| 国产91综合一区在线观看| 中文字幕乱码一区二区三区| av免费在线一区| 91精品国产麻豆| 粉嫩精品久久99综合一区| 日韩电影一区二区三区四区| 成人国产精品av| а√中文在线资源库| 99精品欧美一区| 天堂av一区二区| 尤物网址在线观看| 亚洲制服丝袜在线| 精品国产一二区| 一区二区小说| 久久亚洲一区二区三区四区五区高 | 国产三级欧美三级| 国产91沈先生在线播放| 亚洲乱码一区| 久久视频在线直播| 国产福利免费视频| 亚洲在线中文字幕| 国产人成视频在线观看| 天堂成人娱乐在线视频免费播放网站| 一区二区欧美在线| 做爰视频毛片视频| 《视频一区视频二区| 久久黄色片视频| 国产a亚洲精品| 精品成人私密视频| 免费黄色片网站| 蜜臀av一区二区在线免费观看| 亚欧精品在线| 国产日韩在线观看视频| 亚洲欧洲日本专区| 中文字幕乱码视频| 99精品国产99久久久久久白柏| 自慰无码一区二区三区| 精品久久美女| 亚洲va电影大全| 成人在线观看一区| 欧美欧美欧美欧美首页| 免费毛片视频网站| 亚洲午夜极品| 91色琪琪电影亚洲精品久久| 噜噜噜噜噜在线视频| 夜夜精品视频一区二区| 又黄又爽的网站| 日韩在线观看一区二区| 国产成人精品免费看在线播放| 欧美特大特白屁股xxxx| 一区二区成人精品| 亚洲AV午夜精品| 亚洲日本成人在线观看| 黄色免费网址大全| 亚洲精品推荐| 国产日韩欧美91| 91在线三级| 精品美女在线观看| 在线免费黄色av| 亚洲欧美一区二区不卡| 噜噜噜在线视频| 黄网站免费久久| 一区二区三区日韩视频| 国产精品主播在线观看| 国产精品一区久久| gogo高清在线播放免费| 综合久久五月天| 日本免费不卡视频| 亚洲国产一区二区三区 | 欧美中文一区| 久久久久久伊人| а天堂8中文最新版在线官网| 日韩欧美国产小视频| 伊人成年综合网| 亚洲成年人影院| 日韩成人毛片视频| 国产亚洲自拍一区| 污片免费在线观看| 国产精品一区二区免费不卡| 日韩中文字幕组| 亚洲乱亚洲高清| 久久精品99| 免费精品一区二区三区在线观看| 久久亚洲综合国产精品99麻豆精品福利 | 日本久久精品| 国内不卡一区二区三区| 波多野结衣中文在线| 色噜噜国产精品视频一区二区 | 国产一级片av| 午夜精品福利一区二区三区av| 国产一级免费片| 国产一区二区三区久久悠悠色av | 欧美视频福利| 2025韩国大尺度电影| 欧美日韩中字| 日韩成人在线资源| 欧美男gay| 欧美精品七区| 小说区图片区亚洲| 久久久久久久国产精品| 成人ww免费完整版在线观看| 精品国产伦一区二区三区观看体验| 最近中文字幕免费在线观看| 色欧美乱欧美15图片| 国产成人无码av| 亚洲视频一二三区| 青青青手机在线视频| 国产精品理论片| 国产麻豆a毛片| 综合久久国产九一剧情麻豆| 一二三四国产精品| 亚洲欧美一区二区在线观看| 中文国语毛片高清视频| 国产精品二三区| 偷偷色噜狠狠狠狠的777米奇| 国产不卡在线一区| 日本50路肥熟bbw| www.日韩在线| 日本中文字幕观看| 九九久久精品视频| 中文字幕第66页| 国产成人日日夜夜| 欧美在线一级片| 久久久久免费观看| 一级二级黄色片| 99re免费视频精品全部| 鲁大师私人影院在线观看| 久久麻豆一区二区| 香蕉久久久久久久| 亚洲美女免费视频| аⅴ天堂中文在线网| 国产精品乱码一区二区三区软件 | 秋霞午夜理伦电影在线观看| 久久av红桃一区二区小说| 青青在线视频| 日本成人免费在线| 日韩免费在线电影| 成人蜜桃视频| 久操精品在线| 国产欧美自拍视频| 国产亚洲欧美日韩在线观看一区二区 | 久久69精品久久久久久国产越南| 国产午夜免费福利| 色老头久久综合| 国产原创中文av| 337p日本欧洲亚洲大胆色噜噜| 日本护士...精品国| 欧美成人video| 青青久草在线| 久久精品91久久久久久再现| 国产色a在线| 亚洲精品av在线| 高h调教冰块play男男双性文| 欧美男男青年gay1069videost| a级片免费观看| 亚洲美女福利视频网站| 农村少妇久久久久久久| 亚洲欧美制服另类日韩| 成人免费在线| 日av在线播放中文不卡| 一级欧美视频| 国产日韩精品入口| 国产精品qvod| 午夜老司机精品| 亚洲高清自拍| 精品无码国产一区二区三区av | 国产91porn| 91精品国产自产拍在线观看蜜| 亚洲国产成人精品无码区99| 日本成人在线不卡视频| 天天操天天摸天天爽| 高清在线成人网| 一级片黄色录像| 欧美视频国产精品| 日本高清不卡码| 日韩欧美国产综合一区| 在线毛片网站| 久久久91精品国产| 欧美momandson| 国产成人免费电影| 女同性一区二区三区人了人一| 日韩中文在线字幕| 日韩高清不卡在线| 色婷婷狠狠18禁久久| 中文字幕在线观看一区二区| 久久国产视频精品| 亚洲电影免费观看高清| 亚洲 精品 综合 精品 自拍| 久久影院模特热| 先锋影音网一区二区| 欧美日韩在线一区二区三区| 亚洲经典自拍| 超碰caoprom| 亚洲一区二区三区不卡国产欧美| 国产精品无码天天爽视频| 中文字幕av一区| 成人国产综合| 色姑娘综合网| 日本系列欧美系列| 中文字幕网站在线观看| 亚洲欧洲日韩一区二区三区| 一二三区免费视频| 欧美日韩激情在线| 亚洲第一黄色片| 久久97久久97精品免视看| 精品一区91| 青青草免费在线视频观看| 国产一区二区三区精品欧美日韩一区二区三区 | 国产一区二区三区三区在线观看| 久青草国产在线| 欧洲亚洲女同hd| 欧美猛男男男激情videos| 日日碰狠狠丁香久燥| 国产拍欧美日韩视频二区| 亚洲精品久久久久久国| 欧美老女人在线| 久久黄色美女电影| 538国产精品一区二区在线| 日韩电影免费观看高清完整版在线观看| 日韩电影免费观看在| 日本aⅴ亚洲精品中文乱码| 手机看片国产日韩| 欧美男男青年gay1069videost| 黄色av网站在线播放| 91在线短视频| 欧美日韩中文一区二区| 亚洲 欧美 另类人妖| 一色桃子久久精品亚洲| a天堂在线观看视频| 欧美黑人xxxⅹ高潮交| 欧美影院天天5g天天爽| 日本老熟妇毛茸茸| 成人小视频在线观看| 波多野结衣国产| 欧美成人艳星乳罩| 草草在线视频| 91pron在线| 最新亚洲一区| 在线免费观看麻豆| 欧美人狂配大交3d怪物一区| 1769免费视频在线观看| 国内成+人亚洲| 蜜桃视频一区二区| 国产在线欧美在线| 亚洲欧洲一区二区三区久久| 色综合一区二区日本韩国亚洲 | 蜜臀a∨国产成人精品| 欧美日韩中文字幕在线观看| 欧美日韩在线直播| 青草影视电视剧免费播放在线观看| 精品视频一区二区| 久久超级碰视频| 欧美另类一区二区| 久久精品国产96久久久香蕉 | 亚洲精品国产系列| 另类天堂av| 粉嫩av性色av蜜臀av网站| 亚洲国产精品成人精品| 国产精品天堂蜜av在线播放| www.好吊操| 亚洲欧洲精品一区二区三区| 天天干,夜夜操| 亚洲18私人小影院| 91视频综合| xxxx在线免费观看|