精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

0代碼訓練GPT-5?MIT微軟證實GPT-4涌現自我糾錯能力,智能體循環根據反饋讓代碼迭代!

人工智能 新聞
誰能想到,訓練GPT-5竟不用手寫代碼。MIT微軟最新研究發現,GPT-4在代碼修復中的有效性。以后,OpenAI工程師能做的只有——Critique is all you need。

我們都知道,大模型具有自省能力,可以對寫出的代碼進行自我糾錯。

這種自我修復背后的機制,究竟是怎樣運作的?

對代碼為什么是錯誤的,模型在多大程度上能提供準確反饋?

近日,MIT和微軟的學者發現,在GPT-4和GPT-3.5之中,只有GPT-4表現出了有效的自修復。并且,GPT-4甚至還能對GPT-3.5生成的程序提供反饋。

圖片圖片

論文地址:https://arxiv.org/pdf/2306.09896.pdf

英偉達科學家Jim Fan強烈推薦了這項研究。

在他看來,即使是最專業的人類程序員也無法一次性正確編寫程序。他們需要查看執行結果,推理出問題所在,給出修復措施,反復嘗試。這是一個智能體循環:根據環境反饋迭代改進代碼。

很有可能,OpenAI正在通過雇傭大量軟件工程師來訓練下一代GPT。而他們不需要輸出代碼——Critique is all you need。

- GPT-4能夠進行自我修復的核心原因是其強大的反饋能力。它能夠有效地自我反思代碼的問題所在,其他模型無法與之競爭。

- 反饋模型和代碼生成模型不必相同。事實上,反饋模型是瓶頸。

- 基于GPT-4的反饋,GPT-3.5能夠編寫更好的代碼。

- 基于專業人員的反饋,GPT-4本身能夠編寫更好的代碼。

揭秘用于代碼生成GPT修復

我們都知道,大語言模型在生成代碼方面,表現出了非凡的能力。

然而,在具有挑戰性的編程任務(比如競賽和軟件工程師的面試)中,它們卻完成得并不好。

好在,很多模型會通過一種自修復工作流來「自省」,來自我糾正代碼中的錯誤。

研究者很希望知道,這些模型在多大程度上能提供正確的反饋,并且說明自己生成的代碼為什么是錯誤的。

如圖顯示的是,基于自我修復方法的經典工作流程。

首先,給定一個規范,從代碼生成模型中采樣一個程序,然后在規范中提供的一組單元測試上執行該程序。

圖片圖片

如果程序在任何單元測試中失敗,那么錯誤的消息和程序會被提供給一個反饋生成模型,該模型再輸出代碼失敗原因的簡短解釋。

最后,反饋被傳遞給一個修復模型,該模型生成程序的一個固定版本。

表面上看,這個工作流似乎非常完美。它讓系統在解碼過程中克服由于不良樣本引起的錯誤,在修復階段容易地合并來自符號系統(編譯器、靜態分析工具和執行引擎等)的反饋。

并且模仿人類軟件工程師編寫代碼的試錯方式。

然而,工作流有一個問題:自修復需要對模型進行更多的調用,從而增加了計算成本。

而且,研究者們發現了一個很有意思的現象:大模型自修復的有效性不僅取決于模型生成代碼的能力,還取決于它對于代碼如何在任務中犯錯的識別能力。

目前還沒有任何工作對此進行詳細調查,因此,作者們研究了GPT-3.5和GPT-4在解決競賽級代碼生成任務時的自修復有效性。

研究人員提出了一個新的評估策略,稱為圖片,在這個策略中,根據從模型中采樣的token總數來衡量任務的通過率。

因為使用的是pass@t,而不是傳統的pass@k(根據實驗數量衡量通過率),這樣就能與純粹基于采樣的方法進行公平的比較。

從實驗中,研究者發現:

1. GPT-4才能實現自我修復帶來的性能提升;對于GPT-3.5,在所有預算下,修復后的通過率要低于或等于基準的無修復方法。

2. 即使對于GPT-4模型,性能提升也最多只能算是適度的(在預算為7000個token的情況下,通過率從66%提高到71%,約等于45個獨立同分布的GPT-4樣本的成本),并且取決于初始程序的多樣性足夠豐富。

3. 使用GPT-4生成的反饋替換GPT-3.5對錯誤的解釋,可以獲得更好的自修復性能,甚至超過基準的無修復GPT-3.5方法(在7000個token下,從50%提高到54%)。

4. 使用人類程序員提供的解釋替換GPT-4自己的解釋,可以顯著改善修復效果,修復并通過測試的程序數量增加了57%。

自我修復四階段

自修復方法涉及4個階段:代碼生成、代碼執行、反饋生成和代碼修復。對此,研究人員正式定義了這四個階段。

階段一:代碼生成

給定規范圖片,一個程序模型圖片,首先生成圖片樣本圖片

用一個公式來表示:

圖片圖片

階段二:代碼執行

然后在測試平臺上執行代碼示例,并假設可以以可執行形式的訪問完整測試集。

如果任何樣本通過了所有的測試,就會停止,因為此時已經找到了令人滿意的程序。

否則,收集執行環境返回的錯誤信息

這些錯誤消息要么包含編譯/運行時錯誤信息,要么包含程序輸出與預期不同的示例輸入。

階段三:反饋生成

在此,研究人員使用反饋模型來生成更詳細的錯誤解釋。

在這個階段,為每個錯誤的程序生成圖片反饋字符串,圖片,如下所示:

圖片

階段四:代碼修復

在最后一步中,對于每個初始程序圖片和反饋圖片圖片候選修復程序從圖片中采樣:

圖片

研究人員稱這個過程產生的交錯文本和程序樹修復樹T

——植根于規范圖片,然后分支到初始程序圖片,每個程序分支到反饋圖片,然后修復圖片

具體如圖所示:

圖片圖片

由于自我修復需要幾個非一致成本的相關模型調用,在這種設置中,圖片(在圖片樣本中獲得正確程序的可能性)不是比較和評估自我修復的各種超參數選擇的合適度量。

相反,研究人員將通過率作為從模型中采樣總token數量的函數來衡量,將其稱之為的度量。

實驗過程

研究人員又進一步針對3個問題進行了測試:

1. 對于更加有挑戰的編程任務中,這些模型的自我修復是否比不進行修復的i.i.d.有更好的采樣?

2. 更強的反饋模型會提高模型的修復性能嗎?

3. 如果讓人類參與功能最強模型的自我修復循環,提供人工反饋,是否可以解鎖更好的修復性能?

首先研究團隊引入了一個很有挑戰的編程任務:Automated Programming Progress Standard (APPS)數據集中的編程任務。

這個數據集中的任務包括從入門級到大學競賽級的編程任務,可以用來評估人類程序員解決問題和代碼能力。

研究人員選取了300個任務,包括60個入門級別的任務和60個競賽級別的任務。

圖片圖片

研究人員選取了GPT-3.5和GPT-4作為模型,使用模板字符串連接和單次提示詞來進行自我修復。

下圖為提示詞的實例之一。

圖片圖片

自修復需要強大的模型和多樣化的初始樣本

研究人員讓單個模型分別進行代碼的修復生成和反饋生成。

在右邊的圖中,我們沿軸顯示了具有兩個超參數的熱圖,其中每個單元格中的值表示平均通過率,當給定相同的token預算(即t的相同值pass@t)時,自我修復由基線的平均通過率歸一化。

圖片圖片

從圖中可以看到,對于GPT-3.5模型,pass@t在所有設置下都低于或等于相應的基線(黑),清楚地表明自我修復對GPT-3.5并不是一種有效的策略。

而在GPT-4(下圖)中,有幾個值的自修復通過率明顯優于基線。

圖片圖片

下圖是圖片和基線的無修復方法。

GPT-4反饋改進了GPT3.5的修復結果

研究人員又進一步進行了新的實驗,評估使用單獨的、更強的模型來生成反饋的效果,目的是為了測試一個假設:由于模型無法內省和調試自己的代碼,阻礙了自我修復(比如說對于GPT-3.5)。

圖片圖片

這個實驗的結果如上圖(亮藍色)所示。

在絕對性能方面,GPT-3.5,GPT-4確實突破了性能障礙,并且比GPT-3.5的i.i.d.采樣略微更高效。

這表明文本反饋階段本身是至關重要的,改進它可以緩解GPT-3.5自修復的瓶頸。

人工反饋顯著提高了GPT-4修復的成功率

在最后一項實驗中,想要研究在用更強的模型(GPT-4)進行修復時,加入專家人類程序員的反饋的影響。

研究目的是了解模型識別代碼中錯誤的能力與人類的能力相比如何,以及這如何影響自修復的下游性能。

研究人員研究人員招募了16名參與者,包括15名研究生和1名專業機器學習工程師。

每個參與者都有五種不同的基礎程序,基于他們的Python經驗編寫代碼。

每個程序都取自不同的任務,參與者永遠不會看到屬于同一個任務的兩個不同的程序。

然后,參與者被要求用他們自己的話解釋這個程序做錯了什么。

實驗結果如下圖所示:

圖片圖片

研究人員發現,當我們用人類參與者的調試替換GPT-4自己的調試時,總體成功率提高了1.57×以上。

不出意外的是,隨著問題變得更難,相對差異也會增加,這表明當任務(和代碼)變得更復雜時,GPT-4產生準確和有用反饋的能力遠遠落后于人類參與者。

作者介紹

Jianfeng Gao(高劍鋒)

圖片

高劍鋒是微軟的杰出科學家和副總裁,也是IEEE Fellow。

在微軟研究院,他是Redmond分部深度學習(DL)組的負責人。該組的使命是推進DL的最新技術,并將其應用于自然語言和圖像理解以及構建對話代理。他領導了構建大規模基礎模型的研究,這些模型為微軟的重要人工智能產品提供了支持。

從2022年開始,他負責自我改進人工智能的研究,其中包括對LLM(如ChatGPT/GPT4)進行增強和適應,以用于商業人工智能系統的開發。

在此之前,他于1999年在上海交通大學獲得博士學位。

Chenglong Wang

圖片

Chenglong Wang是微軟研究院的研究員,此前在華盛頓大學獲得了博士學位,并曾就讀于北京大學。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-06-21 13:37:41

模型研究

2023-10-08 13:11:00

訓練數據

2023-07-04 14:01:26

GPT-4模型

2024-04-01 00:50:00

吳恩達智能體

2023-11-16 15:57:00

數據訓練

2023-07-05 15:02:51

2023-09-03 12:56:43

2023-03-17 07:33:24

GPT-5GPT-4OpenAI

2025-04-15 06:13:46

2023-04-04 11:20:40

GPT-4OpenAI

2023-08-02 00:19:46

2023-08-15 10:33:06

微軟必應人工智能

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-12-26 08:17:23

微軟GPT-4

2023-06-16 13:02:22

GPT-5GPT-4AI

2023-11-09 12:41:04

AI模型

2024-05-14 07:30:52

OpenAIGPT-4模型

2023-10-30 10:58:57

2023-03-22 10:24:14

AI智能
點贊
收藏

51CTO技術棧公眾號

欧美精品18videos性欧| 亚洲国产精品小视频| 一区中文字幕在线观看| 亚洲成人精品女人久久久| 99视频一区| 国产一区二区三区欧美| 亚洲黄色片免费| 性爽视频在线| 亚洲免费观看高清完整版在线 | 草久视频在线观看| 久久电影院7| 亚洲国产精品大全| 91女神在线观看| 国产福利片在线观看| 国产视频一区在线播放| 动漫精品视频| 亚洲熟妇av乱码在线观看| 狠狠色狠狠色综合日日tαg| 亚洲欧洲自拍偷拍| 中国男女全黄大片| 国产香蕉久久| 一本久久精品一区二区| 韩国无码av片在线观看网站| 丁香婷婷在线观看| www.亚洲色图.com| 成人精品一区二区三区| 免费看一级视频| 在线欧美日韩| 欧美成人国产va精品日本一级| 黄色aaa视频| 久本草在线中文字幕亚洲| 91.com在线观看| 久久久精品麻豆| 亚洲综合电影| 亚洲午夜三级在线| 三级网在线观看| av中文在线| 久久精品视频一区二区| 九九九热999| 老牛影视av牛牛影视av| 国产精品一区二区三区网站| 国产欧美va欧美va香蕉在| 日本一区二区三区精品| 日韩午夜免费视频| 久久久久久久久久久亚洲| 杨钰莹一级淫片aaaaaa播放| 久久在线视频| 在线日韩日本国产亚洲| 欧美成人国产精品一区二区| 亚洲自拍电影| 亚洲欧美日韩一区在线| 黄色性生活一级片| 美女视频免费精品| 亚洲精品久久久久久久久| 韩国三级hd两男一女| 18国产精品| 日韩精品一区二区三区蜜臀| 亚洲精品乱码久久久久久9色| 96视频在线观看欧美| 欧美精品粉嫩高潮一区二区| 在线看免费毛片| 91麻豆精品国产91久久久更新资源速度超快| 欧美曰成人黄网| 男操女免费网站| 欧美videos粗暴| 91精品欧美福利在线观看| 欧洲美女亚洲激情| 试看120秒一区二区三区| 精品国产91亚洲一区二区三区婷婷| 黑人无套内谢中国美女| 国产精品色呦| 亚洲视频专区在线| 日韩av网站在线播放| 91精品亚洲| 久久久久久一区二区三区| 国产无遮挡免费视频| 国产美女一区| 国产欧美日韩精品丝袜高跟鞋| 一区二区日韩在线观看| 国产一区二区三区香蕉 | 69久久久久久| 国产精一区二区| 亚洲成成品网站| 黄色正能量网站| 区一区二视频| 久久99久久99精品中文字幕 | 欧美在线不卡视频| 麻豆网站免费观看| 精品亚洲精品| 久久精品国产成人| 九九九国产视频| 三级成人在线视频| 91在线国产电影| 色网站免费观看| 国产精品毛片高清在线完整版| 看全色黄大色大片| 精品国产第一福利网站| 欧美乱妇一区二区三区不卡视频| 久久人妻少妇嫩草av蜜桃| 影视先锋久久| 欧美人在线视频| 波多野结衣黄色网址| 国产精品一区二区久激情瑜伽| 久久国产日韩欧美| 高清免费电影在线观看| 日韩欧美中文字幕在线播放| 日本黄色福利视频| 神马日本精品| 久久成人精品视频| 中文字幕在线欧美| 国产不卡免费视频| 亚洲精品影院| 在线观看涩涩| 精品精品国产高清a毛片牛牛 | 五月婷婷开心中文字幕| 国产精品天美传媒| 日本福利视频一区| 91精品国产色综合久久不卡粉嫩| 亚洲人午夜精品| 黄网站免费在线| 国内精品伊人久久久久av一坑| 免费在线观看一区二区| 国产一线二线在线观看| 欧美美女视频在线观看| 亚洲精品91在线| 国产亚洲综合精品| 波多野结衣久草一区| 午夜精品一区| 色94色欧美sute亚洲线路一ni| 91九色蝌蚪porny| 7777久久香蕉成人影院| 国产精品扒开腿做爽爽爽男男| 神马久久久久久久久久| 亚洲宅男天堂在线观看无病毒| 日本不卡一区二区在线观看| 精品国产一区探花在线观看| 欧美在线免费看| 天堂在线视频免费| 亚洲午夜精品一区二区三区他趣| 国产男女无遮挡猛进猛出| 欧美xxav| 国产专区欧美专区| 在线免费看a| 欧美日韩在线一区二区| 女人十八毛片嫩草av| 三级亚洲高清视频| 日韩精品一区二区三区外面| 成人免费直播| 国产亚洲欧美日韩精品| 少妇久久久久久久| 国产日本欧洲亚洲| 三年中国国语在线播放免费| 成人羞羞视频播放网站| 国产美女精彩久久| 999国产在线视频| 欧美日韩午夜影院| 91免费公开视频| 国产一区二区三区久久久| 樱花www成人免费视频| 亚洲精品伊人| 久久的精品视频| www.蜜桃av.com| 亚洲一区二区三区视频在线播放 | 自拍视频在线观看一区二区| 最新av免费在线观看| 一区二区日韩欧美| 999视频在线观看| 91资源在线观看| 亚洲免费伊人电影在线观看av| 日韩电影在线观看一区二区| 中文一区在线播放| 污污视频网站在线| 伊人精品成人久久综合软件| 久久青青草原一区二区| 欧美影视资讯| 久久视频在线观看免费| 亚洲精品无码久久久| 欧美视频在线看| 天天爽天天爽天天爽| 成人a免费在线看| 免费午夜视频在线观看| 精品一区二区三区的国产在线观看| 国产主播在线一区| 91色在线看| 在线看日韩欧美| 黄色av中文字幕| 91国内精品野花午夜精品| 天天看天天摸天天操| 波波电影院一区二区三区| 五月天婷婷激情视频| 亚洲国产一区二区三区在线播放 | 日韩激情图片| 99re视频| 电影一区电影二区| 欧美日本高清视频| av亚洲在线| 亚洲国产97在线精品一区| 中文字字幕在线观看| 亚洲午夜私人影院| 三级黄色片在线观看| 成人av中文字幕| 亚洲天堂2018av| 国产精品综合| 久久久久久久香蕉| 久久在线免费| 日本不卡一区| 99精品在免费线中文字幕网站一区 | 在线精品国产成人综合| 四虎永久在线观看| 69p69国产精品| 天天爱天天做天天爽| 亚洲高清视频在线| 欧美日韩黄色网| 国产三级欧美三级| 国产xxxxxxxxx| 国产精品91一区二区| 精品日韩久久久| 一本久道综合久久精品| 韩国黄色一级大片| 黑丝美女一区二区| 久久精品国产精品国产精品污| 国产免费区一区二区三视频免费| 国产精品入口夜色视频大尺度| av福利导福航大全在线| 欧美人与性动交| 国产精品一卡二卡三卡 | 久久综合久久综合这里只有精品| 伊人久久亚洲| 91久久久久久| 四虎国产精品免费久久| 国产精品一二三在线| 欧美三级网址| 日本不卡高字幕在线2019| 国产中文在线播放| 久久免费福利视频| 免费网站在线观看人| 欧美精品一区在线播放| 欧美日韩欧美| 色偷偷88888欧美精品久久久 | 国产精品三级av在线播放| 无码一区二区三区在线| 久久在线免费观看| 自拍视频一区二区| 99re在线精品| 久久只有这里有精品| 久久免费国产精品| 91视频在线网站| 中文字幕乱码日本亚洲一区二区| 国产jjizz一区二区三区视频| 国产亚洲欧美一区在线观看| 男女做爰猛烈刺激| 国产欧美日韩亚州综合| 人成免费在线视频| 中文字幕乱码日本亚洲一区二区| 国产在视频线精品视频| 中文字幕一区免费在线观看| 九九精品视频免费| 一区二区三区四区精品在线视频| 久久久久成人精品无码| 亚洲伊人色欲综合网| 国产精品成人免费一区二区视频| 亚洲成人av在线电影| √资源天堂中文在线| 色婷婷综合久久久中文一区二区| 无码人妻精品一区二区三区不卡| 欧美在线免费视屏| 国产精品日韩无码| 精品免费一区二区三区| 天堂av在线免费| 亚洲天堂av在线播放| 欧美三级黄网| 欧美第一页在线| 天堂√8在线中文| 国产免费一区二区三区在线观看 | 久久精品国产在热久久| 国产5g成人5g天天爽| 成人妖精视频yjsp地址| 黄色a一级视频| 国产精品久久久久久久久动漫| 国产大片免费看| 亚洲国产日韩精品| 日韩久久久久久久久久| 日韩亚洲欧美一区| 欧美女子与性| 另类色图亚洲色图| а√天堂中文在线资源8| 国产精品欧美一区二区| 亚洲国产欧美在线观看| 欧美成人免费在线| 亚洲国产精品成人| 茄子视频成人免费观看| 久久成人羞羞网站| 99re久久精品国产| 国产精品久久综合| 国产福利拍拍拍| 欧美久久久久久久久中文字幕| 少妇一级淫片免费看| 久久久国产视频91| 国模套图日韩精品一区二区| 91亚洲精品在线| 九九热线有精品视频99| 女人床在线观看| 理论片日本一区| 91视频啊啊啊| 亚洲一区二区三区中文字幕在线| 无码久久精品国产亚洲av影片| 精品国产乱码久久久久久免费| gogogo高清在线观看免费完整版| 久久久亚洲影院| 亚洲色图图片| 视频在线99re| 国产日韩亚洲| 深夜视频在线观看| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 亚洲熟女一区二区三区| 国产精品进线69影院| 天天操夜夜操视频| 精品国产乱码久久久久久图片| 久操视频在线| 国产精品久久久久久久久久尿| 欧美性生活一级片| 成年丰满熟妇午夜免费视频| 久久精品国产一区二区三 | 国产精品探花在线观看| 黄色成人在线看| 国产精品18久久久久久久久久久久| 影音先锋男人在线| 色狠狠一区二区| 日本中文字幕电影在线观看 | 精品视频一区二区三区| 亚洲国产欧美日韩| 丝袜国产日韩另类美女| av直播在线观看| 欧美丝袜美女中出在线| 亚洲av成人精品日韩在线播放| 久久久久国产精品免费| 日本一区二区乱| 成人黄色片免费| 国产91精品在线观看| 国产盗摄一区二区三区在线| 欧美人动与zoxxxx乱| 色欧美激情视频在线| 国产一区二区色| 国产精品久久久久久麻豆一区软件 | 成人在线免费观看网址| 国产专区欧美精品| 老湿机69福利| 日韩欧美一区在线观看| 先锋影音在线资源站91| 97神马电影| 国内精品久久久久久久影视蜜臀 | 欧美午夜电影在线| 欧美日韩在线中文字幕| 日本道色综合久久影院| 欧美日韩在线播放视频| 国产3p在线播放| 亚洲精品欧美激情| 亚洲AV无码成人片在线观看| 韩国美女主播一区| 亚洲精品小区久久久久久| 欧美精品aaaa| 日韩美女久久久| 黄色片网站免费在线观看| 91av在线免费观看视频| 国产一区国产二区国产三区| 污版视频在线观看| 亚洲色图欧美在线| 秋霞网一区二区| 国产精品18久久久久久麻辣| 91综合在线| 激情综合激情五月| 福利视频第一区| 99视频在线观看地址| 99精品国产一区二区| 国产欧美精品| 久久免费手机视频| 日韩欧美另类在线| 一个人www视频在线免费观看| 亚洲精品一区二区三区四区五区 | 国产高清自拍一区| 久久精品人人做人人爽电影蜜月| 日本午夜精品视频| 精品久久久久99| www.久久.com| 久久国产午夜精品理论片最新版本| 久久人人97超碰com| 一级做a爰片久久毛片16| 久99久在线视频| 欧美另类69xxxxx| 韩国三级视频在线观看| 在线免费观看不卡av| 在线观看电影av| 日韩精品资源| 成人免费高清在线| 中文在线资源天堂| 国产综合在线看| 偷拍欧美精品| 亚洲黄色小说视频| 精品久久久久一区| 日韩毛片免费视频一级特黄|