精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4寫代碼不如ChatGPT,誤用率高達62%!加州大學兩位華人開源代碼可靠性基準RobustAPI

人工智能 新聞
代碼能否跑起來的不是判斷可靠性的標準,用語言模型寫代碼還需要考慮生產環境下的預期外輸入。

大型語言模型(LLM)在理解自然語言和生成程序代碼方面展現出了非凡的性能,程序員們也開始在編碼過程中使用Copilot工具輔助編程,或是要求LLM生成解決方案。

經過幾版迭代后,目前LLM生成的代碼已經很少有語法錯誤了,也更貼合用戶輸入的文本、符合預期語義,但針對LLM代碼生成的可靠性和魯棒性仍然缺乏徹底的研究。

代碼的可執行并不等同于可靠,軟件的開發環境、部署環境都存在很大的不確定性。

如果直接使用LLM生成的代碼,可能會因為AP誤用(misuse)導致更嚴重的問題,例如資源泄漏、程序崩潰;最糟糕的是,使用LLM代碼生成服務的用戶大多數都是新手開發人員,很難識別出「貌似可運行代碼」下的隱藏問題,進一步增加了漏洞代碼在現實中的應用風險。

現有的代碼評估基準和數據集主要專注于小任務,例如面試中的編程問題,可能不符合開發人員在工作中的實際需求。

最近,來自加州大學的兩位華人研究人員發布了一個用于評估生成代碼可靠性和魯棒性的新數據集RobustAPI,包括從StackOverflow中收集得到的1208個編碼問題,涉及24個主流Java API的評估。

論文鏈接:https://arxiv.org/pdf/2308.10335.pdf

研究人員總結了這些API的常見誤用模式,并在當下常用的LLM上對其進行評估,結果表明,即使是GPT-4,也有高達62%的生成代碼包含API誤用問題,如果代碼被實際部署,可能會導致意想不到的后果。

論文相關的數據和評估器不久后將開源。

方法

數據收集

為了利用軟件工程領域現有的研究成果,RobustAPI沒有從零構建,而是基于在線問答論壇中頻繁出現的Java API誤用數據集ExampleCheck

圖片

研究人員從數據集中選擇了23個流行的Java APIs,涵蓋了字符串處理、數據結構、移動開發、加密和數據庫操作等。

然后再從Stack Overflow中爬取與上述API相關的問題,只選擇問題中包含在線答案的,可以保證RobustAPI是可回答的(answerable),能夠更有效地評估LLM在「人類容易犯錯問題」上的代碼能力。

收集數據后將問題轉換為JSON格式,包含四個字段:

1. id,為樣本分配的唯一標識符

2. api,用來提示大型語言模型問題相關API

3. question,包括問題的標題和描述

4. origin,樣本的原始URL

提示生成(prompt generation)

研究人員設計了一個提示模板,并用數據集中的樣本進行填充,再從LLMs收集回復內容,并實現一個API使用檢查器來評估代碼的可靠性。

在少樣本演示下進行實驗時,每個示例都提供回復的格式,然后在最后放入數據集中的問題及相應API提示,模擬新手用戶詢問時提出的問題。

LLM在對話時可以識別特殊標簽的結構,所以研究人員將問題和答案封裝起來指示LLM生成問題的答案。

演示樣本(Demonstration Samples)

為了深入分析LLMs的代碼生成能力,研究人員設計了兩個少樣本實驗:

1. one-shot-irrelevant,使用不相關的API(如Arrays.stream)作為語言模型的提示樣例。

研究人員假定該示例可以消除生成代碼中的語法錯誤。

2. one-shot-relevant,使用相同的API作為示例,包括一組問題和答案。

JAVA API誤用

研究人員在使用API時,需要充分理解API的使用規則,以便實現理想的API效果。

一個典型的例子是文件操作,通過RandomAccessFile打開和寫入文件時,需要注意兩條使用規則:

1. 讀取文件可能會引發異常。

如果在讀取預期字節之前達到緩沖區限制,API將拋出IndexOutOfBoundsException異常;當該文件同時被其他進程關閉時,API將拋出ClosedChannelException。

為了處理這些異常,正確的實現應該將API包含在try-catch塊中。

2. 使用后應應該關閉文件通道,否則的話,如果此代碼片段位于在多個實例中并發運行的長期程序中,文件資源可能會耗盡,代碼需要在所有文件操作后調用close API

另一個容易被誤用的API使用規則的例子是一個特殊的數據對象TypedArray,需要開發人員調用recycle()來手動啟用垃圾收集,否則,即使不再使用此TypedArray,Java虛擬機中的垃圾收集也不會被觸發。

在沒有垃圾回收的情況下使用該API會導致未釋放的內存消耗,在生產環境部署后,在大工作負載和高并發性下會降低甚至掛起軟件系統。

在RobustAPI數據集中,研究人員總結了40個API使用規則,具體包括:

1. API的保護條件,在API調用之前應該檢查,例如File.exists()應該在調用File.createNewFile()之前;

2. API的調用順序,例如close()的調用應該在File.write()之后;

3. API的控制結構,例如SimpleDataFormat.parse()應該被try-catch結構所包圍。

檢測API誤用

現有的評估LLMs生成的代碼的研究通常使用人工編寫或自動測試生成的測試用例,但即使是高覆蓋率的測試用例也只能覆蓋語義正確性,無法模擬生產環境中的各種意外輸入,無法對代碼的可靠性和健壯性進行完善的評估。

為了解決這個難題,研究人員使用靜態分析的方法,在不運行測試用例的情況下,通過代碼結構分析代碼誤用,可以保證對整個程序的全面覆蓋,并且比測試解決方案的效率更高。

為了評估代碼中API用法的正確性,先從代碼片段中提取調用結果和控制結構,然后根據API使用規則檢測API誤用。

代碼檢查器(code checker)首先檢查代碼片段,判斷是一個方法的片段還是一個類的方法,然后就可以對代碼片段進行封裝,并從代碼片段中構造抽象語法樹(AST)。

然后檢查器遍歷AST,按順序記錄所有的方法調用和控制結構,從而生成一個調用序列;檢查器將調用序列與API使用規則進行比較,判斷每個方法調用的實例類型,并使用類型和方法作為鍵來檢索相應的API使用規則。

最后,檢查器計算調用序列和API使用規則之間的最長公共序列:如果調用序列與預期的API使用規則不匹配,則報告API誤用。

實驗結果

研究人員使用4個語言模型(GPT-3.5,GPT-4,Llama-2,Vicuna-1.5)在RobustAPI上進行評估。

將可編譯且包含API誤用的答案除以所有可編譯的答案后,計算得到各個語言模型的誤用率。

從實驗結果上來看,即便是最先進的商業模型,如GPT-3.5和GPT-4也存在誤用的問題。

在零樣本設置下,Llama的API誤用率最低,不過大多數Llama的答案中都不包含代碼。

一個與直覺相反的發現是,雖然OpenAI官方宣稱GPT-4比GPT-3.5在代碼生成上的性能提升達到40%,但實際上GPT-4的代碼誤用率要更高。

這一結果也表明,代碼在現實世界生產中的可靠性和健壯性沒有得到業界的重視,并且該問題存在巨大的改進空間。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-08 13:00:59

模型訓練

2022-05-27 13:37:55

算法觸覺

2021-06-25 15:41:45

AI 數據人工智能

2023-10-08 13:11:00

訓練數據

2025-11-10 08:57:00

AI模型測試

2010-12-28 19:50:21

可靠性產品可靠性

2024-05-20 08:40:00

2013-08-08 10:10:28

華為云存儲華為

2009-01-08 10:09:12

Xiotech存儲虛擬化惠普

2009-04-01 18:44:48

Vmware虛擬化存儲

2023-06-19 08:19:50

2024-06-17 09:05:00

2023-08-27 14:08:17

開源代碼Meta大模型

2023-05-15 12:32:29

GPT-4開源

2024-05-20 10:12:54

自動駕駛開源

2023-03-28 08:23:38

2025-04-16 09:35:03

2023-09-12 18:02:30

2009-02-24 18:56:01

虛擬化存儲虛擬化南加州大學

2021-04-07 09:47:59

勒索軟件攻擊數據泄露
點贊
收藏

51CTO技術棧公眾號

996这里只有精品| 91精品国产综合久久男男 | 波多野结衣办公室33分钟| 手机在线理论片| 99精品久久只有精品| 国产精品久久久久久久久久ktv| 国产亚洲精品精品精品| 国产精品美女久久久久人| 亚洲一二三四区| 欧美一二三区| 成人av手机在线| 久久精品三级| 欧美国产第二页| 天天躁日日躁aaaa视频| 久久伊人影院| 在线观看91视频| 成人在线视频一区二区三区| 日韩av视屏| 久热成人在线视频| 欧美一区二区三区免费视| 亚洲av无一区二区三区| 亚洲另类春色校园小说| 91精品国产91久久综合桃花| 日本不卡在线观看视频| 久久77777| 久久综合久色欧美综合狠狠| av成人在线电影| 中文字幕 亚洲视频| 国产午夜精品一区二区三区欧美| www.亚洲天堂| 国产精品1000部啪视频| 91蝌蚪精品视频| 欧美三级日本三级少妇99| 黄色免费视频大全| 第四色日韩影片| 综合久久一区二区三区| 欧美一进一出视频| 日韩av视屏| www.欧美精品一二区| 亚洲精品免费在线视频| 一本一道精品欧美中文字幕| 欧美一区=区| 97精品在线视频| 久草视频在线资源| 91精品国产91久久久久久黑人| 国产一区二区三区视频| 好吊视频在线观看| 青青操综合网| 日韩av影片在线观看| 精品人妻在线视频| 91麻豆精品激情在线观看最新| 欧美一区永久视频免费观看| www.亚洲自拍| 9999精品视频| 91麻豆精品国产91久久久使用方法 | 色一情一乱一乱一91av| 日本三级免费网站| 免费在线小视频| 都市激情亚洲色图| 黄色免费观看视频网站| 伊人成综合网站| 精品成人乱色一区二区| 久久久999视频| 9i看片成人免费高清| 欧美午夜丰满在线18影院| 精品国产免费av| 欧美大片免费观看网址| 色婷婷久久一区二区三区麻豆| 农村妇女精品一二区| 欧洲av不卡| 欧美色综合网站| 亚洲天堂国产视频| 精品三级久久久| 精品国产91九色蝌蚪| 97香蕉碰碰人妻国产欧美| 久久综合另类图片小说| 亚洲精品在线视频| 成年人看的免费视频| 91精品动漫在线观看| 欧美高清在线播放| 五月天婷婷激情| 美女视频一区二区三区| 91在线播放国产| 日本激情一区二区| 国产日韩欧美综合一区| 伊人色综合影院| 欧美性爽视频| 色综合色狠狠综合色| 久热精品在线观看视频| 日本免费精品| 国产婷婷成人久久av免费高清 | 最新国产成人在线观看| 国产精品无码电影在线观看| 欧美裸体视频| 欧美日韩国产123区| 国产调教打屁股xxxx网站| 一区二区三区韩国免费中文网站| 色综合伊人色综合网| 久久精品视频日本| 蜜桃久久精品一区二区| 国产精品yjizz| 成人在线免费观看| 亚洲国产精品欧美一二99| 妞干网在线免费视频| 国产aa精品| 亚洲精品永久免费| 久久久久无码精品国产| 日本va欧美va精品| 国产精品国产三级国产专区53 | 欧美成人免费高清视频| 日本免费成人| 日韩精品丝袜在线| 亚洲女人久久久| 久久都是精品| 国产精品青青草| 五月婷婷在线视频| 福利视频一区二区| 91人人澡人人爽| 日韩精品一卡| 欧美怡红院视频一区二区三区| 一本色道久久综合亚洲| 国产香蕉久久精品综合网| 秋霞无码一区二区| 清纯唯美激情亚洲| 在线观看欧美成人| 国产免费av一区| 大桥未久av一区二区三区中文| 亚洲精品中文字幕在线| 国产欧美一区二区三区精品酒店| 欧美一区二区三区公司| 五月天免费网站| 日韩vs国产vs欧美| 精品在线视频一区二区| 日本高清在线观看视频| 69堂国产成人免费视频| 中文字幕第二区| 久久精品天堂| 久久综合给合久久狠狠色| 国产盗摄一区二区| 欧美mv和日韩mv的网站| 男女性高潮免费网站| 久久99精品久久久久久国产越南 | 99re久久精品国产| 精品999成人| 俄罗斯精品一区二区三区| 精品自拍一区| 欧美一区午夜视频在线观看| 天天爽天天爽天天爽| 美腿丝袜亚洲色图| 亚洲欧美久久久久一区二区三区| 欧美暴力调教| 最近中文字幕日韩精品 | 午夜三级在线观看| 国产综合久久久久影院| 亚洲精品一区二区毛豆| 精品国产美女a久久9999| 中文字幕精品久久| 伊人免费在线观看高清版| 国产精品免费视频一区| 嫩草视频免费在线观看| 亚洲乱码电影| 成人羞羞视频免费| 日本性爱视频在线观看| 亚洲激情成人网| 国偷自拍第113页| 久久欧美中文字幕| 九九九在线观看视频| 第一社区sis001原创亚洲| 国产男女猛烈无遮挡91| 里番在线观看网站| 日韩欧美国产午夜精品| 日本熟妇成熟毛茸茸| 99久久精品免费看| 日韩精品免费播放| 色无极亚洲影院| 成人欧美一区二区三区在线观看| 亚洲插插视频| 中文字幕欧美专区| 国产视频www| 亚洲成人自拍一区| 四虎永久免费在线观看| 久久精品国产成人一区二区三区 | 国产日韩精品视频一区二区三区 | 国内在线免费高清视频| 欧美影院午夜播放| jizz亚洲少妇| 91丨porny丨户外露出| 搡女人真爽免费午夜网站| 亚洲天天综合| 黄色小网站91| 欧美爱爱视频| 亚州欧美日韩中文视频| 国产爆初菊在线观看免费视频网站 | 久久嫩草精品久久久久| 久久综合在线观看| 国产精品美女| 国产福利片一区二区| 欧美成人一区在线观看| 国产精品视频一区二区三区四| 日本不卡影院| 一区二区三区黄色| 国模无码一区二区三区| 欧美在线观看视频在线| 中文字幕第28页| 国产精品久久久久永久免费观看| 一区二区免费在线观看视频| 久久精品国内一区二区三区| 成人一区二区免费视频| 国产精品国产三级国产在线观看| 国产亚洲精品自在久久| 国产一区二区视频在线看| 欧美在线日韩在线| 黑人精品视频| 精品国产一区二区在线| 日本天堂影院在线视频| 日韩视频永久免费| 亚洲影院一区二区三区| 日韩欧美中文在线| 国产一级片播放| 亚洲色图20p| 成人在线观看免费高清| 99精品视频中文字幕| 18深夜在线观看免费视频| 免费一级欧美片在线观看| 青青视频在线播放| 伊人久久综合| 亚洲中文字幕无码一区二区三区| 日韩欧美一区二区三区免费看| 久久婷婷开心| 另类春色校园亚洲| av激情久久| 欧美.com| 91亚洲人电影| 狂野欧美xxxx韩国少妇| 成人激情电影一区二区| 久久伊人国产| 国产精品久久久久久亚洲影视| 在线观看的黄色| 69**夜色精品国产69乱| av影视在线看| 久久久人成影片一区二区三区观看| 粗大黑人巨茎大战欧美成人| 精品国偷自产在线视频| 免费高清完整在线观看| 中文字幕在线日韩| 一本一道波多野毛片中文在线| 国产一区二区欧美日韩| 国产污视频在线| 亚洲图片在区色| 国产午夜精品一区理论片| 亚洲色图美腿丝袜| 国产精品天堂| 中文字幕视频一区二区在线有码| 国产日韩精品在线看| 亚洲美女av黄| 福利在线视频导航| 日韩在线视频网站| 毛片免费不卡| 久久99精品视频一区97| 黄页在线观看免费| 97成人超碰免| 午夜欧美巨大性欧美巨大| 国产精品激情av在线播放| 国产精品字幕| 91久久国产精品91久久性色| 美女日韩一区| 国模一区二区三区私拍视频| 免费欧美一区| 亚洲美女搞黄| 欧美人成网站| 久久无码高潮喷水| 麻豆精品视频在线观看免费| 久久久久久综合网| 成人一区二区视频| 五月婷婷综合在线观看| 国产精品色呦呦| 欧美被狂躁喷白浆精品| 激情久久av一区av二区av三区| 69视频免费在线观看| 欧美网站大全在线观看| 草草视频在线播放| 亚洲乱码一区av黑人高潮| av在线天堂播放| 欧美大片免费观看| 亚洲精品成人图区| 成人午夜高潮视频| 国产香蕉精品| 亚洲在线观看一区| 精品1区2区3区4区| 高清一区在线观看| 国产91精品一区二区麻豆网站| 亚洲狠狠婷婷综合久久久久图片| 国产精品视频第一区| 久久高清无码视频| 欧洲一区二区三区在线| www.日韩高清| 亚洲美腿欧美激情另类| 中文在线免费| 国产福利精品av综合导导航| 久久久国产精品入口麻豆| 欧美激情视频一区二区三区| 亚洲草久电影| 激情综合网俺也去| 成人动漫一区二区| 极品美妇后花庭翘臀娇吟小说| 精品久久久中文| 国产情侣在线播放| 亚洲午夜未满十八勿入免费观看全集| 欧美性video| 成人欧美一区二区三区黑人孕妇| 欧美在线导航| 老司机激情视频| 美女www一区二区| 可以直接看的无码av| 亚洲综合色噜噜狠狠| 亚洲无码精品在线观看| 国产丝袜一区二区三区免费视频| 在线免费观看污| 国产日产欧美a一级在线| 亚洲精品无吗| 成人在线观看你懂的| 国产一区二区三区黄视频 | 你懂的免费在线观看| 欧美高清无遮挡| 秋霞影院一区| 欧美 日韩 国产 在线观看| 日韩电影免费一区| v8888av| 欧美日韩国产中文精品字幕自在自线| 国产深喉视频一区二区| 日韩一区二区av| 福利一区二区三区视频在线观看| 麻豆91蜜桃| 裸体一区二区| 午夜理伦三级做爰电影| 婷婷综合五月天| 日韩一级片免费观看| 欧美激情在线观看| 亚洲日本va中文字幕| 免费看黄色a级片| 国产一区二区三区av电影| 99成人在线观看| 欧美日本精品一区二区三区| 爱久久·www| 国产精品欧美一区二区三区奶水| 精品国产91| 久久久精品三级| 国产欧美一区二区在线| 亚洲精品久久久久久久蜜桃| 国产亚洲欧洲高清一区| 免费污视频在线一区| 日日噜噜噜噜夜夜爽亚洲精品| 丝袜诱惑制服诱惑色一区在线观看| 在线免费观看黄色小视频| 一本一道综合狠狠老| 韩国三级av在线免费观看| 国产精品美女在线| 99精品电影| 男生和女生一起差差差视频| 一区二区三区高清不卡| 亚洲男人天堂久久| 97久久精品视频| 一区二区三区韩国免费中文网站| 国产成人av影视| 国产精品久久二区二区| 国产色片在线观看| 97国产一区二区精品久久呦 | 九九热国产视频| 亚洲女在线观看| 成人亚洲视频| 老司机午夜免费福利视频| 成人美女在线观看| 日本中文字幕第一页| 色老头一区二区三区在线观看| 秋霞一区二区三区| 成人免费毛片网| 国产精品美女久久久久久久久久久 | 青草在线视频| 女人一区二区三区| 久久激情五月婷婷| 久久久无码精品亚洲国产| 日韩精品在线观看视频| 在线欧美激情| 国产美女主播在线播放 | 亚洲第一天堂无码专区| 欧美艳星kaydenkross| gogogo免费高清日本写真| 懂色av一区二区三区免费看| 51国产偷自视频区视频| 菠萝蜜影院一区二区免费| 久久男人av| 91亚洲精品久久久蜜桃借种| 亚洲风情在线资源站| 高清在线观看av| 成人动漫视频在线观看完整版| 久久国产精品久久w女人spa| 99热精品免费| 国产亚洲欧美日韩美女| 高清精品xnxxcom| 亚洲综合婷婷久久|