精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

發布一天,Code Llama代碼能力突飛猛進,微調版HumanEval得分超GPT-4

開發
昨天的我:在代碼生成方面開源 LLM 將在幾個月內擊敗 GPT-4 。現在的我:實際上是今天。

昨天,Meta 開源專攻代碼生成的基礎模型 Code Llama,可免費用于研究以及商用目的。

Code Llama 系列模型有三個參數版本,參數量分別為 7B、13B 和 34B。并且支持多種編程語言,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。

Meta 提供的 Code Llama 版本包括:

  • Code Llama,基礎代碼模型;
  • Code Llama-Python,Python 微調版;
  • Code Llama-Instruct,自然語言指令微調版。

就其效果來說,Code Llama 的不同版本在 HumanEval 和 MBPP 數據集上的一次生成通過率(pass@1)都超越 GPT-3.5。

此外,Code Llama 的「Unnatural」34B 版本在 HumanEval 數據集上的 pass@1 接近了 GPT-4(62.2% vs 67.0%)。不過 Meta 沒有發布這個版本,但通過一小部分高質量編碼數據的訓練實現了明顯的效果改進。

圖源:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

一天剛過,就有研究者向 GPT-4 發起了挑戰。他們來自 Phind(一個組織,旨在構造一款為開發人員而生的AI 搜索引擎),該研究用微調的 Code Llama-34B 在 HumanEval 評估中擊敗了 GPT-4。

Phind 聯合創始人 Michael Royzen 表示:「這只是一個早期實驗,旨在重現(并超越)Meta 論文中的「Unnatural Code Llama」結果。將來,我們將擁有不同 CodeLlama 模型的專家組合,我認為這些模型在現實世界的工作流程中將具有競爭力。」

兩個模型均已開源:

研究者在 Huggingface 上發布了這兩個模型,大家可以前去查看。

  • Phind-CodeLlama-34B-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-v1
  • Phind-CodeLlama-34B-Python-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-Python-v1

接下來我們看看這項研究是如何實現的。

微調 Code Llama-34B 擊敗 GPT-4

我們先看結果。這項研究用 Phind 內部數據集對 Code Llama-34B 和 Code Llama-34B-Python 進行了微調,分別得到兩個模型 Phind-CodeLlama-34B-v1 以及 Phind-CodeLlama-34B-Python-v1。

新得到的兩個模型在 HumanEval 上分別實現了 67.6% 和 69.5% pass@1。

作為比較,CodeLlama-34B pass@1 為 48.8%;CodeLlama-34B-Python pass@1 為 53.7%。

而 GPT-4 在 HumanEval 上 pass@1 為 67%(OpenAI 在今年 3 月份發布的「GPT-4 Technical Report」中公布的數據)。

圖源:https://ai.meta.com/blog/code-llama-large-language-model-coding/

圖源:https://cdn.openai.com/papers/gpt-4.pdf

談到微調,自然少不了數據集,該研究在包含約 8 萬個高質量編程問題和解決方案的專有數據集上對 Code Llama-34B 和 Code Llama-34B-Python 進行了微調。

該數據集沒有采用代碼補全示例,而是采用指令 - 答案對,這與 HumanEval 數據結構不同。之后該研究對 Phind 模型進行了兩個 epoch 的訓練,總共有約 16 萬個示例。研究者表示,訓練中沒有使用 LoRA 技術,而是采用了本地微調。

此外,該研究還采用了 DeepSpeed ZeRO 3 和 Flash Attention 2 技術,他們在 32 個 A100-80GB GPU 上、耗時三個小時,訓練完這些模型,序列長度為 4096 個 token。

此外,該研究還將 OpenAI 的去污染(decontamination)方法應用于數據集,使模型結果更加有效。

眾所周知,即便是非常強大的 GPT-4,也會面臨數據污染的困境,通俗一點的講就是訓練好的模型可能已經接受評估數據的訓練。

這個問題對 LLM 非常棘手,舉例來說,在評估一個模型性能的過程中,為了進行科學可信的評估,研究者必須檢查用于評估的問題是否在模型的訓練數據中。如果是的話,模型就可以記住這些問題,在評估模型時,顯然會在這些特定問題上表現更好。

這就像一個人在考試之前就已經知道了考試問題。

為了解決這個問題,OpenAI 在公開的 GPT-4 技術文檔《 GPT-4 Technical Report 》中披露了有關 GPT-4 是如何評估數據污染的。他們公開了量化和評估這種數據污染的策略。

具體而言,OpenAI 使用子串匹配來測量評估數據集和預訓練數據之間的交叉污染。評估和訓練數據都是通過刪除所有空格和符號,只保留字符(包括數字)來處理的。

對于每個評估示例,OpenAI 隨機選擇三個 50 個字符的子字符串(如果少于 50 個字符,則使用整個示例)。如果三個采樣的評估子字符串中的任何一個是處理后的訓練樣例的子字符串,則確定匹配。

這將產生一個受污染示例的列表,OpenAI 丟棄這些并重新運行以獲得未受污染的分數。但這種過濾方法有一些局限性,子串匹配可能導致假陰性(如果評估和訓練數據之間有微小差異)以及假陽性。因而,OpenAI 只使用評估示例中的部分信息,只利用問題、上下文或等效數據,而忽略答案、回應或等效數據。在某些情況下,多項選擇選項也被排除在外。這些排除可能導致假陽性增加。 

關于這部分內容,感興趣的讀者可以參考論文了解更多。

論文地址:https://cdn.openai.com/papers/gpt-4.pdf

不過,Phind 在對標 GPT-4 時使用的 HumanEval 分數存在一些爭議。有人說,GPT-4 的最新測評分數已經達到了 85%。但 Phind 回復說,得出這個分數的相關研究并沒有進行污染方面的研究,無法確定 GPT-4 在接受新一輪測試時是否看到過 HumanEval 的測試數據。再考慮到最近一些有關「GPT-4 變笨」的研究,所以用原始技術報告中的數據更為穩妥。

不過,考慮到大模型評測的復雜性,這些測評結果能否反映模型的真實能力依然是一個有爭議的問題。大家可以下載模型后自行體驗。

參考鏈接:

  • https://benjaminmarie.com/the-decontaminated-evaluation-of-gpt-4/
  • https://www.phind.com/blog/code-llama-beats-gpt4

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2024-04-01 00:00:00

馬斯克Grok 1.5HumanEval

2023-09-10 10:51:22

算法結構

2023-06-08 11:27:10

模型AI

2024-01-30 20:36:09

GPT-4羊駝代碼

2010-01-05 10:22:23

Google Andr

2024-04-19 14:52:13

MetaGPT-4模型

2024-04-03 12:18:45

AI訓練

2019-11-21 13:46:24

編程語言PythonJava

2023-08-25 13:12:59

AI開源

2023-07-25 09:23:23

Llama 2GPT-4

2016-05-04 13:14:54

2016信息技術卓越峰

2023-08-27 12:54:59

GPT-4神秘版本Code

2023-10-08 13:11:00

訓練數據

2023-05-29 09:29:52

GPT-4語言模型

2024-12-31 07:30:00

2024-07-09 12:54:57

2023-06-19 08:19:50

2023-10-31 15:26:02

阿里云通義千問

2024-04-19 10:32:08

點贊
收藏

51CTO技術棧公眾號

欧美精三区欧美精三区| 不卡一二三区首页| 欧美成人精品h版在线观看| 视频免费1区二区三区| 黄色成人在线| 成人免费视频国产在线观看| 国产91成人video| 日本黄色激情视频| 日本精品在线播放| 欧美日韩亚洲高清| 在线播放豆国产99亚洲| 蜜桃久久一区二区三区| 日韩国产精品久久久| 欧美精品一区三区| 国产全是老熟女太爽了| 国产精品中文| 日韩欧美在线视频日韩欧美在线视频| 正在播放亚洲| 欧美日韩国产综合视频| 精品一区二区在线观看| 91高清视频免费观看| 国产精品理论在线| 国产伦精品一区二区三区免费优势| 日韩欧美亚洲国产一区| www.18av.com| jizz在线免费观看| 99久久精品国产网站| 成人在线视频福利| 天天操天天操天天操天天| 一区二区电影| 在线精品91av| 国产精品久久久免费观看| 国产在线不卡一区二区三区| 色欧美88888久久久久久影院| 免费观看亚洲视频| 成人免费在线| 国产精品色眯眯| 欧美高清性xxxxhdvideosex| 农村少妇久久久久久久| 国产精品一区在线观看你懂的| 国产国产精品人在线视| 日韩字幕在线观看| 伊人成年综合电影网| 麻豆乱码国产一区二区三区| 日韩av片在线| 欧美激情在线免费| 日韩精品中文在线观看| 97精品人妻一区二区三区蜜桃| 欧美在线在线| 宅男噜噜噜66一区二区66| 天天色综合天天色| 国产极品久久久久久久久波多结野| 欧美日韩美女在线观看| heyzo亚洲| 国产不卡人人| 黑人欧美xxxx| 日批视频在线免费看| 欧美aaaaa性bbbbb小妇| 欧美日韩午夜视频在线观看| 久久久久久久午夜| 国产激情在线播放| 欧美日韩国产限制| 中国丰满人妻videoshd| 欧美国产大片| 欧美午夜理伦三级在线观看| www.com操| 欧美爱爱视频| 欧美一区二区三区在| 91精品视频国产| 秋霞影院一区| 亚洲福利在线播放| 亚洲中文字幕无码av| 四虎5151久久欧美毛片| 亚洲人成电影网站色www| 91精彩刺激对白露脸偷拍| 中文字幕伦av一区二区邻居| 一区二区三区高清国产| 免费在线观看黄色小视频| 欧美淫片网站| 97视频网站入口| 丰满少妇xoxoxo视频| 日韩在线一区二区| 成人久久精品视频| 成人久久久精品国产乱码一区二区 | 777欧美精品| 国产人妻精品久久久久野外| 久久影院资源站| 亚洲色图欧美制服丝袜另类第一页| 欧美图片第一页| 亚洲成av人电影| 久久久久久久久爱| 一级黄色av片| 国产一区二区三区免费观看| 国产欧美一区二区在线播放| 毛片在线播放网址| 18涩涩午夜精品.www| 屁屁影院ccyy国产第一页| 亚洲欧美小说色综合小说一区| 欧美视频精品在线观看| 最好看的中文字幕| 久久爱www成人| 久久综合网hezyo| wwwxxx亚洲| 久久超碰97人人做人人爱| 国产精品国产三级国产专区53| 国际av在线| 亚洲一区影音先锋| 日本久久精品一区二区| 色播一区二区| 尤物九九久久国产精品的分类 | 亚洲一区二区视频在线观看| 日本黄色三级大片| 成人日韩欧美| 91福利精品视频| 午夜福利三级理论电影| 欧美呦呦网站| 久久视频在线播放| 影音先锋在线国产| 国产精品亚洲综合一区在线观看| 麻豆av一区二区| 欧美激情午夜| 亚洲一区二区三区小说| 国产日韩欧美久久| 亚洲理论电影片| 欧美精品久久一区二区| 中文字幕乱码在线观看| 99re成人精品视频| 久久久久久久9| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 久久香蕉av| 91精品久久久久久久99蜜桃| 欧美三级视频网站| 亚洲免费综合| 国产综合 伊人色| 亚洲精品一线| 欧美猛男gaygay网站| 白白色免费视频| 香蕉亚洲视频| 国产欧美日韩一区二区三区| 色呦呦呦在线观看| 91精品国产乱| 国产免费美女视频| 久久www免费人成看片高清| 日韩福利视频| av在线日韩| 亚洲欧洲av一区二区| 国产成人亚洲精品自产在线| 国产成人自拍高清视频在线免费播放| 在线看视频不卡| 男人亚洲天堂| www.精品av.com| 国产精品视频a| 成人欧美一区二区三区小说| 色综合色综合色综合色综合| 日韩在线观看一区| 国产精品直播网红| 日本福利在线| 欧美情侣在线播放| 日本二区三区视频| 狠狠色丁香九九婷婷综合五月| 亚洲欧美久久234| 欧美风情在线视频| 久久精品国产亚洲精品2020| 国产孕妇孕交大片孕| 亚洲欧美视频在线观看| 中文字幕在线观看视频www| 欧美a级在线| 97超级碰碰| h片精品在线观看| 亚洲精品久久久久中文字幕欢迎你| 久久草视频在线| 久久久久久久久久久久久女国产乱 | 色综合激情五月| 欧美激情视频二区| 国内精品伊人久久久久av影院 | 国产精品对白一区二区三区| 91超碰免费在线| 亚洲人av在线影院| 国产一区二区网站| 亚洲女爱视频在线| 逼特逼视频在线观看| 国产精品入口| 亚洲一区二区在线看| 欧美特黄不卡| 欧美性视频精品| 日本在线www| 精品av综合导航| 91黑人精品一区二区三区| 成人免费小视频| 这里只有精品在线观看视频| 老司机亚洲精品| 日本一本草久p| 私拍精品福利视频在线一区| 91美女片黄在线观看游戏| 国产三线在线| 色偷偷av一区二区三区| 好男人在线视频www| 欧美在线一二三四区| 精品99在线观看| 国产亚洲欧美日韩日本| 性生交大片免费看l| 久久午夜av| 国产成人亚洲综合无码| 欧美精品一二| 国产精品一区二区免费看| 久久91导航| 欧美激情一区二区久久久| 岛国在线视频免费看| 精品国产露脸精彩对白| 曰批又黄又爽免费视频| 香蕉加勒比综合久久| 国产日产精品一区二区三区的介绍| aaa亚洲精品| 五月天丁香花婷婷| 日韩福利电影在线观看| 欧美国产日韩激情| 香蕉精品视频在线观看| 欧美性天天影院| 成人高潮视频| 97久久精品午夜一区二区| www.成人在线视频| 青青青国产精品一区二区| 日本乱理伦在线| 久久精品男人天堂| 成年人视频网站在线| 日韩毛片在线看| 亚洲免费一级片| 欧美一区二区三区婷婷月色 | 性插视频在线观看| 欧美日韩成人综合天天影院 | 欧美高清视频不卡网| 日韩久久中文字幕| 亚洲h在线观看| 九九九免费视频| 亚洲美女在线国产| 五月婷婷综合激情网| 国产午夜精品理论片a级大结局| 六十路息与子猛烈交尾| 国产91丝袜在线播放九色| 黄色片免费网址| 国产真实精品久久二三区| 中日韩av在线播放| 六月丁香综合在线视频| www.涩涩涩| 日韩专区在线视频| 成年人视频在线免费| 久久久噜噜噜| 青青在线视频免费| 日韩高清在线一区| 中文久久久久久| 免费成人在线观看视频| jizz大全欧美jizzcom| 奇米精品一区二区三区在线观看| 国产视频一区二区视频| 久久久久国产精品一区三寸| 欧美污视频网站| 日本不卡123| 中文字幕第17页| 国产精品一级片在线观看| 中文字幕无人区二| 99在线精品一区二区三区| 国产a级黄色片| xf在线a精品一区二区视频网站| av无码av天天av天天爽| 国产色产综合产在线视频 | 亚洲欧美日本在线| 欧美日韩免费一区二区| 亚洲尤物视频在线| 激情五月色婷婷| 欧洲国内综合视频| 97成人在线观看| 日韩欧美色综合网站| 日本黄色不卡视频| 亚洲欧美国产视频| 在线观看免费黄色| 成年无码av片在线| 超级碰碰不卡在线视频| 热久久美女精品天天吊色| 日本欧美在线| 国产精品二区三区四区| 国产伦精品一区二区三区千人斩| 亚洲一区免费看| 国内综合精品午夜久久资源| 日本wwww视频| 久久精品99国产精品| 亚洲色图欧美另类| 国产日韩精品一区二区三区| 一级性生活免费视频| 亚洲电影在线免费观看| 免费看污视频的网站| 日韩一本二本av| 久久精品国产亚洲a∨麻豆| zzijzzij亚洲日本成熟少妇| 国产丝袜在线播放| 国产一区香蕉久久| 极品尤物一区| 欧美 另类 交| 欧美中文字幕| 亚洲国产欧美91| 久久精品综合网| 青青草手机在线视频| 91成人免费在线视频| 亚洲精品久久久久avwww潮水| 亚洲网站视频福利| hd国产人妖ts另类视频| 国产一区玩具在线观看| 日韩精品导航| 国产午夜精品视频一区二区三区| 久久成人精品| 亚洲图片欧美另类| 中文字幕中文字幕一区二区| 在线观看亚洲欧美| 91精品国产91久久久久久最新毛片 | 久久国产欧美精品| 中文字幕一区二区三区乱码图片 | 婷婷色中文字幕| 欧美性色黄大片| 人妻精品无码一区二区| 北条麻妃久久精品| 日本成人伦理电影| 精品欧美日韩| 国内自拍一区| 久久久久久久久久久影视| 国产精品久久久久久久久晋中 | 9191国产精品| jizz在线免费观看| 国产成人精品久久二区二区91 | 亚洲国产精品嫩草影院久久| 国产写真视频在线观看| 国产精品女视频| 美国成人xxx| 高清欧美精品xxxxx| 国产精品一区二区黑丝| 亚洲精品卡一卡二| 欧美日韩一级视频| 91porn在线观看| 国产精品流白浆视频| 久久不卡国产精品一区二区| 少妇高潮喷水久久久久久久久久| 成人avav在线| 日本一区二区欧美| 亚洲白虎美女被爆操| 污污在线观看| caoporn国产精品免费公开| 亚洲一区二区三区无吗| 亚洲综合20p| 亚洲美女区一区| 精品国产九九九| 欧美激情欧美激情| 国产精品调教视频| av无码久久久久久不卡网站| 成人高清免费观看| 日韩欧美a级片| 亚洲片av在线| 写真福利精品福利在线观看| 日本一区二区三不卡| 日韩影院免费视频| 91视频免费看片| 777色狠狠一区二区三区| 中文字幕中文字幕在线十八区| 亚洲xxxx视频| 激情成人综合| 中文字幕第4页| 欧美亚洲动漫另类| 韩国av网站在线| 国产精品久久久久久久天堂第1集| 亚洲黄色高清| 制服 丝袜 综合 日韩 欧美| 欧美日韩一区在线观看| 成人免费网址| 久久www免费人成精品| 日韩在线一区二区三区| 艳妇荡乳欲伦69影片| 亚洲成av人影院在线观看| 无遮挡在线观看| 亚洲精品一区二区三区樱花| 国产一区二区在线免费观看| 国产第一页在线播放| 亚洲人成在线观看| 婷婷丁香久久| 国精产品一区一区三区视频| 国产色综合久久| 国产sm主人调教女m视频| 97视频国产在线| 欧美成人激情| 亚洲成av人片在线观看无| 日本道色综合久久| 操你啦在线视频| 蜜桃麻豆www久久国产精品| 久久精品国产精品亚洲综合| 久一视频在线观看| 夜夜躁日日躁狠狠久久88av| 日韩一级淫片| 国产熟女高潮视频| 亚洲欧美激情一区二区| 你懂的视频在线免费| 99久久免费国| 美女视频免费一区| 日韩精品视频免费看| 色婷婷久久一区二区|