精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑!把李沐都炸出來了

人工智能 新聞
比如GPT-4在變笨并非危言聳聽,這項評測發現GPT進化路上出現了明顯的“蹺蹺板現象”,即模型進化過程中一部分能力提升另一部分下降。

GPT-3究竟是如何進化到GPT-4的?

字節給OpenAI所有大模型來了個“開盒”操作。

結果還真摸清了GPT-4進化路上一些關鍵技術的具體作用和影響。

圖片

比如:

  • SFT是早期GPT進化的推動者
  • 幫助GPT提升編碼能力的最大功臣是SFT和RLHF
  • 在預訓練中加入代碼數據則提升了后續GPT版本的各方面能力,尤其是推理……

創業后忙得不可開交的AI大牛李沐看完,也久違地出現在公眾視野,并給這項研究點了個贊。

圖片

網友們更是盛贊:

這是迄今為止第一個充分開盒OpenAI所有模型的工作,respect。

圖片

而除了一些新發現,它還坐實了一些已有猜想:

比如GPT-4在變笨并非危言聳聽,這項評測發現GPT進化路上出現了明顯的“蹺蹺板現象”,即模型進化過程中一部分能力提升另一部分下降。

這和網友此前的感受不謀而合。

圖片

如作者本人表示:

這項工作可以為GPT-3到GPT-4的演化路徑提供寶貴的見解。

言外之意,通過它我們可以一窺GPT模型的“成功之道”,為接下來的大模型構建工作提供有效經驗。

那么,具體它都“開”出了哪些東西,我們扒開論文來看。

探秘GPT-3到GPT-4進化之路

最開頭的進化圖由作者們根據公開信息總結得出。

可以看到,它標注了每一個中間模型是經過哪些技術(如代碼微調、SFT/FeedME等)一路從最初的GPT-3進化到3.5再到如今的4。

這些技術具體起到了多大影響,從davinci到gpt-4-0613,字節對每代GPT的數學、編碼、推理等7大能力全部測了個“底朝天”。

圖片

1. SFT:早期GPT進化的推動者

首先,在GPT-3系列中,最初的davinci (GPT-3)通過監督微調SFT和其變體FeedME進化為了text-davinci-001。

這讓后者在幾乎全部任務上都獲得了性能提升:

圖片

更直觀的表現如下圖所示(“粉圈”為進化后的text-davinci-001)。

圖片

接著,GPT開始進入3.5系列,在該系列早期階段,先是最基礎的code-davinci002采用同樣的技術進化成text-davinci-002。

然而這一進化操作的效果屬實不大,GPT的各項性能只有少數幾個提升,更多是不增反減的。

圖片

在此,作者引出他們的第一個結論,即:

SFT只在較弱的基礎模型上管用,用在更強的模型上收效甚微

類似現象在開源模型身上也可見(這個評測還測了Llama1和2、PaLM2-L、Claude 2等模型)

在初代Llama-65B之上,SFT成功提升了它在MMLU基準上的性能,但是,所有使用了SFT改進的Llama2-70B在Open LLM Leaderboard榜單上卻只表現出微小的進步。

總結:在GPT3階段,SFT技術對模型的進化起到了關鍵作用。

2、RLHF和SFT:編碼能力提升的功臣

順著GPT3.5系列接著看,從text-davinci-002開始,OpenAI開始引入新技術基于PPO算法的RLHF,得到text-davinci-003。

此時,它在大部分基準上的表現和前代模型持平或略變差,說明作用不是特別明顯(在開源模型身上也是如此)。

但有一個除外:編碼任務,最高足足增加了近30分。

圖片

聯想到前面code-davinci002采用SFT技進化成text-davinci-002造成整體性能下降時,編碼任務也沒受影響,反而還漲分了——

圖片

作者決定驗證SFT和RLHF對大模型編碼能力的影響。

在此,他們測量了幾代GPT模型的pass@1(采樣1次通過的概率)、pass@100(采樣100次通過的概率)等分數。

圖片

結果是與基礎模型相比,使用了SFT和RLHF技術的模型在pass@1上出現了大幅提升,而在pass@100上略有下降。

這說明啥呢?

作者解釋:

pass@100刻畫的是模型內在coding能力,而pass@1代表的是模型一遍過、bug-free的coding能力。

pass@100小幅下降表明SFT和RLHF在編碼任務上和其它任務一樣,仍然有所謂的對齊稅(alignment tax)

不過,SFT和RLHF能夠將pass@100的能力學到pass@1上,即把內在能力(但需要很多次嘗試)轉化到一遍過、bug-free的coding能力,致使pass@1大幅提升。

而再仔細看結果,可以發現gpt-3.5-turbo-0301通過SFT和RLHF,大幅提升了pass@1,這對于小模型的性能優化是個好消息。

圖片

這還沒完,鑒于作者之前觀察到GPT-4在一些復雜推理任務上經過多次嘗試才能解決問題。

他們結合上面的觀察,總結為:
LLM仍可以通過SFT和RLHF,不斷將內在能力(但需要多次嘗試)轉化成一次性解決問題的能力,不斷逼近LLM的能力上限。

言外之意,GPT-4還可以更強。

3、代碼加入預訓練,對推理幫助最大

在GPT4進化之路上,還出現了2個特別的模型:

code-cushman-001 (Codex-12B) 和code-davinci-002。

前者是OpenAI初次嘗試使用代碼數據訓練模型,盡管它的規模較小,但也取得了不錯的代碼能力。

后者是GPT3.5的基座模型,它是在GPT3的基礎上使用RLHF+代碼訓練的結果,也就是文本和代碼混合預訓練。

可以看到,它大幅超越GPT-3(不止是編碼能力)、在一些推理任務上(如BBH)表現甚至可以超過后面的gpt-3.5-turbo-0613。

圖片

作者表示:

這表明預訓練加入代碼數據可以全面提升LLM的能力,尤其是推理能力。

4、“蹺蹺板”現象

通過比較2023年3月和2023年6月的OpenAI API模型,我們確實可以發現這一現象:

與gpt-3.5-turbo-0301相比,升級后的gpt-3.5-turbo-0613在HumanEval上表現出色(53.9 -> 80.0),但在MATH上卻大幅下降(32.0 -> 15.0)

gpt-4-0613在DROP上的表現優于gpt-4-0314 (78.7 -> 87.2) ,但在MGSM上也出現了直線下降(82.2 -> 68.7) 

作者認為:

“蹺蹺板現象”可能成為LLM通往AGI之路的絆腳石,因為AGI強調“通用智能”,要在所有task上都有優異的性能,要求模型不能“偏科”。

在此,他們也呼吁社區重視這個問題,共同推進大模型平衡發展的研究。

幫助大模型從業者找到方向

以上這些發現,全部基于GPT-Fathom——

字節最新提出的一個大模型評測工具。

想必大家肯定疑問:

大模型排行榜和評測工具已經有很多了,為什么還要提出一個新的方法?

作者介紹,相比已有的測評方式,GPT-Fathom尺度更加統一,結果具有可重現性。

大模型從業者可以借助它來明確自己與領先模型的差距到底在什么地方,從而有的放矢地完善自己的產品。

具體來看,GPT-Fathom主要是解決了其他大模型評測方法的三個不足:

  • setting標準不一致:是否使用思維鏈(CoT)、樣本數量等設置,以及答案評價方法沒有統一標準
  • 模型和任務收集不完整:測試關注的能力不全面,缺乏對早期模型的關注
  • 缺乏對模型敏感性的研究

為了更直觀體現GPT-Fatham的特點,作者對比了一些具體的現有榜單,可以總結成下面這個表格:

圖片

其中,對敏感性的評測就發現了此前的測試標準沒能找出的問題。

相比于GPT,其他模型對提示詞的敏感度很高,稍有變化就會導致輸出截然不同,提示其他模型的魯棒性和GPT之前還存在很大差距。

比如在TriviaQA數據集上,提示詞的細微改變就讓Llama 2-70B的得分下降四分之一,而GPT系列模型則沒有明顯變化。

圖片

此外諸如CoT、樣本數量以及采樣方差等因素也都被包括進了敏感性測試當中。

未來,作者計劃從能力種類、測試數據集和模型三個維度繼續擴展GPT-Fathom,將支持多輪對話、多模態等能力的測評,以及增加對多個數據集和模型的測試。

GPT-Fatham的兩位共同一作分別是字節公司應用機器學習研究組的研究人員張馭宇(Yuyu Zhang)和實習生Shen Zheng。

Shen Zheng是伊利諾伊大學香檳分校(UIUC)的一名碩士生。

此外,字節公司的Yijie Zhu等四名研究人員,以及UIUC的Kevin Chen-Chuan Chang教授也參與了這項研究。

論文地址:https://arxiv.org/abs/2309.16583
參考鏈接:https://github.com/GPT-Fathom/GPT-Fathom

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-10-18 11:12:44

2023-07-07 09:32:57

GPT-4OpenAI

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-07-11 15:30:08

GPT-4架構

2023-04-09 16:17:05

ChatGPT人工智能

2025-08-18 09:15:00

2023-03-16 19:17:57

2023-03-28 08:23:38

2023-06-19 08:19:50

2025-08-19 08:40:00

AI技術模型

2023-08-17 08:00:00

2023-09-19 13:48:31

AI數據

2025-04-16 09:35:03

2023-12-09 14:30:50

2025-08-07 14:05:40

OpenAI大模型開源

2024-05-14 07:30:52

OpenAIGPT-4模型

2021-03-23 15:21:00

人工智能機器學習技術

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2021-07-13 17:38:49

算法語言模型GPT-4

2022-04-20 10:47:46

AIGPT-4
點贊
收藏

51CTO技術棧公眾號

性欧美18~19sex高清播放| 九九九久久久久久| 国产精品一区二区久久| 91九色蝌蚪porny| 在线视频 中文字幕| y111111国产精品久久久| 国产午夜亚洲精品午夜鲁丝片| 久久精品亚洲一区| 人人爽人人av| 三级理论午夜在线观看| 97视频一区| 欧美日韩亚洲国产一区| 国产精品久久久久久久免费大片| 四虎永久免费地址| av在线一区不卡| 久久你懂得1024| 欧美最顶级的aⅴ艳星| 美女扒开腿免费视频| 日本免费一区二区三区四区| 99久久伊人久久99| 午夜精品视频在线| 国产二级一片内射视频播放| 日本aa在线| 国产中文字幕精品| 伦理中文字幕亚洲| 亚洲综合20p| a级片国产精品自在拍在线播放| 狠狠色综合色综合网络| 日韩亚洲国产中文字幕| 五月天av在线播放| 黄色av网站在线播放| 国产一区久久久| 欧美一区二区三区免费观看| 色婷婷在线影院| 激情开心成人网| 亚洲高清不卡在线观看| 狠狠色综合欧美激情| 日本特级黄色片| 久久久久久毛片免费看| 欧美日韩在线一区| 视频一区二区三| 亚洲一区二区三区网站| 久久精品天堂| 日韩中文字幕视频在线观看| 久久久久亚洲av无码专区桃色| 中文字幕在线视频久| 一区二区三区久久| 韩国成人一区| 丰满人妻av一区二区三区| 亚洲一级影院| 亚洲天天在线日亚洲洲精| 亚洲老女人av| 69成人在线| 成a人片亚洲日本久久| 日av在线播放中文不卡| 亚洲精品国产精品乱码| 精品国产视频| 日韩三级视频中文字幕| 精品久久久久久久久久中文字幕| 五月婷婷丁香花| 蜜桃免费网站一区二区三区 | 国产sm主人调教女m视频| 欧美日韩第一区| 亚洲人成在线观看网站高清| 日韩av片专区| 免费看男女www网站入口在线| 久久久久久久电影| 亚洲一区二区三区香蕉| 国产精品免费av一区二区| 一区三区视频| 91精品国产高清| 潘金莲一级黄色片| 亚洲成人精品| 亚洲欧美中文日韩v在线观看| 91黄色免费视频| 福利一区和二区| 性做久久久久久久久| 影音先锋欧美在线| 日韩欧美亚洲系列| 国产亚洲欧美日韩日本| 一区二区三区免费看| 丝袜视频国产在线播放| 国产在线精品一区二区夜色| 91网站免费看| 国产精品成人无码| 销魂美女一区二区三区视频在线| 欧美成年人视频| 18精品爽国产三级网站| 日韩一级电影| 欧美精品一区二区三区很污很色的 | 亚洲人妻一区二区| 欧美激情一区二区| 国产在线一区二区三区欧美| 国产美女主播在线观看| 奇米色777欧美一区二区| 97精品视频在线观看| 人人草在线观看| 免费一区视频| 成人国产精品一区二区| 欧美性受xxx黑人xyx性爽| 九色|91porny| 欧美性猛交xxxx乱大交退制版| 欧美精品v日韩精品v韩国精品v| 人妻无码久久一区二区三区免费| 美女国产在线| 国产亚洲一区字幕| 超碰97在线看| 菠萝蜜视频国产在线播放| 亚洲v精品v日韩v欧美v专区| 在线看的黄色网址| www.国产精品一区| 少妇av一区二区三区| 变态另类ts人妖一区二区| 台湾色综合娱乐中文网| 日韩在线观看免费| 成人毛片在线播放| 国产91精品一区二区麻豆网站| 91在线播放国产| 三级视频在线| 亚洲综合av网| 视频免费1区二区三区| 欧美午夜三级| 婷婷国产在线综合| 国产 福利 在线| sese综合| 欧美中文字幕一区| 亚洲美女性囗交| 要久久爱电视剧全集完整观看| 日韩黄在线观看| 国产伦精品一区二区三区妓女| 亚洲男人都懂第一日本| 另类图片亚洲另类| 一级片视频网站| 国产精品538一区二区在线| 99在线视频免费观看| 亚洲欧美国产高清va在线播放| 国产日韩高清在线| 成人精品小视频| 外国成人在线视频| 性欧美xxxx交| 日本精品久久久久| 久久久影视传媒| 国产精品裸体瑜伽视频| 97久久亚洲| 欧美激情18p| 欧美啪啪小视频| 99久免费精品视频在线观看| 免费人成在线观看视频播放| 亚洲精品永久免费视频| 亚洲大胆人体av| 久久午夜精品视频| 你懂的国产精品| 69久久夜色精品国产69乱青草| 亚洲AV无码乱码国产精品牛牛 | 日本电影一区二区在线观看| 亚洲6080在线| 国产网站无遮挡| 亚洲欧美清纯在线制服| 欧美日韩精品不卡| 久久77777| 在线播放日韩导航| 男人网站在线观看| aa级大片欧美三级| 成人网在线视频| 国内外激情在线| 欧美电影精品一区二区| 免费一级做a爰片久久毛片潮| 911精品美国片911久久久| 91亚洲va在线va天堂va国| 黄视频在线观看网站| 欧美一级高清片| 婷婷色中文字幕| 丝袜美腿亚洲色图| 成人黄动漫网站免费| 欧美家庭影院| 日韩av影院在线观看| av一级在线观看| 中文字幕日韩精品一区| 哪个网站能看毛片| 成人动态视频| 欧美中文字幕视频在线观看| 大地资源中文在线观看免费版| 亚洲国产视频一区二区| 亚洲综合欧美在线| 欧美一区影院| 久久综合久久综合这里只有精品| av网站大全在线| 亚洲第一区第二区| 婷婷激情五月综合| 2024国产精品| 男女啪啪免费观看| 欧美美女在线直播| 欧美黑人性猛交| 日本在线丨区| 欧美一区二区三区视频在线| 国产在视频线精品视频| 国产大陆a不卡| 久久久久久久久久久福利| 爽成人777777婷婷| 国产精品女人网站| 国产精品久久久久一区二区国产| 欧美午夜激情小视频| av在线播放中文字幕| 成人av电影在线播放| 一路向西2在线观看| 亚洲视频日本| 国产精品v欧美精品∨日韩| av理论在线观看| 亚洲毛片一区二区| 国产剧情在线视频| 久久色在线观看| 日本wwwxx| 影音先锋国产精品| 中文字幕一区二区三区在线乱码| 麻豆一区一区三区四区| 91精品国产综合久久香蕉最新版| av在线电影观看| 亚洲国产精品久久91精品| 91福利在线观看视频| 日韩欧美在线第一页| 精品人妻在线播放| 成人黄色国产精品网站大全在线免费观看 | 午夜视频一区| 中文精品一区二区三区| 精品国产一区二区三区久久久蜜臀| 99视频免费观看蜜桃视频| 国产综合色激情| 欧洲亚洲在线视频| 日韩影院在线| 国模吧一区二区| 四虎在线视频免费观看| 婷婷开心久久网| 久久精品波多野结衣| av电影在线观看不卡| 18禁免费无码无遮挡不卡网站| 国产精品第一页在线观看| 国产69精品一区二区亚洲孕妇| 成人免费视频久久| 亚洲欧美日韩国产综合精品二区| 精品少妇人欧美激情在线观看| 中文在线日韩| 国产免费高清一区| 玖玖玖视频精品| 久久久久久中文字幕| 手机看片福利在线观看| 精品国产百合女同互慰| 超碰福利在线观看| 欧美性极品xxxx娇小| 国产精品变态另类虐交| 亚洲国产成人精品视频| 国产精品18p| 午夜伦欧美伦电影理论片| 国产精品6666| 国产精品久久久久久久久久免费看 | 91av精品| 黄色片免费在线观看视频| 日韩精品免费一区二区夜夜嗨| 国产 高清 精品 在线 a| 国产精品流白浆在线观看| 国产精品盗摄久久久| 天堂8中文在线| 亚洲午夜精品久久久久久性色| 免费在线稳定资源站| 日韩手机在线导航| 国产91绿帽单男绿奴| 日韩国产中文字幕| 国产毛片在线看| 久久精品成人欧美大片| 日韩123区| 欧美在线不卡区| 久久亚洲国产精品尤物| 3d动漫啪啪精品一区二区免费 | 国产三级精品网站| 91久久青草| 国产成人精品999| 国产三级伦理在线| 色999日韩欧美国产| 日本在线视频网| 亚洲欧美国产va在线影院| a黄色在线观看| 欧美激情视频在线免费观看 欧美视频免费一 | 中文字幕一区二区三区中文字幕 | 最新日韩一区| 91传媒在线免费观看| 丝袜美腿一区二区三区动态图| 婷婷精品国产一区二区三区日韩| 亚洲激情中文| 亚洲熟妇av一区二区三区漫画| 久久99国产精品成人| 视频免费在线观看| 国产精品短视频| 国产成人自拍视频在线| 欧美三级韩国三级日本三斤 | 亚洲国产午夜| av影院在线播放| 亚洲永久免费| 午夜av中文字幕| 91蜜桃视频在线| 四虎永久免费在线| 亚洲精品国产成人久久av盗摄 | 秋霞欧美在线观看| 中文字幕成人在线| 番号在线播放| 久久久免费观看| 欧美日韩伦理一区二区| 欧美精品二区三区四区免费看视频 | 国产一区在线观看麻豆| 亚洲熟妇无码av| 亚洲综合色视频| 亚洲图片小说视频| 亚洲毛茸茸少妇高潮呻吟| 丰满诱人av在线播放| 成人精品在线观看| 欧美一区二区三区激情视频| 牛人盗摄一区二区三区视频| 91精品亚洲| 狠狠热免费视频| 美洲天堂一区二卡三卡四卡视频| 久久国产劲爆∧v内射| 成人综合在线视频| 黄色av网址在线观看| 自拍偷拍国产亚洲| 国产精品欧美综合| 亚洲欧美日韩区| 欧美男男tv网站在线播放| 成人av免费在线看| 中文字幕一区二区精品区| 亚洲国产高清av| 亚洲国产精品精华液2区45| 中文国语毛片高清视频| 一区二区高清免费观看影视大全 | 国产福利在线导航| 欧美在线你懂的| 国产资源在线看| 久久久精品在线| 日韩黄色在线| 一区二区三区三区在线| 蜜桃av一区二区| 国产精品视频在| 精品视频一区二区不卡| 高清av在线| 国产第一区电影| 欧美精品一二| 日日噜噜噜噜久久久精品毛片| 国产亚洲欧美一区在线观看| 国产99免费视频| 日韩在线视频网站| 日本久久二区| 国产欧美综合一区| 国产日韩欧美三级| 亚洲欧洲日本精品| 国产精品嫩草影院av蜜臀| 日本a在线观看| 亚洲国产天堂久久综合网| av网站在线免费观看| 欧美黑人巨大精品一区二区| 午夜免费欧美电影| 日本黄网免费一区二区精品| 艳女tv在线观看国产一区| 手机在线国产视频| 亚洲久草在线视频| 波多野结衣视频观看| 国产香蕉97碰碰久久人人| 日韩网站中文字幕| 久草热久草热线频97精品| 亚洲天天影视网| 国产sm在线观看| 国产精品福利一区二区| 99久久精品无免国产免费| 欧美国产第一页| 亚洲最好看的视频| 性chinese极品按摩| 亚洲免费三区一区二区| 狠狠综合久久av一区二区| 97免费在线视频| 日韩欧美高清在线播放| 无码aⅴ精品一区二区三区浪潮| 国产婷婷色一区二区三区| 国产同性人妖ts口直男| 性欧美亚洲xxxx乳在线观看| 国产日产一区| a级黄色一级片| 国产欧美精品一区| 精品国产999久久久免费| 国产91精品久久久| 久久在线视频免费观看| 国产伦精品一区二区三区精品| 色综合天天综合网天天狠天天 | 黄色网络在线观看| 91在线观看免费视频| 国产无码精品在线观看| 亚洲深夜福利在线| 综合激情久久| wwww.国产| 舔着乳尖日韩一区| 免费黄色在线观看| 免费毛片一区二区三区久久久| 精品系列免费在线观看| 日本高清不卡码| 欧美裸身视频免费观看|