精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

這是GPT-4變笨的新解釋

人工智能
大模型變懶、變笨,具體是指模型在新任務上的零樣本性能變差。盡管上述原因聽起來很有趣,但問題到底怎么解決呢?

自發布以來,曾被認為是世界上最強大的 GPT-4 也經歷了多場「信任危機」。

如果說今年早些時候那次「間歇式降智」與 OpenAI 重新設計 GPT-4 架構有關,前段時間的「變懶」傳聞就更搞笑了,有人測出只要告訴 GPT-4「現在是寒假」,它就會變得懶懶散散,仿佛進入了一種冬眠狀態。

大模型變懶、變笨,具體是指模型在新任務上的零樣本性能變差。盡管上述原因聽起來很有趣,但問題到底怎么解決呢?

在最近的一篇論文中,加州大學圣克魯斯分校研究者的新發現或可解釋 GPT-4 性能下降的深層原因:

「我們發現,在訓練數據創建日期之前發布的數據集上,LLM 的表現出奇地好于之后發布的數據集。」

它們在「見過的」任務上表現出色,而在新任務上則表現糟糕。這意味著,LLM 只是基于近似檢索的模仿智能方法,主要是記憶東西,而沒有任何程度的理解。

說白了,就是 LLM 的泛化能力「沒有說的那么強」—— 基礎不扎實,實戰總有出紕漏的時候。

造成這種結果的一大原因是「任務污染」,這是數據污染的其中一種形式。我們以前熟知的數據污染是測試數據污染,即在預訓練數據中包含測試數據示例和標簽。而「任務污染」是在預訓練數據中加入任務訓練示例,使零樣本或少樣本方法中的評估不再真實有效。

研究者在論文中首次對數據污染問題進行了系統分析:

論文鏈接:https://arxiv.org/pdf/2312.16337.pdf

看完論文,有人「悲觀」地表示:

這是所有不具備持續學習能力的機器學習(ML)模型的命運,即 ML 模型權重在訓練后會被凍結,但輸入分布會不斷變化,如果模型不能持續適應這種變化,就會慢慢退化。

這意味著,隨著編程語言的不斷更新,基于 LLM 的編碼工具也會退化。這就是為什么你不必過分依賴這種脆弱工具的原因之一。

不斷重新訓練這些模型的成本很高,遲早有人會放棄這些低效的方法。

目前還沒有任何 ML 模型能夠可靠地持續適應不斷變化的輸入分布,而不會對之前的編碼任務造成嚴重干擾或性能損失。

而這正是生物神經網絡所擅長的領域之一。由于生物神經網具有強大的泛化能力,學習不同的任務可以進一步提高系統的性能,因為從一項任務中獲得的知識有助于改善整個學習過程本身,這就是所謂的「元學習」。

「任務污染」的問題有多嚴重?我們一起來看下論文內容。

模型和數據集

實驗所使用的模型有 12 個(如表 1 所示),其中 5 個是專有的 GPT-3 系列模型,7 個是可免費獲取權重的開放模型。

數據集分為兩類:2021 年 1 月 1 日之前或之后發布的數據集,研究者使用這種劃分方法來分析舊數據集與新數據集之間的零樣本或少樣本性能差異,并對所有 LLM 采用相同的劃分方法。表 1 列出了每個模型訓練數據的創建時間,表 2 列出了每個數據集的發布日期。

上述做法的考慮是,零樣本和少樣本評估涉及模型對其在訓練期間從未見過或僅見過幾次的任務進行預測,其關鍵前提是模型事先沒有接觸過要完成的特定任務,從而確保對其學習能力進行公平的評估。然而,受污染的模型會給人一種未接觸或僅接觸過幾次的能力的假象,因為它們在預訓練期間已經接受過任務示例的訓練。在按時間順序排列的數據集中,檢測這種不一致性會相對容易一些,因為任何重疊或異常都會很明顯。

測量方法

研究者采用了四種方法來測量「任務污染」:

  1. 訓練數據檢查:在訓練數據中搜索任務訓練示例。
  2. 任務示例提取:從現有模型中提取任務示例。只有經過指令調優的模型才能進行提取,這種分析也可用于訓練數據或測試數據的提取。注意,為了檢測任務污染,提取的任務示例不必與現有的訓練數據示例完全匹配。任何演示任務的示例都表明零樣本學習和少樣本學習可能存在污染。
  3. 成員推理:此方法僅適用于生成任務。檢查輸入實例的模型生成內容是否與原始數據集完全相同。如果完全匹配,就可以推斷它是 LLM 訓練數據中的一員。這與任務示例提取不同,因為生成的輸出會被檢查是否完全匹配。開放式生成任務的精確匹配強烈表明模型在訓練過程中見過這些示例,除非模型「通靈」,知道數據中使用的確切措辭。(注意,這只能用于生成任務。)
  4. 時序分析:對于在已知時間范圍內收集訓練數據的模型集,在已知發布日期的數據集上測量其性能,并使用時序證據檢查污染證據。

前三種方法精度高,但召回率低。如果能在任務的訓練數據中找到數據,那么就能確定模型曾見過示例。但由于數據格式的變化、用于定義任務的關鍵字的變化以及數據集的大小,使用前三種方法找不到污染證據并不能證明沒有污染。

第四種方法,按時間順序分析的召回率高,但精確度低。如果由于任務污染而導致性能較高,那么按時間順序分析就有很大機會發現它。但隨著時間的推移,其他因素也可能導致性能提高,因此精確度較低。

因此,研究者采用了所有四種方法來檢測任務污染,發現了在某些模型和數據集組合中存在任務污染的有力證據。

他們首先對所有測試過的模型和數據集進行時序分析,因為它最有可能發現可能的污染;然后使用訓練數據檢查和任務示例提取尋找任務污染的進一步證據;接下來觀察了 LLM 在無污染任務中的性能,最后使用成員推理攻擊進行額外分析。

重點結論如下:

1、研究者對每個模型在其訓練數據在互聯網上抓取之前創建的數據集和之后創建的數據集進行了分析。結果發現,對于在收集 LLM 訓練數據之前創建的數據集,其性能高于大多數基線的幾率明顯更高(圖 1)。

2、研究者進行了訓練數據檢查和任務示例提取,以查找可能存在的任務污染。結果發現,對于不可能存在任務污染的分類任務,在一系列任務中,模型很少比簡單多數基線有統計意義上的顯著提高,無論是零樣本還是少樣本(圖 2)。

研究者也檢查了 GPT-3 系列和開放 LLM 的平均表現隨時間的變化,如圖 3:

3、作為案例研究,研究者還嘗試對分析中的所有模型進行語義解析任務的成員推理攻擊,發現在最終任務中,提取實例的數量與模型的準確性之間存在很強的相關性(R=.88)(圖 6)。這有力地證明了在這一任務中零樣本性能的提高是由于任務污染造成的。

4、研究者還還仔細研究了 GPT-3 系列模型,發現可以從 GPT-3 模型中提取訓練示例,而且從 davinci 到 GPT-3.5-turbo 的每個版本中,可提取的訓練示例數量都在增加,這與 GPT-3 模型在該任務上零樣本性能的提高密切相關(圖 2)。這有力地證明了從 davinci 到 GPT-3.5-turbo 的 GPT-3 模型在這些任務上的性能提高是由于任務污染造成的。

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2024-01-02 06:30:58

ChatGPTGPT-3.5

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-07-14 09:49:16

2024-01-02 13:12:53

GPT-4UCSC數據

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-06-02 13:19:17

GPT-4文本代碼

2023-07-21 14:16:15

2023-11-02 12:21:50

GPT-4緩存模型

2025-05-30 07:40:56

2023-10-08 13:11:00

訓練數據

2023-07-20 14:33:36

GPT-4代碼

2023-03-28 13:01:20

GPT-4開發OpenAI

2023-05-03 20:53:48

2023-03-16 19:17:57

2023-08-04 13:28:20

GPT代碼用戶

2023-03-28 08:23:38

2023-11-24 09:00:00

2024-05-21 12:23:17

2023-08-15 15:03:00

AI工具
點贊
收藏

51CTO技術棧公眾號

粉嫩av蜜桃av蜜臀av| 国产精品免费入口| 老熟妇高潮一区二区高清视频| 欧美日韩精品一本二本三本| 日韩av中文字幕在线| 久久国产乱子伦免费精品| 99riav在线| 波多野结衣视频一区| 国产精品久久久999| 欧美极品aaaaabbbbb| 欧美美女在线观看| 3751色影院一区二区三区| 日韩欧美国产综合在线| av小片在线| 成人精品免费看| 国产日韩精品在线| 久久国产视频一区| 欧美激情亚洲| 中文字幕精品视频| 国产毛片毛片毛片毛片毛片毛片| a屁视频一区二区三区四区| 一区二区三区鲁丝不卡| 亚洲精品免费在线看| 无码国产精品一区二区色情男同 | 国产性猛交xxxx免费看久久| 91大神免费观看| 在线看欧美视频| 婷婷夜色潮精品综合在线| 先锋影音男人资源| av在线日韩国产精品| 99精品国产99久久久久久白柏| 91夜夜揉人人捏人人添红杏| 国产精品午夜一区二区| 99精品欧美| 欧美黑人xxxⅹ高潮交| www.com.av| 欧美伦理影院| 亚洲人成77777在线观看网| 国内自拍偷拍视频| 免费观看性欧美大片无片| 欧美日韩五月天| 激情六月丁香婷婷| 三妻四妾的电影电视剧在线观看| 一区二区三区久久| 成年人三级视频| 麻豆影院在线观看| 国产精品久久久久久久久图文区| 日产国产精品精品a∨| 天天色综合久久| 成人av综合一区| 岛国一区二区三区高清视频| 国产精品自偷自拍| 久久狠狠亚洲综合| 国产精品一区久久| 91亚洲精品国偷拍自产在线观看 | 欧美性猛交xxxx偷拍洗澡| av在线免费观看国产| 午夜dj在线观看高清视频完整版 | 日本一区二区不卡在线| 黄色国产精品| 午夜精品福利电影| 中文字幕在线观看免费视频| 99国产精品私拍| 欧美亚洲另类制服自拍| 久久久久女人精品毛片九一| 国产手机视频一区二区| 国产福利成人在线| 最近中文字幕在线观看| 久久精品久久综合| 亚洲伊人第一页| 亚洲第一第二区| 波多野结衣在线aⅴ中文字幕不卡| 国产乱码一区| 免费av在线电影| 欧美国产一区视频在线观看| 亚洲欧美国产一区二区| 成人午夜在线影视| 亚洲一区二区三区精品在线| 91成人在线观看喷潮教学| xxxxxx欧美| 欧美日韩一区二区电影| 无套内谢丰满少妇中文字幕| 一区二区三区四区精品视频| 日韩精品久久久久久福利| 国产免费一区二区三区网站免费| 日韩精品一区二区久久| 久久91精品国产91久久久| 亚洲视频免费播放| 日韩av高清在线观看| 91社区国产高清| 艳母动漫在线看| 国产精品全国免费观看高清| 亚洲色欲久久久综合网东京热| 在线观看的黄色| 在线成人免费视频| www.日本高清| 亚洲一区二区| 国产成人精品在线播放| 99久久精品免费看国产交换| 白白色 亚洲乱淫| 亚洲一区尤物| 麻豆免费在线| 欧美一区二区不卡视频| 在线 丝袜 欧美 日韩 制服| 99久久这里只有精品| 97婷婷大伊香蕉精品视频| 日本中文字幕在线观看视频| 国产成人综合视频| 日韩精品久久久| av3级在线| 欧美狂野另类xxxxoooo| 欧美 日本 国产| 亚洲第一偷拍| 国产精品美女www| 色婷婷中文字幕| 亚洲激情欧美激情| 成年人黄色片视频| 牛牛精品成人免费视频| 久久国产精品久久久久| 精产国品一区二区| 成人国产精品免费观看| 一本一生久久a久久精品综合蜜 | 91精品一区二区三区综合| 1769国产精品| 懂色av成人一区二区三区| 国产精品久久一卡二卡| 久久久久久久久久久福利| 豆花视频一区二区| 欧美理论片在线观看| 亚洲中文字幕在线一区| 国产三级一区二区三区| 免费国产a级片| 成人香蕉社区| 日韩小视频在线| 最近中文字幕在线观看| 国产拍欧美日韩视频二区| 国产一区二区网| 国产欧美三级电影| 国内精品视频一区| www夜片内射视频日韩精品成人| 国产精品毛片久久久久久| 少妇高清精品毛片在线视频| 卡通动漫精品一区二区三区| 久久国产精品久久久久久久久久| 亚洲图片视频小说| 中文字幕欧美激情一区| 中文字幕天天干| 久久中文字幕av| 国产欧美中文字幕| 1024免费在线视频| 欧美美女黄视频| 国产黄在线免费观看| 九一久久久久久| 99re99热| 4438全国亚洲精品观看视频| 欧美精品中文字幕一区| 亚洲成人av综合| 亚洲午夜在线视频| 成年人看片网站| 亚洲国产免费| 欧美日韩三区四区| 韩日精品一区| 精品国偷自产在线视频| 精品国产av一区二区| 一区二区欧美精品| 国产性生活毛片| 久久免费高清| 亚洲午夜精品久久久中文影院av| 四虎地址8848精品| 欧美疯狂做受xxxx高潮| 欧美一级性视频| 欧美视频在线看| 激情五月深爱五月| 国产精品123| 亚洲不卡中文字幕无码| 精品国产一区二区三区四区 | 色综合久久88| 天天干天天爽天天操| 91国内精品野花午夜精品| 成人午夜免费影院| 岛国精品在线观看| www.欧美日本| 亚洲精品a级片| 久久精品久久精品国产大片| 日韩av首页| 久久夜精品va视频免费观看| 欧洲精品久久一区二区| 日本久久电影网| 看片网站在线观看| 91捆绑美女网站| 久久婷婷中文字幕| 国产精品腿扒开做爽爽爽挤奶网站| 日韩精品一线二线三线| 国产一区二区三区免费在线| 97精品国产97久久久久久| 二区在线观看| 精品久久99ma| 久久久久久久久久一级| 亚洲制服丝袜av| 亚欧精品视频一区二区三区| 成人黄色综合网站| 日本高清久久久| 午夜宅男久久久| 女人床在线观看| 欧美日韩水蜜桃| 国产日本一区二区三区| 日韩黄色三级在线观看| 91av中文字幕| 亚洲wwwww| 在线播放日韩av| 天堂在线视频网站| 欧美一级二级在线观看| 中文字幕亚洲精品一区| 亚洲少妇屁股交4| 亚洲av无码一区二区三区人 | 精品在线不卡| av成人在线网站| 国产精品va在线| av资源网在线播放| 久久99久久亚洲国产| 国模吧精品人体gogo| 亚洲激情视频在线观看| 国产av精国产传媒| 欧美另类一区二区三区| 进去里视频在线观看| 欧美日韩激情网| 久久精品久久精品久久| 自拍偷拍亚洲欧美日韩| 亚洲自拍偷拍图| 久久老女人爱爱| 性欧美18—19sex性高清| 精一区二区三区| 污版视频在线观看| 日本不卡一区二区三区高清视频| 青青艹视频在线| 99在线精品免费视频九九视| 中文字幕人妻熟女人妻洋洋| 欧美伊人久久| 日本a级片在线观看| 婷婷久久一区| 青春草在线视频免费观看| 久久高清免费| 亚洲欧洲另类精品久久综合| 成人在线免费观看网站| 日韩欧美99| 精品久久久中文字幕| 日韩电影在线播放| jlzzjlzz亚洲女人| 亚洲三区在线观看| 国产精品videosex性欧美| 一区二区视频在线观看| 91精品国产视频| 久久99国产精品一区| 中文字幕乱码亚洲无线精品一区| 欧美性视频在线播放| 亚洲欧美在线专区| 毛片在线视频观看| 国内久久精品| 国自产拍偷拍精品啪啪一区二区| 国产农村妇女精品一二区| 国内外免费激情视频| 日韩国产欧美三级| 手机av在线网| 国产不卡一区视频| 成人性生活免费看| 久久精品亚洲国产奇米99| 一二三四国产精品| 综合av第一页| 国产情侣在线视频| 色久综合一二码| 一级黄色免费看| 欧美不卡激情三级在线观看| 黄色av网站免费在线观看| 日韩精品在线播放| 在线观看a视频| 欧美大成色www永久网站婷| 丰满的护士2在线观看高清| 欧美综合激情网| 青草综合视频| 国产亚洲一区二区三区在线播放| 亚洲资源网站| 浴室偷拍美女洗澡456在线| 雨宫琴音一区二区在线| 黄色一级大片在线观看| 国产尤物一区二区| 久久精品国产亚洲av麻豆| 国产精品美女久久久久高潮| 免费无码毛片一区二区app| 欧美天天综合色影久久精品| 一级黄色大片免费| 亚洲第一区中文99精品| h视频在线播放| 久久久久亚洲精品| 欧美久久久网站| 国产精品二区三区| 欧美黄色大片在线观看| 91丨porny丨探花| 六月婷婷色综合| 丰满大乳奶做爰ⅹxx视频 | 精品亚洲一区二区| 黄色网址视频在线观看| 欧美在线一区二区视频| 久久伦理中文字幕| 欧洲亚洲一区二区| 国产精品av久久久久久麻豆网| 欧美精品aaaa| 99久久久精品| 麻豆视频在线观看| 欧美伊人久久久久久久久影院| 亚洲精品无码专区| 中文字幕日韩av电影| 韩国成人二区| 99三级在线| 欧美va久久久噜噜噜久久| 免费在线激情视频| 不卡电影一区二区三区| 中国一级片在线观看| 在线日韩av片| 深夜福利在线看| 国内精品一区二区三区| 青青在线精品| 亚洲视频sss| 男人的j进女人的j一区| 国产精品成人一区二区三区电影毛片 | 欧美三级中文字幕在线观看| 天天操天天操天天| 九九精品视频在线| 欧美成人xxxx| 亚洲激情啪啪| 免费的国产精品| 女人黄色一级片| 在线精品视频免费观看| 你懂的免费在线观看视频网站| 国内精品免费午夜毛片| 天堂精品久久久久| 国产 国语对白 露脸| 黄色资源网久久资源365| 五月婷婷六月香| 欧美婷婷六月丁香综合色| 国产粉嫩一区二区三区在线观看 | 色偷偷噜噜噜亚洲男人| 日韩国产网站| 日韩中文字幕一区二区| 日本va欧美va欧美va精品| 国产成人福利在线| 欧美在线观看视频在线| av电影在线观看一区二区三区| 国产成人一区三区| 青青草综合网| 国产永久免费网站| 亚洲精品ww久久久久久p站| 国产欧美一区二区三区视频在线观看| 色婷婷综合久久久久| 9999在线精品视频| 青青草视频国产| 成人精品国产一区二区4080| 日韩久久精品视频| 亚洲欧美国产另类| 日本精品网站| 国产一区一区三区| 国产成+人+日韩+欧美+亚洲| 一级免费在线观看| 亚洲欧美日韩精品久久亚洲区| 忘忧草在线www成人影院| 天天好比中文综合网| 久久草av在线| 久久久久久久久久久久久久久久久| 亚洲精品在线电影| 亚洲天堂av在线| 午夜精品一区二区在线观看的| 黑人巨大精品欧美黑白配亚洲| 精品无码人妻一区二区三区| 亚洲黄色免费三级| 成人免费网站www网站高清| 亚洲一区尤物| 成人激情综合网站| 中文字幕第三页| 九九九热精品免费视频观看网站| 日本一道高清一区二区三区| chinese少妇国语对白| 亚洲男同1069视频| 亚洲欧美日韩成人在线| 国产精品九九九| 激情偷拍久久| 中国1级黄色片| 精品国产乱码久久| 国产韩日精品| 国产精彩视频一区二区| 欧美国产亚洲另类动漫| 亚洲AV无码精品国产| 国产成人高潮免费观看精品| 亚洲国产精品日韩专区av有中文| v天堂中文在线| 欧美精品久久久久久久多人混战 | 一区二区在线免费观看视频| 日韩欧美国产激情| 在线中文字幕电影| 日韩欧美精品一区二区三区经典| 国产99久久久国产精品免费看| 波多野结衣日韩|