精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福大學實錘GPT-4變笨了!OpenAI最新回應:確實存在“智力下降”

人工智能
為了驗證OpenAI的說法,斯坦福大學和加利福尼亞大學伯克利分校的三位研究員調查了3 月至 6 月期間 ChatGPT 性能的變化。

圖片圖片

大模型天花板GPT-4,它是不是……變笨了?

之前有不少用戶提出質疑,并曬出了不少證據。對此,OpenAI 7月14日澄清:“我們沒有把GPT 4弄笨。相反的,我們的每個新版本,都讓GPT 4比以前更聰明了。”

圖片圖片

Peter Welinder是OpenAI的產品產品VP

但為了驗證OpenAI的說法,斯坦福大學和加利福尼亞大學伯克利分校的三位研究員調查了3 月至 6 月期間 ChatGPT 性能的變化。

圖片圖片

論文地址:https://arxiv.org/abs/2307.09009

評估的對象包括GPT-3.5和 GPT-4 兩個大模型,并在四個任務上進行測試:數學問題、回答敏感/危險問題、代碼生成以及視覺推理。

調查結論是:GPT-4性能確實變差了。

例如,在數學問題上,2023年3月版本的GPT-4 能夠以97.6%的準確率識別質數,而2023年6月版本的GPT-4 在這個任務上的表現卻很糟糕(準確率只有2.4%),并且忽略了連貫的思考Prompt。

圖片圖片

對如此科學實驗下的證據,OpenAI在博客“Function calling and other API updates”中更新回應到:確實在某些任務上的性能變差了。

We look at a large number of evaluation metrics to determine if a new model should be released. While the majority of metrics have improved, there may be some tasks where the performance gets worse.

我們會根據大量的評價指標來確定是否發布新的模型,雖然新模型大多數指標都有所改進,但可能在一些任務上模型性能會變差。

his is why we allow API users to pin the model version. For example, you can use gpt-4-0314 instead of the generic gpt-4, which points to the latest model version.

這就是為什么我們允許API用戶使用固定版本模型的原因。例如,用戶可以選擇使用 gpt-4-0314這個版本,而不是使用最新的 gpt-4 版本。

Each individually pinned model is stable, meaning that we won’t make changes that impact the outputs。

另外,OpenAI不會對固定版本的模型進行任何可能影響其輸出結果的更改。

那么具體在哪些任務中GPT-4變差了呢?讓我們一起來看論文細節。

實驗過程與其他結論

圖片圖片

論文中,作者針對每種任務都設定了主要的性能指標,例如對于解決數學問題的任務,主要的性能指標是準確性;對于回答敏感問題的任務,主要的性能指標是回答率。此外,對于所有任務,他們都設定了兩個通用的補充指標,即冗長度(verbosity)和重疊度(overlap)。

圖片圖片

如前所述,在數學問題測試中,作者們研究了GPT-4和GPT-3.5在解決質數判斷問題上的“時間表現”。實驗方法是采用思維鏈(Chain-of-Thought)方法對數據集中的500個問題進行回答。

結果顯示:兩個模型表現出明顯的前后不一致,GPT-4的準確率從3月的97.6%下降到6月的2.4%,同時,GPT-3.5的準確率從7.4%提高到了86.8%。此外,GPT-4的回答更簡潔,GPT-3.5的回答則更長。

這種差異的原因可能與思維鏈效應有關。例如,3月的GPT-4能夠很好地遵循思維鏈條步驟判斷17077是否為質數,但6月的版本則直接給出了"No"。而GPT-3.5在3月傾向于先給出"No",然后推理,但6月的版本修復了這個問題,正確地先寫出推理步驟,然后給出正確答案"Yes"。這表明,由于模型的改變,即使是同樣的Prompt方法,如思維鏈條,也可能導致性能大相徑庭。

在敏感問題測試中,論文作者創建了一個包含100個不應由大模型直接回答的敏感問題的數據集,并手動標記了所有回復。

圖片圖片

結果發現,GPT-4在3到6月間直接回答敏感問題的比例從21.0%降到5.0%,而GPT-3.5的比例從2.0%上升到8.0%,可能因GPT-4增強了安全性,而GPT-3.5沒有相應的操作。

同時,GPT-4回復的文本長度也從600多字降到約140字。

另一方面,大模型“越獄”對服務的安全性構成了主要威脅。作者使用了一種叫做AIM(always intelligent and Machiavellian)的攻擊,該攻擊通過構造虛構故事,讓大模型表現得像一個無過濾無道德的聊天機器人。

結果顯示,當遭受AIM攻擊時,GPT-4和GPT-3.5的回答率都大幅上升。但是,GPT-4的防御力在更新后顯著增強,從3月的78%的回答率降到6月的31.0%,而GPT-3.5的回答率變化較小,僅降低了4%。這說明GPT-4對越獄攻擊的防御力較GPT-3.5更強。

圖片圖片

在代碼生成能力測試中,作者創建了一個新的代碼生成數據集,包括最新的50個LeetCode“easy”問題。結果顯示:從3月到6月,“可直接執行”的生成數量降低。

如上圖所示,3月份GPT-4有超過50%的生成結果是“可直接執行”的,但到了6月份只剩10%。GPT-3.5的情況也差不多,兩種模型的生成結果冗余性也略有增加。

對此,斯坦福的研究員猜測原因可能是:生成的代碼中添加了額外的非代碼文本。

圖片圖片

如上圖所示,GPT-4在3月份和6月份生成的代碼是有區別的。例如6月版在代碼片段的前后添加了"python"和’’’,這可能是用來標示代碼塊的,同時還生成了更多的注釋。

在視覺推理測試中,研究人員采用了ARC數據集進行評估,該數據集中的任務是根據幾個例子,要求輸入網格創建輸出網格。

圖片圖片

圖注:視覺推理的整體表現

從三月版到六月版,GPT-4 和 GPT-3.5 的整體表現都有大約 2% 的提升。生成長度大致保持不變。

GPT-4 和 GPT-3.5 的性能提升都很小。但是,它們的3月版和6月版在 90% 的視覺謎題查詢上的生成結果都一樣。這些服務的整體性能也很低:GPT-4 準確率為 27.4%、GPT-3.5準確率為 12.2%。

專家推測:或許與 MoE 技術有關

對于GPT-4變笨,之前學術界有個觀點是,后來的RLHF訓練雖然讓GPT-4更與人類對齊,也就更聽從人類指示和符合人類價值觀,但讓也讓它自身的推理等能力變差。

換句話說,人類的強硬“教化”將GPT-4的腦葉白質切除了。

圖片圖片

也有專家認為是GPT變笨和它的「混合專家模型」(Mixture of Experts,MOE)的構架有關。

MoE 技術是在神經網絡領域發展起來的一種集成學習技術,也是目前訓練萬億參數量級模型的關鍵技術——由于現階段模型規模越來越大,導致訓練的開銷也日益增長,而 MoE 技術可以動態激活部分神經網絡,從而實現在不增加計算量的前提下大幅度增加模型參數量。

具體來說,MoE 會將預測建模任務分解為若干子任務,在每個子任務上訓練一個專家模型(Expert Model),并開發一個門控模型(Gating Model),該模型可根據要預測的輸入來學習信任哪個專家,并組合預測結果。

MoE 技術引用到GPT-4時, GPT-4 中這些小型專家模型會針對不同的任務和主題領域進行訓練,例如可以有針對生物、物理、化學等方面的小型GPT-4專家模型,那么當用戶向 GPT-4 提出問題時,新系統就會知道要把這個問題發送給哪個專家模型。另外,為了以防萬一,新系統可能會向兩個或更多的專家模型發送查詢,然后將結果混在一起。

對于這個做法,業界專家形容是“忒修斯之船”,即隨著時間的推移,OpenAI 會把 GPT-4 的各個部分替換掉:“OpenAI 正在將 GPT-4 變成一支小型艦隊?!?/p>

注:忒修斯之船,是一個古希臘思想實驗,探討一個物體在其所有組成部分被完全更換后,是否仍保持其原始身份的哲學悖論。即一艘船替換完所有組件后,這艘船還是原來的嗎?

因此,GPT-4變笨很可能就與 MoE 這種訓練方式有關:“當用戶測試 GPT-4 時,我們會問很多不同的問題,而規模較小的 GPT-4 專家模型不會做得那么好,但它正在收集我們的數據,它會改進和學習?!彼固垢4髮W兼職教師Sharon Zhou介紹到。

圖片圖片

除了專業研究團隊之外,關心AI的網友們也在用自己的辦法追蹤著AI能力的變化。例如有人每天讓GPT-4畫一次獨角獸,并在網站上公開記錄。如上所示,今天的形狀。

圖片圖片

實際上,從4月14日開始,直到現在也還沒看出來個獨角獸的大致形態。

責任編輯:趙寧寧 來源: 大數據文摘
相關推薦

2023-06-02 13:19:17

GPT-4文本代碼

2021-03-18 11:30:15

人工智能AI機器學習

2023-07-20 13:57:09

2023-07-20 14:33:36

GPT-4代碼

2023-07-28 12:13:28

模型語言性能

2023-07-21 12:55:07

2018-01-22 16:16:28

AI發展新趨勢機器學習

2011-11-17 09:53:18

斯坦福大學iOS應用開發

2022-10-13 16:01:38

技術大腦

2023-07-20 12:16:31

GPT-4AI

2024-01-01 22:28:52

2023-04-12 15:45:56

人工智能ChatGPT

2009-05-07 08:49:11

鮑爾默斯坦福大學巴茨

2020-07-08 16:46:46

人工智能病毒技術

2024-04-01 00:50:00

吳恩達智能體

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2022-06-17 14:28:16

算法模型

2011-08-25 10:15:54

視頻演講喬布斯

2021-03-09 11:34:05

人工智能AI

2022-12-22 15:37:12

AI代碼
點贊
收藏

51CTO技術棧公眾號

国模冰冰炮一区二区| 亚洲第一第二区| 91麻豆国产自产在线观看亚洲 | 国内精品在线观看视频| 日本大臀精品| 激情综合色综合久久综合| 欧美激情免费视频| 美女被到爽高潮视频| 四虎永久精品在线| 大荫蒂欧美视频另类xxxx| 色一情一区二区三区四区| 不卡的日韩av| 日本视频一区二区| 久久久久久噜噜噜久久久精品| 公侵犯人妻一区二区三区| 91麻豆精品国产91久久久更新资源速度超快| 亚洲一区免费视频| 亚洲成人第一| 性感美女一级片| 激情成人综合网| 国产97色在线| 国产特黄大片aaaa毛片| 欧美电影免费播放| 亚洲美女免费精品视频在线观看| 天天看片天天操| 欧美自拍电影| 午夜伦欧美伦电影理论片| 夜夜爽www精品| 天堂中文在线8| 国产91富婆露脸刺激对白| 国产精品一区二区久久| 国产成人综合欧美精品久久| 狠狠干综合网| 久久国产精品久久精品| 嘿嘿视频在线观看| 国产欧美日韩精品一区二区免费| 精品处破学生在线二十三| √天堂资源在线| 精品久久福利| 欧美亚洲国产bt| 免费看的黄色大片| 国产v日韩v欧美v| 亚洲一区二区不卡免费| 免费成人深夜夜行网站视频| melody高清在线观看| 91香蕉国产在线观看软件| 动漫一区二区在线| 成 人 免费 黄 色| 国产成a人无v码亚洲福利| 91美女片黄在线观| 国产欧美久久久| 国产一区二区三区在线观看免费| 国产一区二区在线免费视频| 综合久久中文字幕| 日韩国产精品久久久久久亚洲| 欧美亚洲午夜视频在线观看| 日韩av在线天堂| 亚洲国产精品一区制服丝袜| 久久久久久中文字幕| 国产无码精品在线播放| 国产欧美在线| 日韩免费视频在线观看| 最近国语视频在线观看免费播放| 久久精品动漫| 国产精品黄色av| 在线视频免费观看一区| 精品无码三级在线观看视频| 成人精品在线观看| 99在线观看免费| 成人综合在线观看| 国内视频一区二区| 黄色美女网站在线观看| 国产精品热久久久久夜色精品三区 | 97精品免费视频| 91在线看视频| 久久亚洲精选| 91精品国产综合久久男男| 国产精选久久久| 懂色av中文字幕一区二区三区| 97自拍视频| 视频福利在线| 国产精品久久久久三级| 亚洲黄色网址在线观看| 免费av不卡在线观看| 岛国av一区二区| 天天爱天天操天天干| 亚洲在线资源| 亚洲精品一区二区三区99| 成人免费看aa片| 91视频久久| 久久免费国产精品1| 岛国av中文字幕| 精品在线一区二区| 国产私拍一区| 国产高清在线| 一卡二卡三卡日韩欧美| 久久婷婷国产精品| 国产情侣一区在线| 精品亚洲永久免费精品| 情侣偷拍对白清晰饥渴难耐| 欧美日韩综合| 国产精品福利在线观看| 亚洲av无码一区二区三区dv| 久久日一线二线三线suv| 中文字幕日韩一区二区三区不卡 | 亚洲电影在线免费观看| 国产精品久久久久9999小说| 6080亚洲理论片在线观看| 亚洲性生活视频在线观看| 久久久久久久久久久网| 蜜臀久久99精品久久久画质超高清| 99一区二区| av网站在线免费播放| 婷婷夜色潮精品综合在线| 福利片一区二区三区| 神马午夜久久| 欧美高清视频在线观看| 亚洲天堂中文网| wwww国产精品欧美| 日韩精品在线观看av| 日韩av懂色| 夜夜嗨av色综合久久久综合网 | 99视频免费在线观看| 日本高清成人免费播放| 欧美xxxx×黑人性爽| 香蕉av一区二区| 国产精品狼人色视频一区| 污视频软件在线观看| 一区二区三区91| 三级性生活视频| 日韩在线观看| 国产精品成人播放| 欧美成熟毛茸茸| 黄色成人av在线| 在线观看一区二区三区四区| 久久久久蜜桃| 欧美经典一区| 欧美综合视频在线观看| 亚洲精品激情视频| 欧美日韩精品| 91久久国产综合久久蜜月精品| 天天影视久久综合| 欧美日韩中字一区| 欧美人与性囗牲恔配| 亚洲欧美日韩国产| 久久99精品久久久久久青青日本 | 天堂av2020| 日韩在线不卡| 成人天堂噜噜噜| 国产网站在线免费观看| 欧美高清dvd| 欧美爱爱免费视频| 国产乱理伦片在线观看夜一区 | 制服丝袜在线播放| 日韩限制级电影在线观看| 午夜写真片福利电影网| 国产一区免费电影| 日本福利视频在线观看| 日日夜夜精品视频| 91精品国产高清自在线| 亚欧在线观看视频| 91成人看片片| 手机看片国产日韩| 狠狠色伊人亚洲综合成人| 欧美 另类 交| 1313精品午夜理伦电影| 韩国日本不卡在线| 久久99久久| 欧美日韩国产一级二级| 国产性xxxx| 成人av电影免费在线播放| 国产xxxxx在线观看| 国产精品美女久久久久久不卡 | 日本黄色的视频| 欧美理论在线| 蜜桃视频在线观看成人| 电影一区电影二区| 久久99国产综合精品女同 | 一本色道久久88综合日韩精品| 中文字幕人妻一区二区在线视频 | 黄色激情在线视频| 在线视频亚洲专区| 成人字幕网zmw| 99re6在线精品视频免费播放| 亚洲毛片在线看| 国产精品一级视频| 欧美日韩国产精品专区| 黑人と日本人の交わりビデオ| 国产成人精品午夜视频免费 | 亚洲风情在线资源| 按摩亚洲人久久| 天天干天天爱天天操| 欧美无人高清视频在线观看| 九九九在线视频| 2017欧美狠狠色| 日本亚洲一区二区三区| 性色一区二区三区| 国产小视频免费| 欧美肉体xxxx裸体137大胆| 96久久精品| 99热播精品免费| 午夜精品一区二区三区在线视| www黄在线观看| 亚洲第一男人av| 国产视频www| 欧美综合亚洲图片综合区| 国产乡下妇女做爰视频| 中文字幕五月欧美| 日本高清www| 成人一级黄色片| 不用播放器的免费av| 久久国产99| 国产 国语对白 露脸 | 成人精品视频.| 色呦色呦色精品| 日韩主播视频在线| 国产av天堂无码一区二区三区| 欧美成人激情| 日韩av一区二区三区美女毛片| 亚洲精品午夜| 91影视免费在线观看| 黄色成人在线视频| 欧美在线视频一二三| 成人高潮aa毛片免费| 久久精品91久久香蕉加勒比 | 国产视频亚洲色图| 国产白嫩美女无套久久| 国产精品456露脸| 激情五月婷婷基地| 男男视频亚洲欧美| 免费黄色一级网站| 久久一二三四| 亚洲成熟丰满熟妇高潮xxxxx| 亚洲黄色免费| 欧美中日韩在线| 黄色成人91| 激情五月六月婷婷| 欧美欧美全黄| 亚洲乱码日产精品bd在线观看| 婷婷亚洲最大| 尤物一区二区三区| 99精品全国免费观看视频软件| 视频在线99re| 日韩欧美不卡| 亚洲精品一区二区三区樱花| 精品产国自在拍| 涩涩日韩在线| av亚洲在线观看| 亚洲精品一区二区三| 99久久国产综合精品成人影院| 亚洲最大免费| 欧美另类专区| 18禁网站免费无遮挡无码中文| 在线看片日韩| 少妇高潮喷水在线观看| 国产视频一区免费看| 国产精品亚洲αv天堂无码| 天堂影院一区二区| 另类小说色综合| 久久99蜜桃精品| 亚洲五月激情网| 丁香激情综合国产| 中文字幕日韩三级片| 久久丝袜美腿综合| 天天操天天摸天天舔| 亚洲欧美日韩久久精品| 欧美国产日韩综合| 黄色一区二区在线| 亚洲中文一区二区| 欧美日韩精品一区二区在线播放 | 一二区成人影院电影网| 国产欧美日韩丝袜精品一区| 国产日本亚洲| 韩国成人一区| 欧洲激情综合| 黄色成人在线免费观看| 亚洲欧美视频| 日韩av自拍偷拍| 99视频热这里只有精品免费| 性猛交娇小69hd| 中文字幕日韩欧美一区二区三区| 欧美黄色一区二区三区| 狠狠色狠色综合曰曰| 中国a一片一级一片| 欧美一卡2卡三卡4卡5免费| 乱精品一区字幕二区| 亚洲欧美自拍一区| 宅男网站在线免费观看| 国产精品扒开腿做爽爽爽男男 | 牛牛精品一区二区| 国产精品美女www| 波多野结衣欧美| 台湾成人av| 亚洲看片免费| 91插插插影院| 国产网站一区二区| 午夜偷拍福利视频| 欧美日韩国产首页| 婷婷婷国产在线视频| 九九热视频这里只有精品| 永久免费毛片在线播放| 91免费高清视频| 杨幂一区二区三区免费看视频| 久久视频免费在线| 日韩电影在线一区二区| 日本不卡视频一区| 中文字幕日韩一区| 性高潮视频在线观看| 亚洲成人av片| 午夜羞羞小视频在线观看| 国产精品精品久久久| 麻豆一区二区麻豆免费观看| 久久久成人精品一区二区三区| 日韩在线卡一卡二| 成人手机在线免费视频| 亚洲精品国产成人久久av盗摄 | 天堂av在线| 91丝袜脚交足在线播放| 日韩欧美大片| 日韩中文字幕二区| av一区二区不卡| 久久精品一级片| 欧美一区二区三区视频| 91女主播在线观看| 国产精品扒开腿做爽爽爽男男| 日韩中出av| 亚洲人成无码网站久久99热国产| 国产一区免费电影| 2014亚洲天堂| 欧美日韩极品在线观看一区| 九色在线视频蝌蚪| 热99精品里视频精品| 欧洲亚洲成人| av黄色在线网站| 99久久国产综合精品女不卡| 国产一级在线播放| 精品三级在线看| av人人综合网| 国产精品美女黄网| 狠狠爱www人成狠狠爱综合网| 台湾佬美性中文| 亚洲自拍偷拍图区| 亚洲AV无码成人片在线观看| 久久综合伊人77777尤物| 天天综合91| 中文字幕人成一区| 国产麻豆精品theporn| 国产传媒免费在线观看| 欧美高清激情brazzers| 国产在线1区| 99porn视频在线| 亚洲天堂成人| 精品黑人一区二区三区观看时间| 精品国产鲁一鲁一区二区张丽| 天堂中文在线资源| 欧洲一区二区视频| 日韩大片在线| 久久久精品高清| 亚洲乱码一区二区三区在线观看| 精品人妻午夜一区二区三区四区 | 在线观看福利电影| 日韩中文一区| 黑人精品欧美一区二区蜜桃| 午夜精品一区二区三级视频| 日韩欧美精品在线视频| av蜜臀在线| 三区精品视频观看| 国产真实精品久久二三区| 久久久久97国产| 日韩精品日韩在线观看| 电影久久久久久| 午夜久久久久久久久久久| 成人的网站免费观看| 国产在线观看黄色| 色老头一区二区三区| 欧美三级一区| 日本在线视频www| 亚洲视频免费观看| 天天干天天爱天天操| 国产精品久久久久久久久免费| 在线成人直播| 久久人人爽人人爽人人片| 欧美色图片你懂的| 久色国产在线| 午夜精品短视频| 懂色av中文一区二区三区| 一级片免费在线播放| 久久久精品日本| 伊人精品一区| 青娱乐精品在线| 色吊一区二区三区| 青春草在线视频| 欧美色图亚洲自拍| 国产成人在线色| 国产日韩久久久| 欧美精品aaa| 欧美电影一区| 中文字幕在线看高清电影| 日韩精品一区二区在线观看| 成人开心激情|