精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ChatGPT能力退化惹爭議 AIGC應用還值得信任嗎?

人工智能
最近有很多關于ChatGPT模型(例如GPT-3.5和GPT-4)的性能隨著時間的推移而下降的討論,OpenAI公開否認了這些說法,真相到底是怎樣的呢?

斯坦福大學和加州大學伯克利分校(UCLA)研究人員的一項新研究提供了一些證據,證明這些大型語言模型(LLM)的行為已經具有“實質性的漂移”——但并不一定等于能力退化。

這一發現對用戶在ChatGPT等黑盒人工智能系統上構建應用的風險提出了警告,即隨著時間的推移,這些應用可能會產生不一致或不可預測的結果。背后原因在于:GPT等模型的訓練和更新方式缺乏透明度,因此無法預測或解釋其性能的變化。

用戶抱怨ChatGPT性能退化

早在今年5月,就有用戶就在OpenAI論壇上抱怨GPT-4很難做到它以前做得很好的事情。一些用戶不僅對性能下降感到不滿,而且對OpenAI缺乏響應和解釋感到不滿。

據《商業內幕》在7月12日報道,與之前的推理能力和其他輸出相比,用戶認為GPT-4變得“更懶”或“更笨”。在OpenAI沒有做出回應的情況下,行業專家開始猜測或探索GPT-4性能下降的原因。

一些人認為OpenAI在API背后使用了更小的模型,以降低運行ChatGPT的成本。其他人推測,該公司正在運行一種混合專家(MOE)方法,采用幾個小型的專業模型取代一個通用的LLM。

面對種種質疑,OpenAI否認了故意讓GPT-4變笨的說法。OpenAI產品副總裁Peter Welinder在推特上寫道:“恰恰相反:我們讓每一個新版本都比之前的版本更加智能。目前的假設是:當你大量使用它時,你就會開始注意到以前沒有看到的問題。”

頂級大學測試ChatGPT表現

為了驗證ChatGPT的行為如何隨著時間的推移而變化,斯坦福大學和UCLA的研究人員分別在2023年3月和6月測試了兩個版本的GPT-3.5和GPT-4。

他們在四個常見的基準任務上評估了這些模型:數學問題、回答敏感問題、代碼生成和視覺推理。這些是評估LLM經常使用的多樣化任務,而且它們相對客觀,因此易于評估。

研究人員使用了兩組指標來評估這兩個模型的性能。主要的指標特定于任務(例如,數學的準確性以及編碼的直接執行)。他們還跟蹤了冗長度(輸出的長度)和重疊度(兩個LLM版本的答案之間的相似程度)。

3-6月ChatGPT表現確實在下滑

對于數學問題,研究人員使用了“思維鏈”提示,通常用于激發LLM的推理能力。他們的發現顯示了模型性能的顯著變化:從3月到6月,GPT-4的準確率從97.6%下降到2.4%,而其響應冗長度下降了90%以上。GPT-3.5表現出相反的趨勢,準確率從7.4%上升到86.8%,冗長度增加了40%。

研究人員指出,“這一有趣的現象表明,由于LLM的性能漂移,采用相同的提示方法,即使是那些被廣泛采用的方法(例如思維鏈),也可能導致顯著不同的性能。”

在回答敏感問題時,對LLM進行評估的標準是它們回答有爭議問題的頻率。從3月到6月,GPT-4的直接回答率從21%下降到5%,這表明這個模型變得更加保守。與此同時,GPT-3.5的直接回答率從2%上升到8%。與3月的版本相比,這兩種模型在6月份拒絕不恰當的問題時提供的解釋也更少。

研究人員寫道:“這些LLM服務可能變得更加保守,但也減少了拒絕回答某些問題的理由。”

在代碼生成過程中,研究人員通過將LLM的輸出提交給運行和評估代碼的在線裁判來測試它們是否可直接執行。結果發現,在3月,5 0%以上的GPT-4輸出是可直接執行的,但在6月只有10%。對于ChatGPT 3.5,可執行輸出從3月的22%下降到6月的2%。6月的版本經常在代碼片段周圍添加不可執行的序列。

研究人員警告說:“當LLM生成的代碼在更大的軟件管道中使用時,要確定這一點尤其具有挑戰性。”

對于視覺推理,研究人員對來自抽象推理語料庫(ARC)數據集的示例子集的模型進行了評估。ARC是一個視覺謎題的集合,用于測試模型推斷抽象規則的能力。他們注意到GPT-4和GPT-3.5的性能都有輕微的改善。但總體性能仍然較低,GPT-4為27.4%,GPT-3.5為12.2%。然而,6月版本的GPT-4在3月正確回答的一些問題上出現了錯誤。

研究人員寫道:“這凸顯了細粒度漂移監測的必要性,特別是在關鍵應用中。”

ChatGPT性能退化可能存在誤解

在這篇論文發表之后,普林斯頓大學的計算機科學家、教授Arvind Narayanan和計算機科學家Sayash Kapoor認為,一些媒體誤解了這一論文的結果,他們認為GPT-4已經變得更糟。

兩人在一篇文章中指出,“不幸的是,這是媒體對于論文結果的過度簡化。雖然研究結果很有趣,但其中一些方法值得懷疑。”

例如,評估中使用的所有500個數學問題都是“數字X是質數嗎?”而數據集中的所有的數字都是質數。3月版本的GPT-4幾乎總是猜測這個數是質數,而6月的版本幾乎總是猜測它是合數。


Narayanan和Kapoor在文中寫道:“論文的作者將這種情況解釋為性能的大幅下降,因為他們只測試了質數。當GPT-4在500個合數進行測試時,這種性能的下降就消失了。”

總而言之,Narayanan和Kapoor認為,ChatGPT的行為會改變,但這并不一定意味著它的能力下降了。

ChatGPT類AI應用還能信任嗎?

雖然這篇論文的發現并不一定表明這些模型變得更糟,但確實證實了它們的行為已經改變。

研究人員據此得出結論,GPT-3.5和GPT-4行為的變化凸顯了持續評估和評估LLM在生產應用中的行為的必要性。當我們構建使用LLM作為組件的軟件系統時,需要開發新的開發實踐和工作流程來確保可靠性和責任。

通過公共API使用LLM需要新的軟件開發實踐和工作流程。對于使用LLM服務作為其持續工作流程組成部分的用戶和公司,研究人員建議他們應該實施持續的監控分析。

這一研究結果還強調,在訓練和調整LLM的數據和方法方面需要提高透明度。如果沒有這樣的透明性,在它們之上構建穩定的應用就會變得非常困難。

責任編輯:龐桂玉 來源: 極客網
相關推薦

2022-09-19 00:29:01

編程語言Go 語言功能

2022-08-12 09:59:24

自動駕駛汽車

2020-10-28 10:08:09

物聯網SQL技術

2025-06-26 01:00:00

2023-12-18 12:51:49

數據模型

2024-03-20 13:08:48

2011-05-18 11:34:54

云端業務流程管理

2023-09-28 08:13:49

CPU超頻攢機

2015-10-30 15:11:53

2025-03-13 09:47:29

2022-02-10 07:37:09

分庫分表存儲

2021-11-14 22:11:59

手機華為安卓

2019-10-16 14:36:19

量子計算機芯片超算

2018-02-27 15:25:00

前端JavascriptAngular JS

2018-01-04 08:46:24

GeForceEULANVIDIA

2023-02-24 15:35:09

AI模型

2009-03-23 09:45:01

沃達豐凍結薪水高管分紅

2015-08-05 16:58:25

2019-07-16 10:32:53

智能家居安全5G
點贊
收藏

51CTO技術棧公眾號

久久在线电影| 色猫猫成人app| 久久综合久久久久88| 国产精品福利观看| 老司机成人免费视频| 草草视频在线一区二区| 色欧美88888久久久久久影院| 亚洲欧洲国产日韩精品| 日本黄色一区二区三区| 麻豆成人91精品二区三区| 色综合五月天导航| 国产成人免费观看网站| 成人av综合网| 欧美日本高清视频在线观看| 国产欧美精品aaaaaa片| 粉嫩一区二区三区国产精品| 丁香婷婷综合激情五月色| 国产精品91久久久| 国产精品suv一区二区69| 日韩国产在线| 亚洲欧美日韩精品久久奇米色影视| 老司机午夜性大片| 一区二区电影免费观看| 亚洲精品免费电影| 先锋在线资源一区二区三区| 欧美熟妇交换久久久久久分类 | 一区二区三区精品视频| 日本一区二区三不卡| 韩国av免费在线观看| 狠狠色丁香久久婷婷综合丁香| 欧美整片在线观看| 麻豆一区二区三区精品视频| 久久亚洲影视| 国产亚洲欧美日韩美女| 熟女人妻在线视频| av一级亚洲| 日韩精品中文字幕一区二区三区| 国产一伦一伦一伦| av在线日韩| 狠狠躁夜夜躁人人躁婷婷91| 国产主播自拍av| 日韩激情av| 亚洲精品日日夜夜| 日本xxxxx18| 搞黄网站在线观看| 国产精品电影一区二区| 日韩在线观看电影完整版高清免费| 天天操天天射天天舔| 成人国产亚洲欧美成人综合网 | 精品网站aaa| 日韩视频国产视频| 色黄视频免费看| 日韩中文字幕| 日韩女优毛片在线| 日本精品一二三| 国产精品白浆| 日韩av中文字幕在线| 中文字幕精品视频在线| 美女视频免费精品| 亚洲男人天天操| 精品人妻互换一区二区三区| 杨幂一区二区三区免费看视频| 国产偷国产偷亚洲清高网站| 短视频在线观看| 欧美精美视频| 色老头一区二区三区| 五月天av网站| 国产综合视频| 欧洲成人午夜免费大片| 日韩精品一区不卡| 免费在线观看精品| 成人激情视频小说免费下载| 国产情侣自拍小视频| 国产精品资源网| 国产麻豆日韩| 欧美精品久久久久久久久久丰满| 日本一区二区三区高清不卡| 亚洲精品欧洲精品| 1stkiss在线漫画| 无码av免费一区二区三区试看| 麻豆av免费在线| 日韩成人在线一区| 欧美变态口味重另类| xxxx黄色片| 精品久久久久久久| 九九热视频这里只有精品| 久久久久99精品| 日韩综合一区二区| 7777精品久久久大香线蕉小说| 欧美一区二区黄片| 国产欧美日韩综合| 欧美黄网在线观看| 成人勉费视频| 日韩欧美一区在线| 免费毛片视频网站| 国内精品久久久久国产盗摄免费观看完整版| 91国产美女视频| 97成人免费视频| 91理论电影在线观看| 一级做a爰片久久| caoporn视频在线| 欧美日韩五月天| 强迫凌虐淫辱の牝奴在线观看| 成人中文视频| 国模精品一区二区三区色天香| 日韩精品在线一区二区三区| 国产精品亚洲一区二区三区妖精| 欧美日产一区二区三区在线观看| 国产日产一区二区| 色老综合老女人久久久| 国产精品日日摸夜夜爽| 色婷婷热久久| 日韩av手机在线| 日韩一卡二卡在线| 亚洲欧美一区二区久久| 亚洲 中文字幕 日韩 无码| silk一区二区三区精品视频| 日韩亚洲精品视频| 性色av免费观看| 成人av电影免费在线播放| 在线亚洲美日韩| 手机看片久久| 日韩精品高清在线| 国产一级生活片| 黑人巨大精品欧美一区| 亚洲国产一区在线| 亚洲免费福利| 日韩av影视综合网| 国产精品日日夜夜| 国产成人在线免费| 欧美少妇在线观看| 午夜精品久久久久久毛片| 国产亚洲欧美日韩一区二区| 一级片视频在线观看| 成人免费av资源| 800av在线免费观看| av成人在线网站| 久久久国产精品视频| 夜夜爽8888| 国产精品美女久久久久久| 成人三级视频在线播放| 亚洲第一福利社区| 欧美最猛性xxxx| 日韩电影免费| 欧美性极品少妇精品网站| a视频免费观看| 国产午夜精品一区二区三区欧美| 国产精品一区二| 日本在线观看大片免费视频| 欧美一级电影网站| 清纯粉嫩极品夜夜嗨av| 国产成人免费视频网站高清观看视频 | 小说区图片区色综合区| 欧美在线视频免费| 九色蝌蚪在线| 欧美日韩黄色一区二区| 久草福利资源在线| 国产米奇在线777精品观看| 久久精品在线免费视频| 麻豆精品久久| 久久久久久久久91| 亚州视频一区二区三区| 色激情天天射综合网| 日韩欧美黄色网址| 国产精品一区二区你懂的| 成人午夜视频免费观看| 国产精品白丝av嫩草影院| 77777亚洲午夜久久多人| 日韩av成人| 欧美日韩免费在线视频| 免费看特级毛片| 成人激情小说网站| 538在线视频观看| 99成人在线视频| 国产精品免费一区二区| 亚洲精品成人图区| 在线丨暗呦小u女国产精品| 国产内射老熟女aaaa∵| 亚洲成人在线网站| 国内精品卡一卡二卡三| 激情五月婷婷综合网| 精品少妇人欧美激情在线观看| 日韩mv欧美mv国产网站| 国产在线视频2019最新视频| 青草在线视频| 在线观看精品国产视频| www.久久色| 91官网在线观看| 小向美奈子av| 91丨九色丨尤物| 性生生活大片免费看视频| 亚洲激情自拍| 中文字幕一区综合| 久久久亚洲欧洲日产| 国产精品亚发布| segui88久久综合9999| 中文字幕欧美精品日韩中文字幕| www三级免费| 在线精品视频免费观看| 黄色一级免费视频| 国产精品乱码久久久久久| 亚洲一区二区在线免费| 乱一区二区av| 狠狠97人人婷婷五月| 久久精品免费一区二区三区| 精品亚洲欧美日韩| 宅男噜噜噜66国产精品免费| 26uuu另类亚洲欧美日本一 | 亚洲欧洲色图综合| 熟女俱乐部一区二区视频在线| 国产美女视频91| 一道本视频在线观看| 99精品国产99久久久久久福利| 91香蕉视频网址| 欧美日韩性在线观看| 国产亚洲自拍偷拍| 日韩免费高清视频网站| 成人高h视频在线| www.久久.com| 国产成人精品日本亚洲| 97在线视频免费观看完整版| 久久久成人精品| 欧美激情午夜| 中文字幕欧美日韩在线| 青青草免费在线视频| 亚洲成人三级在线| 丁香六月天婷婷| 日韩美女一区二区三区| 97国产精品久久久| 欧美二区乱c少妇| 亚洲天堂avav| 欧美三级中文字| 日本久久综合网| 色香色香欲天天天影视综合网| 日韩精品国产一区二区| 亚洲国产精品一区二区久久| 神马午夜精品91| 亚洲婷婷综合久久一本伊一区| 人妻熟人中文字幕一区二区| 91免费看`日韩一区二区| xxxx黄色片| 26uuu亚洲综合色| 制服丝袜第二页| 久久亚洲欧美国产精品乐播| 日本免费福利视频| 91免费观看视频在线| www.狠狠爱| 中文一区在线播放| 青青青视频在线免费观看| 国产精品毛片无遮挡高清| 天堂网中文在线观看| 自拍偷在线精品自拍偷无码专区| 艳妇荡乳欲伦69影片| 国产精品福利一区二区三区| 久久精品亚洲a| 樱桃视频在线观看一区| 久久久久亚洲av片无码下载蜜桃| 亚洲一二三区在线观看| 日本一区二区网站| 一本久久a久久精品亚洲 | 欧美一卡在线观看| 亚洲爱情岛论坛永久| 亚洲第一区中文99精品| 完全免费av在线播放| 18国产精品| 狠狠色伊人亚洲综合网站色| 希岛爱理av免费一区二区| 日韩欧美精品在线不卡| 99久久婷婷国产综合精品电影√| 一区二区三视频| 欧美视频福利| av观看免费在线| 久久国产福利国产秒拍| 日日夜夜精品视频免费观看| 成人免费毛片嘿嘿连载视频| 黄瓜视频污在线观看| 国产精品久久免费看| 青娱乐国产精品| 色88888久久久久久影院野外| 一级特黄aaaaaa大片| 欧美岛国在线观看| 精品美女视频在线观看免费软件| 日韩视频在线免费观看| 欧美wwww| 国产精品久久久久久久电影| 在线观看视频一区二区三区| 久久久久成人精品免费播放动漫| 成人羞羞网站入口| 久久久久久www| 麻豆视频观看网址久久| 国产人妻黑人一区二区三区| 国产日韩欧美不卡| 美女毛片在线观看| 在线精品视频一区二区| 亚洲精品中文字幕成人片| 亚洲欧美综合另类中字| av网站在线免费看推荐| 青青久久aⅴ北条麻妃| 精品一区二区三区在线观看视频 | 午夜影院免费视频| www.xxxx欧美| 欧美91看片特黄aaaa| 亚洲影影院av| 欧美亚洲在线日韩| 国产美女网站在线观看| 国产自产v一区二区三区c| 国产免费一区二区三区网站免费| 亚洲综合图片区| 在线视频播放大全| 精品香蕉在线观看视频一| 色爱综合区网| 成人网页在线免费观看| 国产麻豆精品久久| 久操网在线观看| 国产精品一二三在| 顶级黑人搡bbw搡bbbb搡| 色网站国产精品| 日韩中文字幕综合| 欧美激情欧美激情| 国产精品一区二区美女视频免费看| 日韩欧美精品一区二区三区经典| 国产精品日本| 国产性生活毛片| 亚洲一区二区三区中文字幕在线| 在线视频 中文字幕| 国产午夜精品全部视频播放| 123区在线| 国产精品毛片va一区二区三区| 亚洲成人三区| 欧美成人手机在线视频| 国产精品久久久久婷婷二区次| 成人h动漫精品一区二区下载 | 在线免费观看黄| 国产精品狼人色视频一区| 自拍偷拍欧美一区| 日韩黄色片视频| 91美女在线观看| 91午夜视频在线观看| 欧美精品一区二区三区高清aⅴ| 亚洲淫性视频| 97久久天天综合色天天综合色hd| 久久精品亚洲人成影院| 中文字幕亚洲影院| 亚洲人成网站精品片在线观看| 亚洲一区在线观| 久久精品国产精品| 伊人久久综合网另类网站| 中文精品一区二区三区| 激情五月播播久久久精品| av激情在线观看| 日韩欧美国产精品| 变态调教一区二区三区| 国产精品自拍首页| 亚洲伊人观看| 蜜桃久久精品成人无码av| 在线免费精品视频| 美女写真理伦片在线看| 亚洲自拍高清视频网站| 欧美精品首页| 免费看毛片的网站| 色婷婷av一区二区三区软件| 国产在线自天天| 国产日韩在线精品av| 欧美在线91| 午夜剧场免费看| 欧美性猛交xxxx黑人猛交| 国产乱子伦三级在线播放| 国产久一一精品| 午夜天堂精品久久久久| 中文字幕一区二区三区乱码不卡| 欧美视频中文在线看| av黄色在线观看| 操人视频欧美| 久久亚洲欧洲| 男人av资源站| 亚洲国产成人久久综合| 欧美aaa视频| 国产一区 在线播放| 2023国产精品视频| 97精品人妻一区二区三区香蕉| 久久久久久久久国产精品| 美女毛片一区二区三区四区| 国产成人美女视频| 五月婷婷欧美视频| 91激情在线| 国产日韩欧美亚洲一区| 蜜臀av一区二区在线观看| 欧美日韩国产精品一区二区三区| 精品视频一区在线视频| 婷婷久久免费视频| 精品欧美一区免费观看α√| 国产精品久99| 亚洲人成色777777老人头| 91精品在线观| 久久久久久自在自线| 国产乱国产乱老熟300| 国产一区二区三区精品久久久| av不卡一区| 伊人成人222| 色婷婷综合五月|