精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4壓根不會編程?有人讓它露餡了

人工智能 新聞
ChatGPT 代替程序員,是我們想多了?

在 OpenAI 發布 GPT-4 之后,一場有關「AI 取代人類勞動力」的討論正變得越來越激烈。該模型的強大能力及其可能帶來的潛在社會影響引發了很多人的擔憂,馬斯克、Bengio 等人甚至聯名寫了一封公開信,呼吁所有 AI 機構暫停訓練比 GPT-4 更強的 AI 模型,為期至少 6 個月。

但另一方面,對于 GPT-4 能力的質疑也是此起彼伏。前幾天,圖靈獎得主 Yann LeCun 在一場辯論中直接指出,GPT 家族所采用的自回歸路線存在天然的缺陷,繼續往前走是沒有前途的。

與此同時,一些研究者、從業者也表示,GPT-4 可能并沒有 OpenAI 所展示的那么強大,尤其是在編程方面:它可能只是記住了之前的題目,OpenAI 用來測試該模型編程能力的題目可能早就存在于它的訓練集中,這違反了機器學習的基本規則。另外,還有人指出,看到 GPT-4 在各種考試中名列前茅就判定 AI 將取代部分職業的想法是不嚴謹的,畢竟這些考試和人類的實際工作還是有差距的。

近期的一篇博客詳細地闡述了上述想法。

問題一:訓練數據污染

為了對 GPT-4 的編程能力進行基準測試,OpenAI 使用編程競賽網站 Codeforces 上的問題對其進行了評估。令人驚訝的是,GPT-4 解決了 10/10 的 2021 年前的問題和 0/10 的近期 easy 類問題。要知道,GPT-4 的訓練數據截止日期是 2021 年 9 月。這有力地表明該模型能夠從其訓練集中記住解決方案 —— 或者至少部分記住它們,這足以讓它填補它不記得的東西。

圖片

圖源:https://twitter.com/cHHillee/status/1635790330854526981

為了進一步證明這一假設,博客作者 Arvind Narayanan 和 Sayash Kapoor 在 2021 年不同時間的 Codeforces 問題上對 GPT-4 進行了測試,發現它可以解決 9 月 5 日之前的簡單類別的問題,無法解決 9 月 12 日之后的問題。

作者表示,事實上,他們可以明確地表明 GPT-4 已經記住了訓練集中的問題:當把 Codeforces 問題的標題加入 prompt 中時,GPT-4 的回答會包含指向出現該問題的確切比賽的鏈接(并且輪數幾乎是正確的:它差了一個)。注意,當時的 GPT-4 不能上網,所以記憶是唯一的解釋。

圖片

GPT-4 記住了訓練截止日期之前的 Codeforces 問題。

論文中的 Codeforces 結果并沒有受此影響,因為 OpenAI 使用的是最近的問題(果然,GPT-4 表現很差)。對于編程以外的基準,作者不知道有什么干凈的方法可以按時間段分開問題,所以他們認為 OpenAI 不太可能避免污染。但出于同樣的原因,他們也無法做實驗來測試性能在不同日期的變化情況。

不過,他們還是可以尋找一些提示性的跡象。記憶的另一個征兆是:GPT 對問題的措辭高度敏感。Melanie Mitchell 舉了一個 MBA 測試題的例子,她改變了這個例子的一些細節,這一改變騙不到人,但卻成功欺騙了(運行 GPT-3.5 的)ChatGPT。沿著這個思路做一個更詳細的實驗會很有價值。

由于 OpenAI 缺乏透明度,作者無法肯定地回答污染問題。但可以肯定的是,OpenAI 檢測污染的方法是膚淺和草率的:

我們使用子串匹配來衡量我們的評估數據集和預訓練數據之間的交叉污染。評估和訓練數據都是通過去除所有的空格和符號來處理的,只保留字符(包括數字)。對于每個評估實例,我們隨機選擇三個 50 個字符的子串(如果少于 50 個字符,則使用整個實例)。如果三個被抽中的評估子串中的任何一個是被處理過的訓練例子的子串,那么就可以識別出一個匹配。這就產生了一個被污染的例子的列表。我們丟棄這些,并重新運行以獲得未受污染的分數。

這是一個脆弱的方法。如果一個測試問題出現在訓練集中,但名稱和數字被改變了,它就不會被發現。不那么脆弱的方法是現成的,比如說嵌入距離。

如果 OpenAI 要使用基于距離的方法,多大程度的相似才是太相似?這個問題沒有客觀的答案。因此,即使是像選擇題標準化測試中的表現這樣看似簡單的事情,也充滿了主觀的決定。

但我們可以通過詢問 OpenAI 試圖用這些考試來衡量什么來明確一些東西。如果目標是預測語言模型在現實世界任務中的表現,那就有一個問題。從某種意義上說,任何兩個律師考試或醫學考試的問題都比現實世界中專業人士所面臨的兩個類似任務更相似,因為它們是從這樣一個受限的空間中提取的。因此,在訓練語料庫中加入任何考試問題,都有可能導致對模型在現實世界中的有用性的夸大估計。

從現實世界的有用性角度來闡述這個問題,突出了另一個更深層次的問題(問題二)。

問題二:專業考試不是比較人類和機器人能力的有效方法

記憶是一個光譜。即使一個語言模型在訓練集上沒有見過某個確切的問題,它也不可避免地看到了非常接近的例子,因為訓練語料庫的規模太大了。這意味著它可以用更淺顯的推理水平來逃避。因此,基準結果并沒有給我們提供證據,證明語言模型正在獲得人類考生所需要的那種深入的推理技能,而這些考生隨后會在現實世界中應用這些技能。

在一些現實世界的任務中,淺層推理可能是足夠的,但并不總是如此。世界是不斷變化的,所以如果一個機器人被要求分析一項新技術或一個新的司法判決的法律后果,它就沒有什么可借鑒的。總之,正如 Emily Bender 所指出的,為人類設計的測試在應用于機器人時缺乏結構效度。

圖片

除此之外,專業考試,尤其是律師資格考試,過度強調學科知識,而對現實世界的技能強調不足,而這些技能在標準化的計算機管理方式下更難衡量。換句話說,這些考試不僅強調了錯誤的東西,而且過度強調了語言模型所擅長的東西。

在 AI 領域,基準被過度地用于比較不同的模型。這些基準因將多維評價壓縮成一個單一數字而飽受批評。當它們被用于比較人類和機器人時,得到的結果是錯誤的信息。不幸的是,OpenAI 在對 GPT-4 的評估中選擇大量使用這些類型的測試,而且沒有充分嘗試解決污染問題。

有更好的方法來評估 AI 模型對職業的影響

人們在工作期間可以上網,但在標準化考試期間卻不能上網。因此,如果語言模型的表現能夠媲美可以上網的專業人士,這在某種程度上將能更好地檢驗它們的實際效能。

但這仍然是個錯誤的問題。與其用獨立的基準,我們或許更應該衡量語言模型能在多大程度上完成專業人員必須完成的所有現實任務。例如,在學術界,我們經常會遇到一些我們不熟悉的領域的論文,其中充滿了專業術語;如果 ChatGPT 能夠以一種更容易理解的方式準確地總結這樣的論文,那就很有用了。有些人甚至還測試過這些工具是否能做同行評議。但即使是這個場景,你也很難確保用來測試的題目沒有包含在訓練集里。

ChatGPT 可以取代專業人員的想法仍然很牽強。在 1950 年的普查中,270 個工作中僅有 1 個被自動化淘汰了,那就是電梯操作員。當下,我們需要評估的是那些利用人工智能工具來幫助自己完成工作的專業人員。兩項早期的研究是有希望的:一項是 GitHub 用于編程的 copilot,另一項是 ChatGPT 的寫作協助。

在這個階段,我們更需要定性研究而不是定量研究,因為這些工具太新了,我們甚至不知道該問什么正確的定量問題。例如,微軟的 Scott Guthrie 報告了一個醒目的數字:GitHub Copilot 用戶檢查的代碼中有 40% 是人工智能生成的,沒有經過修改。但任何程序員都會告訴你,很大一部分代碼由模板和其他通常可以復制粘貼的平凡邏輯組成,特別是在企業應用程序中。如果這就是 Copilot 自動化的部分,那么生產力的提高將是微不足道的。

作者表示,明確地說,我們不是說 Copilot 沒有用,只是說如果沒有對專業人士如何使用人工智能的定性理解,現有的衡量標準將是沒有意義的。此外,人工智能輔助編碼的主要好處甚至可能不是生產力的提高。

結論

下圖總結了這篇文章,并解釋了我們為什么要以及如何擺脫 OpenAI 報告的那種度量標準。

圖片

GPT-4 確實令人興奮,它可以通過多種方式解決專業人士的痛點,例如通過自動化,代替我們做簡單、低風險但費力的任務。目前,專注于實現這些好處并降低語言模型的許多風險可能是更好的做法。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-16 19:17:57

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-04-04 09:09:10

GPT-4編程程序員

2023-08-15 15:03:00

AI工具

2025-05-30 07:40:56

2023-03-15 07:49:57

GPT-4ChatGPT

2023-11-05 09:59:30

AI論文

2024-03-22 13:33:00

AI模型

2023-10-08 13:11:00

訓練數據

2023-05-22 08:30:35

GPT-4智能編程助手

2024-03-04 08:33:41

GPT-4硅谷開源

2020-08-18 10:35:18

JWTredis認證

2023-11-20 21:56:04

AI推理

2023-05-08 07:53:12

GPT-4代碼

2024-05-21 12:23:17

2023-03-28 13:01:20

GPT-4開發OpenAI

2023-05-03 20:53:48

2023-08-15 10:33:06

微軟必應人工智能

2022-04-20 10:47:46

AIGPT-4
點贊
收藏

51CTO技術棧公眾號

日韩电影在线一区| 试看120秒一区二区三区| 国产三级一区二区三区| 国产在线久久久| 婷婷激情四射网| 99ri日韩精品视频| 在线视频综合导航| 肉大捧一出免费观看网站在线播放| 亚洲精品中文字幕成人片| 亚洲在线成人| 美日韩精品免费视频| 中文乱码人妻一区二区三区视频| 波多野结衣中文字幕一区 | 欧洲精品毛片网站| 国产人与禽zoz0性伦| 国产精品网在线观看| 欧美色网一区二区| 一二三四视频社区在线| 日本在线视频观看| 成人福利视频在线看| 国产剧情久久久久久| 亚洲精品视频在线观看免费视频| 日韩欧美午夜| 日韩激情在线视频| 手机在线免费毛片| 日韩一级二级| 精品国产户外野外| 日韩一级免费看| 免费观看在线黄色网| 91在线观看下载| av蓝导航精品导航| 国产精品久久久久久免费| 久久久久久夜| 久久男人av资源网站| 午夜精品一区二区三级视频| 亚洲精品亚洲人成在线| 亚洲成人久久久| 三级黄色片免费观看| 久久亚洲精品人成综合网| 欧美日韩亚洲精品内裤| 女人帮男人橹视频播放| av网站在线看| 亚洲欧洲日韩av| 任我爽在线视频精品一| 日本高清视频在线| 国产91精品欧美| 亚洲影院高清在线| 国产精品乱码久久久| 精品在线免费视频| 国产日韩av在线播放| 国产精品传媒在线观看| 久久伊人亚洲| 国产精品99久久久久久白浆小说 | 欧美日韩dvd在线观看| 女性隐私黄www网站视频| 欧美激情护士| 欧美午夜无遮挡| 妺妺窝人体色www在线小说| 国产乱码午夜在线视频| 午夜电影网一区| 男人用嘴添女人下身免费视频| 黄色污污视频在线观看| 亚洲va欧美va天堂v国产综合| 97碰在线视频| heyzo中文字幕在线| 亚洲va国产va欧美va观看| 亚洲乱码日产精品bd在线观看| 成人三级小说| 欧美日韩一二三四五区| 超碰影院在线观看| 福利精品一区| 91精品国产综合久久福利软件| 亚洲网中文字幕| 欧美a级大片在线| 精品捆绑美女sm三区| 国产十八熟妇av成人一区| 色综合久久中文| 亚洲桃花岛网站| 国产精品综合激情| 欧美特黄a级高清免费大片a级| 久久久久久午夜| 中文字幕一区在线播放| 蜜桃av噜噜一区| 亚洲自拍偷拍福利| 人妻无码一区二区三区久久99| 99久久精品国产一区二区三区| 久久人人九九| 最新电影电视剧在线观看免费观看| 国产精品免费网站在线观看| 黄色录像特级片| 中文字幕影音在线| 欧美日韩一级黄| av影片在线播放| 亚洲最好看的视频| 久久精品一区中文字幕| 日韩av在线天堂| 免费在线一区观看| 俄罗斯精品一区二区三区| 日本亚洲欧美| 一区二区三区在线播| 欧美国产亚洲一区| 高清一区二区三区av| 亚洲黄在线观看| 美国黄色片视频| 夜久久久久久| 亚洲a成v人在线观看| 四虎影院在线播放| 亚洲激情男女视频| 男人天堂999| 日本超碰一区二区| 国产一区二区三区在线看| 麻豆精品一区二区三区视频| 久久精品二区三区| 99视频国产精品免费观看| 成人免费一区二区三区视频网站| 一区二区三区欧美| 亚洲免费看av| 亚洲精品国产setv| 久久久久久久久电影| 亚洲怡红院av| 久久综合九色综合97_久久久| 最新视频 - x88av| avav成人| 亚洲欧美激情精品一区二区| 久久久久久久久久久久久久免费看 | 激情五月色综合国产精品| 久久99视频免费| 中文在线免费看视频| 91一区二区三区在线播放| 最近免费观看高清韩国日本大全| 精品成人免费一区二区在线播放| 亚洲黄色成人网| 国产一级aa大片毛片| 激情综合亚洲精品| 婷婷五月色综合| 欧美黑人一区| 日韩va亚洲va欧洲va国产| 久久婷婷一区二区| 国产成人啪免费观看软件| 综合久久国产| 国产精品亲子伦av一区二区三区| 亚洲欧洲在线观看| 久草视频在线观| 99在线精品一区二区三区| 亚洲 欧美 综合 另类 中字| 欧美激情三级| 欧美成人精品激情在线观看| 国产精品久久久久久69| 亚洲少妇中出一区| 亚洲精品成人在线播放| 99欧美视频| 成人一区二区电影| а√天堂资源地址在线下载| 91精品国产综合久久福利软件 | 一区二区三区四区日韩| 成人性生交大片免费观看嘿嘿视频| 秋霞午夜理伦电影在线观看| 欧美日韩一区二区三区在线 | 一区二区不卡在线播放| 国产男女无遮挡猛进猛出| 欧美淫片网站| 国产精品视频免费观看| 都市激情国产精品| 亚洲男人av电影| 老熟妇一区二区三区啪啪| 国产精品免费视频网站| 天堂av手机在线| 国内视频精品| 精品无人区一区二区三区 | http;//www.99re视频| 免费毛片在线看片免费丝瓜视频| 亚洲高清福利视频| 麻豆成人免费视频| 中文字幕不卡三区| 欧美激情第一区| 在线视频日韩| 亚洲国产一区在线| 视频二区欧美| 热久久这里只有| 欧美成人三区| 精品99一区二区三区| 亚洲av中文无码乱人伦在线视色| 欧美国产精品一区二区| 色欲无码人妻久久精品| 亚欧美中日韩视频| 尤物国产精品| 国产女人18毛片水真多18精品| 欧美一级片久久久久久久| 自拍视频在线网| 亚洲а∨天堂久久精品9966 | 视频一区视频二区在线观看| 一区二区三区av在线| 99re6热只有精品免费观看| 欧洲亚洲女同hd| av在线免费网址| 国产视频精品va久久久久久| 91成品人影院| 精品久久久国产| 亚洲精品卡一卡二| 91麻豆蜜桃一区二区三区| 亚洲一区二区三区观看| 9色国产精品| 四虎免费在线观看视频| 欧美丝袜美腿| 亚洲999一在线观看www| 桃色一区二区| 久久久久久香蕉网| 久操视频在线| 亚洲欧洲国产精品| 亚洲精品久久久久avwww潮水| 91精品办公室少妇高潮对白| 国产亚洲欧美精品久久久久久| 国产日韩高清在线| 中文字幕第3页| 国产精品综合一区二区| 一区二区三区韩国| 国产美女一区| 国产精品videossex国产高清| 欧美亚洲国产激情| 麻豆av一区二区| 超碰在线亚洲| 亚洲一区中文字幕| 婷婷丁香久久| 国产精品免费电影| 亚洲美女尤物影院| 国内偷自视频区视频综合 | **欧美日韩vr在线| 激情网站在线| 欧美成aaa人片在线观看蜜臀| yw视频在线观看| 亚洲人成电影网站色xx| 亚洲欧美丝袜中文综合| 日韩精品一区二区三区中文不卡 | 亚洲激情小视频| 国产婷婷一区二区三区久久| 欧美日韩国产天堂| 精品久久久久久久久久久国产字幕 | 精品国模一区二区三区| 欧美一级在线播放| 日本在线播放一二三区| 性欧美xxxx视频在线观看| 激情图片在线观看高清国产| 欧美精品久久久久久久免费观看| 黄色一级片在线观看| 久久精品91久久久久久再现| 午夜在线视频| www.欧美三级电影.com| 亚洲欧美视频一区二区| 中文字幕av一区中文字幕天堂| 国产在线播放av| 国产亚洲欧洲在线| 自拍视频在线| 久久福利网址导航| 91麻豆一二三四在线| 欧美wwwxxxx| 丰满诱人av在线播放| 久久久久久久国产| 爱啪啪综合导航| 日韩美女免费线视频| 先锋欧美三级| 国产噜噜噜噜噜久久久久久久久| 国产91精品在线| 91免费高清视频| 日韩精品视频中文字幕| 国产成人精品日本亚洲11| 成人爽a毛片免费啪啪红桃视频| 国产福利久久精品| 伦理一区二区| 日本一区视频在线观看| 91亚洲成人| 999久久欧美人妻一区二区| 精品动漫一区| 欧美黑人又粗又大又爽免费| 捆绑紧缚一区二区三区视频| 亚洲精品免费一区亚洲精品免费精品一区 | 国产精品精品国产一区二区| 日本道在线视频| 夜久久久久久| 日本不卡一区在线| 国产91精品免费| 美女100%无挡| 亚洲欧洲成人av每日更新| 精品无码人妻一区二区三| 粉嫩老牛aⅴ一区二区三区| 国产99久久久久久免费看| 欧美日韩一二三| 亚洲国产999| 亚洲午夜精品久久久久久性色 | 亚洲欧洲日韩综合| 91论坛在线播放| 色哟哟一一国产精品| 午夜伦欧美伦电影理论片| 日本视频www色| 欧美成人精品3d动漫h| 日韩av视屏| 欧美人与性动交| 小明成人免费视频一区| 国产精品二区在线| 日韩欧美高清| 成人免费aaa| 国产一区二区电影| 亚洲第一成人网站| 亚洲精品视频在线| 波多野结衣激情视频| 日韩免费电影网站| av在线之家电影网站| 久久久久久久久久久91| abab456成人免费网址| 国产精品日韩一区二区免费视频| 成人3d精品动漫精品一二三| 五月丁香综合缴情六月小说| 久草这里只有精品视频| 精品人妻一区二区三区香蕉| 樱桃视频在线观看一区| 中文字幕 日韩有码| 国产视频精品va久久久久久| 欧美韩日亚洲| 91免费国产网站| 色综合久久网| 国产麻花豆剧传媒精品mv在线| 国产精品一区二区久久不卡| 亚洲色图第四色| 色综合一区二区| 天堂网在线播放| 欧美国产视频一区二区| 国产精品日本一区二区三区在线| 日韩在线导航| 久久亚洲风情| 亚洲专区区免费| 午夜av一区二区| 人妻一区二区三区四区| 欧美日韩成人精品| 亚洲国产中文在线二区三区免| 伊人狠狠色丁香综合尤物| 日韩电影免费一区| 免费黄色在线视频| 精品二区三区线观看| 欧洲av在线播放| 久久久这里只有精品视频| 日韩一区二区三区精品| 亚洲国产精品女人| 国内久久精品视频| 色欲一区二区三区精品a片| 欧美日本乱大交xxxxx| 婷婷成人激情| 成人春色激情网| 亚洲视频在线免费| 国产5g成人5g天天爽| 樱花影视一区二区| 日本高清视频在线| 欧洲s码亚洲m码精品一区| 九九热爱视频精品视频| 男女啪啪网站视频| 国产精品第四页| 国产高清视频免费观看| 欧美国产亚洲视频| 精品按摩偷拍| 爱福利视频一区二区| 国产三级一区二区| 中文字幕一区二区三区人妻四季| 日韩天堂在线视频| 日韩精品一区二区三区中文字幕| 小泽玛利亚av在线| 北条麻妃一区二区三区| 日韩精品在线观看免费| 亚洲色图在线观看| 9999精品视频| 国产精品国产对白熟妇| 久久久精品国产免费观看同学| 亚洲天堂视频在线播放| 日韩少妇与小伙激情| 999在线精品| 日本新janpanese乱熟| 日本一区二区在线不卡| 国产一区二区女内射| 久久免费少妇高潮久久精品99| 九九热线有精品视频99| 九九热免费在线观看| 亚洲成人1区2区| 成av人电影在线观看| 91福利入口| 快she精品国产999| 日本黄色小说视频| 日韩大片免费观看视频播放| 久久精品嫩草影院| www.av毛片| 国产精品麻豆一区二区| 国产 日韩 欧美 精品| 国产精品高潮呻吟久久av野狼 | 免费在线观看毛片网站| 亚洲欧洲国产专区| 欧美亚洲精品在线观看| 国产精品91在线观看| 欧美激情一级片一区二区| 国产乱了高清露脸对白| 欧美精选午夜久久久乱码6080| 污污的网站在线看| 日本一区二区三不卡| 国产乱对白刺激视频不卡| 一区二区三区在线观看av|