精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

爆火的「GPT-4 MIT本科數學滿分」論文作弊,數據集本身有問題

人工智能 新聞
結論不應該如此被夸大。

這兩天,一篇關于 GPT-4 滿分通過 MIT EECS 和數學本科考試的論文在推特上瘋傳。

圖片

論文地址:https://arxiv.org/pdf/2306.08997.pdf

簡單概括,一個來自 MIT 的研究團隊從自己學校的數學、電氣工程和計算機科學 (EECS) 專業的課程問題、期中考試和期末考試中,整理出了一個包含 4550 個問題和解決方案的綜合數據集。

然后,研究團隊讓各種大語言模型去完成這個數據集的題目,結果太嚇人:GPT-3.5 能做對 1/3,GPT-4 幾乎滿分通過。

圖片

論文作者表示,提升模型表現主要靠「四件套」:Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示,加持 GPT-4 的手法越多,模型的答題正確率就越高。原始的 GPT-4 本來就能拿到 90% 的正確率得分,一番運作之后,甚至直接拿到滿分。

但大部分討論得很激烈的網友可能沒注意到,這個分數本身就是用 GPT-4 打的……

圖片

三位同樣來自 MIT 的學生第一時間發現了這篇論文,作為險些被 GPT-4 趕超的群體,他們想立即領會一下爆款論文的方法論。

研究了一小時后,他們對該論文的方法產生了懷疑。

兩小時后,他們意識到:數據集本身有問題。

圖片

圖片

盡管原論文的作者宣稱已手動審查了發布的數據集質量,但三人發現,有明顯的跡象表明,測試數據集的很大一部分被污染了。

也就是說,模型就像一個學生在考試前被告知了答案,這是赤裸裸的「作弊」。

圖片

產生質疑后,他們立即著手在數據集上完成了零樣本 GPT-4 的運行,并對數據的前 30% 進行了手動評分,結果與原論文相差甚遠,應該說是一個天上、一個地下。

圖片

「作為麻省理工學院的本科生,至少根據我們的經驗,這個測試集并不能準確地代表在麻省理工學院獲得 EECS 學位所需的理解廣度和深度。」三人在博客中這么寫道。

圖片

最新進展:零樣本 GPT-4 的準確率能達到 62.5% 了,但還是和論文里宣稱的 90% 差很多。

三人還質疑了「過度宣傳」的風潮:「這些論文通常在任何合法的同行評審之前就被上傳到 Arxiv,并在 Twitter 上廣泛分享。在這種情況下,可能會傳播不良信息,并為未來的工作樹立一個糟糕的先例。」

「深度學習」斗士 Gary Marcus 也不出意料地聲援了這波質疑:

圖片

同時,三人也在博客中指出一點:《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》論文上列出的幾個作者都是本科生研究人員,讓這些人對工作中出現的任何失誤負責是不合適的。相反,責任應該在指導作者身上 —— 他們才是被期望確保工作符合其領域內公共學術標準的人。

接下來讓我們看下,這篇「爆火」論文都有哪些問題。

數據集到底有什么問題?

首先,從原論文中得知,研究者收集的數據集包含獲得 MIT 學位考試所需的 30 門數學和 EECS 課程的 4550 個問題和相應的解決方案,涵蓋核心課程和選修課程。

圖片

論文中寫道:「在沒有圖像和有解決方案的問題中隨機選擇了 288 個問題的測試集。」

這個數據集(不包括用于微調開源 LLM 的訓練集)隨著論文的公開也被發布到 GitHub 上,同時發布的還有用于生成報告的測試性能的代碼。然而,作者 Drori 教授在最近的一次提交中已經將其刪除。

圖片

經過檢查、對比,三人確信這個被刪掉的文件代表了論文中分析的測試集,因為評估代碼中的所有數據的文件路徑都指向它,沒有提供任何修改其內容的代碼,而且它在最初發布的 GitHub 倉庫中是可用的。此外,該文件滿足了論文中規定的所有模式要求(行數等)。這些證據似乎非常有力地支持了下面的所有主張,

「但我們要承認,這個文件有可能被換成了一個用于測試的不同文件。如果是這樣的話,我們認為證明的責任在于作者公開發布這個數據和用它做的所有分析。」

那么,被掩蓋的問題究竟是什么呢?三人給出了自己的分析。

無法解決的問題(約占測試集的 4%)

鑒于原論文表示,任何形式的 GPT-4 都能在測試集上產生一個完美的分數,三人開始檢查個別數據點。他們很快就發現,根本不可能有滿分,因為數據集中至少有 10 個問題是無法用所提供的信息解決的,另外幾個問題在這種情況下根本就不是有效的問題。

像這種「有問題的問題」,至少占據了測試集的 4%。

在一個擴展的 excel 文檔里,三人對已經發現有問題的數據集例子進行了注釋。「紅色」代表用提供的信息無法解決的問題,「黃色」代表一部分不太合理的問題。

頁面地址:https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重復的問題(約占測試集的 5%)

使用文本相似性檢測,三人發現有 14 個問題(7 對)在 288 個問題的測試集中是重復的,在這些情況下,問題串之間的唯一區別是極小的字符級噪音,甚至完全相同。

鑒于這些無法解決的問題,GPT-4 能夠通過任何方式獲得 100% 的準確率,也是難以置信。要么是在某個階段出現了答案泄漏到 prompt 中,要么是問題沒有被正確打分。

這些初步的發現促使他們從少樣本示例開始進一步調查(如果模型在零樣本正確率方面失敗的話),最終發現,既有解題信息的泄露,也有用于對模型輸出進行分級的方法問題。具體情況如下:

少樣本示例中的信息泄露

值得注意的是,原論文中還提到了「少樣本示例」這個事。

簡而言之,論文對 OpenAI 嵌入的數據集內的類似問題進行余弦相似度搜索,并將這些問題和解決方案作為額外的上下文納入模型的 prompt,幫助模型解決問題。

這個方法本身是沒問題的,只要這些示例與有關問題有足夠的差異,且避免暴露不公平的信息。

只是隨機掃描已發布的測試數據集時,三人注意到一些奇怪的事情:許多提供給模型的「少樣本示例」與問題本身幾乎一字不差。

為了進一步了解這一點,他們寫了一個簡單的腳本,查看了所提供的幾個示例的問題陳述和所列出的問題之間的重疊情況,并繪出了直方圖:

圖片

許多提供的少樣本與問題本身幾乎相同,這意味著模型得到的是問題的答案或與問題非常相似的問題。通常情況下,這來自于大量的共享背景的多環節問題的重復。

他們認為,為了正確評估 GPT 的解題能力,多環節問題的其他部分應該被完全排除在某一問題的少樣本示例之外。事實上,他們發現這些多環節問題的解決方案,往往直接提到或給出了模型被要求解決的另一部分問題的答案。

不僅如此,在對這些數據的挖掘中,他們還發現了整個問題被重復的樣本。比如:

圖片

在這兩種情況下,答案是完全相同的。很難說不算信息泄漏了。

GPT-4 自動打分,有問題

此外,三人還在原論文開源的打分機制中發現了問題:

def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0):
    df = pd.read_csv(input_path)
    df = df.iloc[most_recent_q:]


    for index, row in df.iterrows():
        print('Completing question', index)
        question_output = row.values.tolist()
        course_name = row['Course Name']
        question = row['Question']
        solution = row['Solution']
        fs_qs = [[row['Few shot question 1'], row['Few shot solution 1']], [row['Few shot question 2'], row['Few shot solution 2']], [row['Few shot question 3'], row['Few shot solution 3']]]
        experts = get_experts(course_name, question, num_experts).split(', ')
        prompts = [lambda expert: zero_shot_response(question, expert),
                    lambda expert: few_shot_response(expert, question, fs_qs),
                    lambda expert: few_shot_response(expert, question, fs_qs, True)
        ]
        critiques = [["Review your previous answer and find problems with your answer.", "Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]]


        for expert in experts:
            print("Using expert", expert)
            question_output.append(expert)
            crit = True
            for prompt in prompts:
                prompt_response = prompt(expert) # calls fresh ChatCompletion.create
                prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4 auto-grading comparing answer to solution
                question_output+=[prompt_response, prompt_grade]
                if correct(prompt_grade):
                    crit = False
                    break
            if crit:
                for critique in critiques:
                    crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # calls fresh ChatCompletion.create
                    crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 auto-grading comparing answer to solution
                    question_output+=[crit_response,crit_grade]
                    if correct(crit_grade):
                        break


repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

在代碼中,能看出流程上處理分級存在嚴重的問題:論文是用 GPT-4 去評估檢查的,包括 a)原始問題,b)解決方案,c)GPT 自己的答案,作為分級 prompt 中的參數。

在更多的技術領域,GPT 更有可能出現隱性誤解,這種自動評分更有可能出現「自我欺騙」的結果。

此外,雖然 prompt 級聯是最近許多 GPT 論文中常見的技術,但這里有大量數據泄漏的可能性。每一級不僅提供基于 ground truth 的二元信息,而且還在繼續 prompt,直到達到正確答案。

盡管這些創建的 prompt 并沒有看到實際的答案,但重新 prompt 直到達到正確答案的形式已經足夠了,尤其是在占測試集 16% 的多選題中,無限次的嘗試(幾乎)保證了正確答案一定會出現。

這就好比有人拿著答題紙,告訴正在考試的學生答得對不對,一直提示到學生得到正確答案。

總結

在博客的最后,三位這樣寫道:

這篇論文道出了最近人工智能領域研究的一個更大趨勢。隨著該領域的進展越來越快,新發現的時間節奏似乎在縮短,這往往伴隨著捷徑。一個特別令人擔憂的趨勢是使用像 GPT-4 這樣基于語言的模型來評估一個模型的準確性的技術。

雖然是一個有用的工具,但它的結論絕不應該被夸大,也不應該被當作 ground truth。最近的工作表明,如果沒有準確的 ground truth 信息,GPT-4 評估器就不能可靠地用于驗證。至少,應該選擇一個隨機的數據集子集,將 GPT-4 的性能與人類的評估進行比較。語言模型還不能被當作產生 ground truth 的神諭。

此外,在使用數據之前,無論是用于訓練、推理、基準測試還是其他方面,重新評估每一個數據點并進行基本的檢查是極其重要的。鑒于有關數據集的規模較小,簡單的人工驗證很容易在工作范圍內完成。 

我們的批評主要是針對這項研究的方法和嚴謹性,而不是針對其內容。我們對大型語言模型實際解決麻省理工學院課程的能力沒有任何意見,只是認為本文未能以科學嚴謹的方式證明這一點。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-19 12:28:21

GPT人工驗證數據集

2023-03-24 16:02:59

GPT-4測評

2023-06-25 12:46:24

GPT-4人工智能

2023-06-01 12:46:46

GPT-4數學OpenAI

2023-09-18 08:54:13

研究數據

2023-05-15 12:32:29

GPT-4開源

2023-06-19 08:19:50

2023-12-11 19:08:59

AI模型

2025-04-16 09:35:03

2023-07-25 09:23:23

Llama 2GPT-4

2023-11-10 09:48:34

2023-04-10 11:45:26

GPT-4AI

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-05-15 15:38:59

AI模型

2023-03-20 08:19:23

GPT-4OpenAI

2023-03-29 14:58:04

GPT-4技術

2023-04-25 15:41:59

2023-06-19 09:57:23

GPT-4技術

2023-11-13 19:31:47

GPT-4VLLaVABard

2024-06-24 17:45:16

點贊
收藏

51CTO技術棧公眾號

久久天堂电影| 免费看一级黄色| 懂色中文一区二区三区在线视频| 欧美成人国产精品一区二区| 欧美亚洲福利| 亚洲一本大道在线| 欧美在线激情网| 一级性生活视频| 午夜精品久久久久久久第一页按摩| 亚洲天堂网站| 精品久久久久久中文字幕大豆网| 91亚洲精品久久久| av大全在线观看| 久久久久国产| 国产一区二区三区在线观看网站| 在线观看日韩毛片| 久久99久久99精品蜜柚传媒| 91国内精品久久久| 热久久天天拍国产| 欧美精品一区二区三区蜜桃视频| 欧美午夜性生活| av资源在线| 国产亚洲综合色| 国产精品亚洲美女av网站| 欧洲美熟女乱又伦| 麻豆一区二区| 日韩精品影音先锋| 天天干天天色天天干| gogo亚洲高清大胆美女人体| 亚洲一级二级三级| 樱空桃在线播放| 1769视频在线播放免费观看| 日韩和的一区二在线| 日韩精品久久理论片| 久久久久久久一区二区三区| 老司机成人免费视频| 欧美网色网址| 日韩欧美一区二区三区在线| 中文字幕亚洲欧洲| 成人做爰免费视频免费看| 日韩欧美亚洲一二三区| 欧美日韩不卡在线视频| 日韩三级免费| 亚洲综合免费观看高清完整版| youjizz.com亚洲| 1024视频在线| 国产精品欧美经典| 视频在线99re| 韩国中文字幕2020精品| 久久婷婷综合激情| 久久久久久欧美精品色一二三四| 人妻无码中文字幕免费视频蜜桃| 国产精品一二三四| 91九色在线视频| 91影院在线播放| 精品中文av资源站在线观看| 国产精品人成电影| 这里只有精品免费视频| 日韩精品乱码av一区二区| 国产精品福利在线观看网址| 久久影视中文字幕| 麻豆视频观看网址久久| 成人xxxxx| 99热这里只有精品9| 国产美女在线精品| 成人资源视频网站免费| 国产18精品乱码免费看| av亚洲精华国产精华精| 久久国产手机看片| 国产中文字幕在线| 国产精品视频免费看| 一区在线电影| 主播国产精品| 精品欧美激情精品一区| 国产精品人人妻人人爽人人牛| 黄色精品视频| 欧美一区二区三区不卡| 挪威xxxx性hd极品| 亚洲瘦老头同性70tv| 国产亚洲xxx| 国产黄色小视频网站| 亚洲国产高清一区二区三区| 欧美专区在线播放| 91在线观看喷潮| 成人免费三级在线| 欧美激情论坛| 国产网站在线免费观看| 亚洲一区二区精品视频| 波多野结衣家庭教师视频| 欧美一级做一级爱a做片性| 日韩欧美国产系列| 亚洲色成人网站www永久四虎| 国产精品毛片一区二区在线看| 久久久久久久久久久av| 91porny九色| 国产成人小视频| 日本精品免费| 手机av免费在线| 色欧美日韩亚洲| 极品人妻一区二区| 国产伦一区二区三区| 欧美成人精品在线| 亚洲视频 欧美视频| 国产精品一色哟哟哟| 久久亚洲午夜电影| 中文字幕有码在线视频| 色拍拍在线精品视频8848| 手机看片国产精品| 久久久久亚洲av成人无码电影| 亚洲AV无码久久精品国产一区| 午夜免费欧美电影| 日韩毛片中文字幕| 91麻豆精品成人一区二区| 国产精品亚洲欧美| 亚洲一区二区少妇| 精品推荐蜜桃传媒| 亚洲综合色区另类av| 国内自拍视频一区| a级日韩大片| 中文字幕欧美精品在线| 日本少妇在线观看| 国产一区二区在线影院| 日韩成人在线资源| 国产色播av在线| 日韩一区二区三区在线观看| 后入内射无码人妻一区| 亚久久调教视频| 国产成人精品福利一区二区三区| 欧洲美女少妇精品| 欧美在线观看视频一区二区 | 欧美mv日韩mv| 天美传媒免费在线观看| 久久只有精品| 精品国产一区二区三区麻豆小说| 久热国产在线| 欧美亚洲日本国产| 91国模少妇一区二区三区| 亚洲久久在线| 国产一区在线观| 青青青草视频在线| 日韩欧美另类在线| www.超碰在线观看| 国产制服丝袜一区| 国产麻豆电影在线观看| 日韩久久一区| 久久夜色精品亚洲噜噜国产mv| 在线观看亚洲国产| 欧美经典一区二区三区| 天堂中文视频在线| 欧美精品羞羞答答| 国产精品精品视频| 黄网在线观看| 欧美性猛片xxxx免费看久爱 | 亚洲女人****多毛耸耸8| 成人性生交免费看| 久久精品久久久| 91久久中文字幕| 中中文字幕av在线| 欧美精品一区二区在线播放| www.99re7.com| 国产成人免费视频网站| 五月丁香综合缴情六月小说| 美国一区二区| 国产99久久久欧美黑人| 九色视频在线观看免费播放 | 国模精品系列视频| 神马午夜一区二区| 日韩欧美在线观看| 欧美亚洲色综久久精品国产| 久久国产欧美日韩精品| 国产卡一卡二在线| 第四色中文综合网| 热re91久久精品国99热蜜臀| 国产黄色免费在线观看| 欧美手机在线视频| 亚洲成人生活片| 国产伦理精品不卡| 日韩在线三级| 国精产品一区一区三区四川| 久久精品成人欧美大片| 国产伦理吴梦梦伦理| 国产日韩欧美a| 亚洲一二区在线观看| 国产精品二区影院| 免费一区二区三区| 91成人福利社区| 96精品视频在线| 麻豆视频免费在线观看| 亚洲国产精品va在看黑人| 在线视频精品免费| 一区二区三区中文字幕| 精品成人av一区二区三区| 国产毛片精品视频| 国产一区亚洲二区三区| 一区二区三区中文| 欧美日韩国产不卡在线看| 香蕉久久一区| 欧洲永久精品大片ww免费漫画| 久久国产精品一区| 亚洲毛片在线看| 国产同性人妖ts口直男| 日韩欧美综合在线视频| 最新av在线免费观看| 97在线视频人妻无码| 亚洲成人av中文| 五月天免费网站| 99久久免费国产| 57pao国产成永久免费视频| 99精品福利视频| 裸体裸乳免费看| 欧美猛男同性videos| 91精品国产一区二区三区动漫| 黑人巨大精品| 午夜精品一区二区三区在线视频 | 五月亚洲婷婷| 国产精品亚洲精品| 在线观看欧美日韩电影| 色在人av网站天堂精品| 97人人在线| 亚洲精品一区av在线播放| 不卡的日韩av| 欧美日韩你懂得| 四虎成人在线观看| 亚洲国产精品嫩草影院| 黄色录像一级片| 中文字幕巨乱亚洲| 色婷婷av777| 99精品国产一区二区三区不卡 | 91麻豆成人久久精品二区三区| 国内av一区二区| 美女视频黄久久| 国产淫片av片久久久久久| 亚洲伦理一区| 妞干网在线观看视频| 欧美久久成人| 久久久无码中文字幕久...| 久久视频在线| 正在播放一区二区三区| 成人网18免费网站| 日韩免费av一区二区三区| 亚洲区小说区图片区qvod| 国内成+人亚洲| 久久综合另类图片小说| 国产精品一区免费观看| 99久久免费精品国产72精品九九| 91情侣在线视频| 日韩欧洲国产| 国产精品白丝jk白祙| 51精品国产| 精品国产乱码久久久久久88av | 亚洲精品久久久久久久久久久久| 亚洲女人18毛片水真多| sis001亚洲原创区| 久久9999免费视频| www.成人爱| 国产九一精品| 风流少妇一区二区| 婷婷国产在线综合| 自拍偷拍亚洲精品| 一区二区精品视频| 可以在线看的黄色网址| 熟女俱乐部一区二区| heyzo在线播放| 欧美精品一区二区三区蜜桃| 精品人妻无码一区二区| 精品国产污网站| 婷婷丁香花五月天| 亚洲视频电影图片偷拍一区| 国产一级免费在线观看| 日韩中文字幕av| 国产激情小视频在线| 久久久久久18| 成人美女大片| 国产日韩欧美中文在线播放| 国产一区二区三区| 国内一区二区三区在线视频| 欧美人与拘性视交免费看| 亚洲一二区在线| 欧美日韩精品免费观看视频完整| 欧美午夜小视频| 日韩精品一级二级| 女人高潮一级片| 成人黄色在线看| 色婷婷在线影院| 亚洲日本在线观看| 日韩三级一区二区三区| 欧美亚一区二区| av观看在线免费| 亚洲精品在线观看www| 午夜激情视频在线| 久久久久亚洲精品| av成人亚洲| 国产区欧美区日韩区| gogogo高清在线观看一区二区| 中文字幕精品在线播放| 亚洲专区在线| 在线观看视频在线观看| 91免费国产在线| 亚洲av无码一区二区三区在线| 偷拍一区二区三区| 国产精品羞羞答答在线| 日韩黄色高清视频| av理论在线观看| 国产精品成人v| 一区二区三区高清在线观看| 视频一区不卡| 国产精品久久久一区二区| 欧美高清精品一区二区| 国产无人区一区二区三区| 国产午夜精品一区二区理论影院 | 日韩精品手机在线| 欧美日韩精品一区视频| 香蕉视频911| 欧美精品videosex性欧美| 国产一区二区色噜噜| 精品亚洲欧美日韩| 欧美在线不卡| 久久婷婷综合色| 久久色视频免费观看| 久久综合综合久久| 欧美一区午夜视频在线观看| 大乳在线免费观看| 欧洲精品久久久| 欧美黄色影院| 日韩国产一级片| 国产乱码字幕精品高清av| 婷婷丁香综合网| 欧美三区免费完整视频在线观看| 婷婷婷国产在线视频| 国模精品一区二区三区色天香| 国产一区二区三区免费观看在线| 亚洲亚洲精品三区日韩精品在线视频| 日韩精品亚洲一区二区三区免费| 你懂的在线观看网站| 亚洲精品乱码久久久久| 国产又大又粗又硬| 久久精品国产亚洲精品| 777午夜精品电影免费看| 茄子视频成人在线观看 | 国精品一区二区三区| 99中文字幕在线| 自拍偷拍国产亚洲| 一级特黄aaaaaa大片| 日韩在线免费视频| 欧美成人福利| 欧美日韩在线免费观看视频| 老司机午夜精品99久久| 任你操精品视频| 欧美日本在线播放| 黄网站在线播放| 18成人在线| 黄色日韩精品| 亚洲第九十七页| 色丁香久综合在线久综合在线观看| 日韩三级电影网| 国产国语刺激对白av不卡| 红桃视频在线观看一区二区| 91看片在线免费观看| 中文字幕一区二区三区在线观看| 国产精品久久久久久久一区二区| 日韩在线中文字| 亚洲性视频在线| 日本免费黄视频| 国产精品无遮挡| 国产99999| 97精品国产97久久久久久| 久久99久久人婷婷精品综合| 色悠悠久久综合网| 亚洲乱码国产乱码精品精98午夜 | 狠狠人妻久久久久久| 伊人久久免费视频| 国语精品视频| 久久久久久久中文| 中文一区在线播放 | 亚洲国产第一页| 素人啪啪色综合| 国产精品av免费观看| 91偷拍与自偷拍精品| 亚洲中文字幕在线观看| 欧美老女人性生活| 亚洲黄页在线观看| 日本不卡一区二区在线观看| 亚洲综合一二区| 精品无人乱码| 97超碰人人模人人爽人人看| 99av国产精品欲麻豆| 国产又粗又猛又爽又黄的视频四季| 在线播放欧美女士性生活| 高h视频在线播放| 视频一区二区三区免费观看| 国产成人精品免费视频网站| 国产91精品看黄网站在线观看| 麻豆国产va免费精品高清在线| 精品欠久久久中文字幕加勒比| 一区二区三区 日韩| 亚洲国产视频在线| 2017亚洲天堂1024| 国内精品久久久久久久果冻传媒| 久88久久88久久久| 国产精品久久久久久久久久久久久久久久久 |