精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek-R1、o1都低于10%,人類給AI的「最后考試」來了,貢獻者名單長達兩頁

人工智能 新聞
雖然目前的 LLM 在 HLE 上的準確度非常低,但最近的歷史表明,這個基準很快就會飽和 —— 前沿模型的性能可在短時間內從接近零到接近完美。

隨著 AI 大模型在一個又一個的任務上達到乃至超越人類水平,人類文明似乎已經進入了與 AI 共生的時代。 

為了跟蹤 AI 的發展進度,適當的基準必不可少。但現在,由于 AI 發展的速度實在太快,已有的基準已經開始不夠用了。比如在常用的基準 MMLU 上,當今前沿的 LLM 已經能達到超過 90% 的準確度了!這就限制了對前沿 LLM 能力的精確度量能力。

基于此現狀,Center for AI Safety(AI 安全中心)與 Scale AI 聯合打造一個名字相當吸引眼球的新基準:Humanity's Last Exam,即「人類的最后考試」,簡稱 HLE

  • 論文標題:Humanity’s Last Exam
  • 論文地址:https://arxiv.org/pdf/2501.14249
  • 項目地址:https://lastexam.ai

從名字也能看出來,其背后必然有一個雄心勃勃的團隊。據介紹,HLE 是一個「位于人類知識前沿的多模態基準」,其設計目標是成為「同類中具有廣泛學科覆蓋范圍的終極封閉式學術基準。」

現目前,HLE 已包含 3000 個問題,涉及上百門學科,包括數學、人文科學和自然科學。其中的問題主要由適合自動評估的多項選擇題和簡單問答題構成;每個問題都有一個已知的解,該解非常明確且易于驗證,但無法通過互聯網檢索快速回答。

為了構建 HLE 基準,Center for AI Safety 與 Scale AI 向全球不同學科的專家尋求了幫助,最終讓該論文有了一份長達兩頁、近千人的數據集貢獻者名單:

該團隊也使用該基準測試了一些 SOTA 模型,結果如下。很顯然,HLE 相當難。

數據集

HLE 包含 3000 多個高難度問題,涉及一百多個科目,概況見下圖 3 。

下面展示了一些問題示例:

雖然這些問題已公開發布,但該團隊也表示還維護著一個私有的測試集,其中包含一些用來評估模型過擬合現象的問題。

收集數據集

該團隊在技術報告中分享了 HLE 基準數據集的收集過程:「HLE 是一項全球合作的成果,其中的問題來自 50 個國家 / 地區的 500 多個機構的近 1000 名學科專家貢獻者 —— 主要由教授、研究人員和研究生學位持有者組成。」

問題風格:HLE 包含兩種問題格式:精確匹配問題(模型提供確切的字符串作為輸出)和多項選擇題(模型從五個或更多答案選項中選擇一個)。HLE 是一個多模態基準,其中 10% 的問題需要同時理解文本和圖像。80% 的問題是精確匹配型問題,其余的是多項選擇題。

提交格式:為確保問題的質量和完整性,該團隊設定了嚴格的提交標準。

  • 問題應該準確、明確、可解且不可搜索,確保模型不能依賴記憶或簡單的檢索方法。
  • 所有提交內容必須是原創的,或者是基于已發表信息的非平凡合成版本,但也會接受未發表的研究。
  • 問題通常需要研究生水平的專業知識或高度特定主題的測試知識(例如,精確的歷史細節、瑣事、當地習俗),并且有領域專家接受的具體、明確的答案。
  • 當 LLM 能提供正確答案但推理有誤時,希望作者能修改問題參數,例如答案選項的數量,以阻止假正例。
  • 要求明晰的英語和精確的技術術語,并在必要時支持 LATEX 標注。
  • 答案要簡短,并且對于精確匹配的問題,答案要容易驗證,以支持自動評分。
  • 禁止開放式問題、主觀解釋題和與大規模殺傷性武器有關的內容。
  • 每個問題都應附有詳細的解答以驗證準確性。

獎金池:為了吸引高質量的投稿,該團隊還設立了一個獎金池,其中包含 50 萬美元。對于前 50 個問題,每個獎金 5000 美元,接下來的 500 個問題每個獎金 500 美元,具體由組織者決定。正是由于這種這種激勵結構,加上任何被 HLE 接收的問題的作者都有機會成為論文合著者,吸引了有資歷專家的參與,尤其是那些在其領域內擁有高級學位或豐富技術經驗的專家。

收集完成后,該團隊還組織人手對收集到的問題進行了審核,下圖展示了其審核流程:

當前 SOTA 模型在該基準上表現如何?

有了基準,自然得對當前的模型進行一番評估。該團隊評估了 SOTA 模型在 HLE 上的性能表現,并分析了它們在不同問題類型和領域上的能力。

這些模型表現如何呢?如下表所示,整體表現可以總結為一個字:差。

從 GPT-4o 到 DeepSeek-R1,當前最佳的模型的準確度表現都沒能超過 10%。目前官網也已經更新了 o3-mini 的成績,其中 high 版本能達到 13%

OpenAI CEO Sam Altman 還表示 o3-mini-high 如果使用 Deep Research,則其在 HLE 上的準確度更能倍增至 26.6%

該團隊表示:「如此低分的部分原因是設計使然 —— 數據集收集過程試圖過濾掉現有模型可以正確回答的問題。然而,我們在評估時注意到,這些模型的準確度也都不是零。這是由于模型推理中固有的噪聲 —— 模型可能會不一致地猜對正確答案,或者猜中多項選擇題答案的概率低于隨機。」因此,這些模型在該數據集上的真正能力底線仍然是未知的,接近零準確度的微小變化并不能有力地表明進展。

鑒于這些模型在 HLE 上表現不佳,該團隊表示應該在考慮到不確定性的前提下校準模型,而不是自信地提供錯誤答案,畢竟模型存在虛構/幻覺現象。為了測量校準誤差(Calibration Error),該團隊讓模型提供答案的同時還提供置信度(范圍是 0% 到 100%)。經過良好校準的模型聲明的置信度應該與其實際準確度相匹配 —— 例如,在聲稱置信度為 50% 的問題上實現 50% 的準確度。

而表 1 的結果表明所有模型的校準都很差。在 HLE 上,模型經常以高置信度提供錯誤答案,這表明這些模型無法分辨這些問題何時超出其能力范圍。

token 數量:具有推理能力的模型需要更多的推理時間計算。為了在評估中闡明這一點,該團隊分析了各個模型使用的完成 token 的數量。如圖 5 所示,所有推理模型都需要生成比非推理模型多得多的 token 才能提高性能。該團隊指出:「未來的模型不僅應該提升準確度,還應該努力實現計算優化。

討論

該團隊表示,雖然目前的 LLM 在 HLE 上的準確度非常低,但最近的歷史表明,這個基準很快就會飽和 —— 前沿模型的性能可在短時間內從接近零到接近完美。

他們預計,到 2025 年底,模型在 HLE 上的準確度就可能超過 50%。

如果模型能在 HLE 上取得高準確度表現,則說明其在封閉式、可驗證的問題和前沿的科學知識上具備了專家級的表現,但僅靠這個基準,并不能表明模型已經具備自主研究能力或者已經是所謂的「通用人工智能」。HLE 測試的是結構化的學術問題,而不是開放式研究或創造性解決問題的能力,因此這是一個重點關注技術知識和推理的測量指標。

該團隊寫到:「HLE 可能是我們需要對模型進行的最后的學術考試,但它遠非 AI 的最后一個基準。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-03 14:17:27

2025-02-19 08:00:00

2025-03-05 10:21:04

DeepSeekLVLM

2025-07-18 09:33:26

2025-01-24 15:03:27

2025-04-29 09:06:00

2025-03-27 09:34:42

2025-07-10 08:50:00

2025-02-19 08:33:18

2025-03-05 08:40:00

2025-05-29 09:07:37

2025-01-26 08:40:00

AI模型預測

2025-02-06 10:18:45

2025-03-20 10:20:16

2025-01-26 12:08:03

2025-03-10 08:10:00

AI研究安全
點贊
收藏

51CTO技術棧公眾號

日韩午夜激情av| 国产精品久久看| 555www成人网| 亚洲色图27p| 日韩视频一二区| 欧美日韩一区二区在线 | 五月国产精品| 欧美狂野另类xxxxoooo| 日韩亚洲欧美视频| av在线三区| www.色精品| 91精品久久久久久久久久久| 精品国产乱码一区二区| 91欧美大片| 日韩av在线免费观看| 中文字幕第一页在线视频| 久草在线资源福利站| 国产精品高潮呻吟久久| 免费久久99精品国产自| 亚洲经典一区二区三区| 麻豆91在线播放| 91极品视频在线| 精品自拍偷拍视频| 成人国产精品一级毛片视频| 亚洲国产精品va| 亚洲国产欧美91| 亚洲a∨精品一区二区三区导航| 亚洲国产综合色| 日本免费在线视频观看| 国产三级在线看| 99久久精品国产精品久久| 亚洲影院在线看| 亚洲熟妇av乱码在线观看| 亚洲欧美日韩国产| 国内精品一区二区三区四区| 国产67194| 久久亚洲国产| 中文字幕亚洲国产| 97人妻人人揉人人躁人人| 美女精品一区最新中文字幕一区二区三区| 日韩精品一区二区三区在线观看| 亚洲黄色av片| 婷婷成人av| 欧美精品自拍偷拍| 婷婷激情5月天| 国产欧美自拍| 欧美福利一区二区| 8x8x成人免费视频| 国产成人免费av一区二区午夜| 91久久国产最好的精华液| 久久精品99国产| 深夜在线视频| 色综合天天综合狠狠| 男女午夜激情视频| 成人香蕉视频| 在线观看一区二区视频| 亚洲男人天堂色| 色8久久影院午夜场| 在线精品视频一区二区| 欧美大尺度做爰床戏| 日韩大陆av| 91精品国产欧美一区二区| 国产探花在线观看视频| 一区二区精彩视频| 欧美精品一区二区三区久久久 | 下面一进一出好爽视频| 欧美成年网站| 亚洲第一天堂av| 无码熟妇人妻av| 日本不卡免费一区| 久久夜色撩人精品| 伊人365影院| 免费亚洲婷婷| 国产精品一区专区欧美日韩| 国产精品一级二级| 成人av网在线| 神马影院我不卡午夜| 麻豆传媒视频在线观看| 亚洲一区二区三区免费视频| 国产精品50p| 成人在线黄色| 欧美xxx久久| 亚洲午夜久久久久久久久红桃| 成人综合一区| 欧美日韩成人在线观看| 黄色片网站在线免费观看| 卡一卡二国产精品| 国产精品一区二区欧美黑人喷潮水| 婷婷五月综合久久中文字幕| 中文字幕乱码亚洲精品一区 | 色黄网站在线观看| 精品久久在线播放| 污视频网址在线观看| 精品成人自拍视频| 色琪琪综合男人的天堂aⅴ视频| 久久久久亚洲av无码专区 | 色av男人的天堂免费在线| 国产精品美女久久久久av爽李琼| 日韩在线视频在线| 精品欧美日韩精品| 精品久久久久久久久久久久包黑料 | 日韩成人三级视频| 亚洲四虎影院| 亚洲精品www久久久| 天天操夜夜操av| 亚洲一区国产| 97超级碰碰| 成年人视频在线看| 精品日本高清在线播放 | 精品视频一二三区| 成人sese在线| 大桥未久一区二区三区| 欧美va在线观看| 亚洲成人在线视频播放| 91精品国产闺蜜国产在线闺蜜| 丝袜美腿一区二区三区| αv一区二区三区| 日本在线观看免费| 在线视频你懂得一区二区三区| 亚洲成人福利视频| 国产精品黑丝在线播放| 国产精品久久久久久久久久尿| 性中国xxx极品hd| 亚洲欧洲国产日韩| 在线观看免费成人av| 欧美91在线| 欧美精品久久一区二区| 国产乱淫片视频| 国产精品麻豆久久久| 88av.com| 精品一区在线| 国产91精品久| 午夜影院免费体验区| 亚洲不卡av一区二区三区| 在线观看视频在线观看| 亚洲精品va| 成人免费网站在线| 麻豆视频在线观看免费| 欧美精品自拍偷拍| 天天看天天摸天天操| 美女www一区二区| 亚洲国产午夜伦理片大全在线观看网站 | 欧美肥老太太性生活| 国产精品黄页免费高清在线观看| 四虎国产精品永远| 精品高清一区二区三区| 亚洲观看黄色网| 亚洲一区日韩| 青娱乐国产91| 电影在线观看一区二区| 日韩一级黄色av| 国产精品久久久久毛片| 亚洲三级电影网站| 麻豆精品国产传媒| 一区精品久久| 欧美精品一区二区视频| 欧美大电影免费观看| 中文字幕久热精品在线视频| 91国产精品一区| 亚洲精品免费在线观看| 国产高清av片| 黄色成人av网站| 精品国产免费一区二区三区| 中文字幕人成乱码在线观看| 国产一区二区三区久久精品| 91片黄在线观看喷潮| 亚洲精品ww久久久久久p站| av不卡中文字幕| 亚洲综合另类| 亚州欧美一区三区三区在线| 天天爽天天爽天天爽| 亚洲电影一区| 久久久亚洲精品视频| 色婷婷在线视频| 久久中文字幕av| 国产日韩在线看片| 91一区二区三区在线| 亚洲第一网站免费视频| 少妇无套内谢久久久久| 亚洲男人的天堂一区二区| 国产日韩中文在线中文字幕| 日韩成人在线观看| 国产精品男女视频| 日本一区二区三区免费乱视频| 中文字幕成人免费视频| 欧美日韩国产免费观看| 久久av一区二区三区亚洲| 日韩精品免费观看视频| 欧美成人免费在线视频| 神马久久高清| 91精品国产综合久久香蕉的特点| 日本三级理论片| 欧美国产一区二区| 亚洲国产精品第一页| 日日噜噜夜夜狠狠视频欧美人| 国产人妻互换一区二区| 美女毛片一区二区三区四区| 成人亲热视频网站| 蜜臀久久精品| 久久亚洲春色中文字幕| 欧美伦理影视网| 欧美一区二区三区四区五区| 无码视频在线观看| 一区二区三区欧美亚洲| 久久中文字幕精品| 99久久精品久久久久久清纯| 91插插插影院| 久热国产精品| 久久久久免费看黄a片app| 久久精品欧美一区| 日韩高清国产一区在线观看| 给我免费播放日韩视频| 成人av色在线观看| 欧美成人免费电影| 97在线观看视频| 少妇视频在线| www.欧美精品一二三区| 三级无遮挡在线观看| 日韩美女视频在线| 一级做a爱片性色毛片| 色婷婷综合五月| 在线观看免费国产视频| 亚洲综合激情小说| 亚洲综合图片一区| 久久精品免视看| 日韩片在线观看| 成人avav影音| 人妻互换一二三区激情视频| 国产黑丝在线一区二区三区| 中文字幕在线综合| 日本视频在线一区| 99精品视频播放| 国产毛片一区| 六月丁香婷婷激情| 亚洲精品四区| 黑人巨茎大战欧美白妇| 亚洲理论电影网| 免费观看国产视频在线| 羞羞答答成人影院www| 中文精品视频一区二区在线观看| 日韩中文在线电影| 翔田千里亚洲一二三区| 爽成人777777婷婷| 亚洲国产婷婷香蕉久久久久久99| 日韩专区精品| 影音先锋亚洲视频| 午夜精品毛片| 蜜臀在线免费观看| 欧美xxx在线观看| 91免费版看片| 黄色成人在线网站| 免费看又黄又无码的网站| 国产亚洲在线观看| 91免费视频网站在线观看| 国产精品女主播一区二区三区| 精品视频一区二区在线| 日韩高清不卡一区二区三区| 污污网站免费观看| 精品亚洲porn| 99免费观看视频| 99精品久久只有精品| 精品人妻互换一区二区三区| 欧美高清在线精品一区| 一级性生活免费视频| 在线免费av网| 奇米四色…亚洲| 尤物国产在线观看| 国产伦精品一区二区三区视频青涩 | 亚洲黑丝一区二区| 国产一区二区在线视频播放| 欧美激情www| 韩日精品一区| 成人自拍性视频| 一区二区三区国产好| 久久99精品久久久久久水蜜桃| 精品在线播放| 伊人情人网综合| 欧美日韩国产高清| 精品视频一区二区在线| 久久99这里只有精品| 无码人妻精品一区二区三区99不卡| www.欧美.com| 亚洲a∨无码无在线观看| 一区二区在线观看不卡| 久久不卡免费视频| 欧美精三区欧美精三区| 欧日韩在线视频| 中文字幕日韩精品在线观看| 污污影院在线观看| 国产成人精品在线视频| 日韩精品一级| 日韩色妇久久av| 激情欧美一区二区三区| 欧美激情精品久久久久久小说| 精品亚洲国内自在自线福利| 日韩aaaaa| 中文字幕亚洲欧美在线不卡| 久久不卡免费视频| 日韩一级高清毛片| 视频二区在线| 色综合视频一区中文字幕| 亚洲成人av观看| 精品国产综合区久久久久久| 香蕉久久网站| 激情婷婷综合网| av午夜精品一区二区三区| 日本爱爱小视频| 一本一道综合狠狠老| 成人午夜免费在线观看| 中文字幕日韩精品有码视频| 91精品产国品一二三产区| 99精品国产一区二区| 日韩电影在线视频| 国内外成人免费激情视频| 高清不卡在线观看av| 韩国一级黄色录像| 在线观看国产91| 亚洲三级中文字幕| 欧美黑人巨大精品一区二区| 亚洲三级在线| 亚洲精品永久www嫩草| 鲁大师影院一区二区三区| 亚洲精品第二页| 一区二区三区不卡视频 | 91精品国产综合久久久久久久久久| 免费福利在线观看| 97超级碰碰碰久久久| 91精品国产自产在线丝袜啪 | 日韩不卡一二三区| 熟女丰满老熟女熟妇| 亚洲成在人线免费| www.天堂在线| 欧美www在线| 国产成人免费视频网站视频社区| 中文字幕欧美人与畜| 久久国内精品视频| 少妇av片在线观看| 欧美在线不卡一区| 国产福利免费在线观看| 国产成人在线亚洲欧美| 久久av导航| 97公开免费视频| 日本一区二区三级电影在线观看| 91视频在线视频| 在线观看欧美日韩国产| 成人在线免费| 在线丝袜欧美日韩制服| 麻豆91在线播放| 美女福利视频在线观看| 精品日韩一区二区| av中文资源在线资源免费观看| 国产综合av一区二区三区| 亚洲一区二区三区高清| a级在线免费观看| 色综合天天在线| 性开放的欧美大片| 亚洲va男人天堂| 欧美日韩亚洲一区三区| 荫蒂被男人添免费视频| 色悠悠久久综合| 天堂中文а√在线| 91网站免费看| 在线视频观看日韩| 亚洲精品成人无码熟妇在线| 欧美色爱综合网| 综合图区亚洲| 久久波多野结衣| 日韩av电影天堂| 成人免费视频国产免费观看| 亚洲大胆人体av| 亚洲电影有码| www国产无套内射com| 99精品国产99久久久久久白柏 | 国产色播av在线| 欧美日韩在线播放一区二区| 久久精品理论片| 精品无码久久久久久久| 亚洲欧美另类人妖| 97久久中文字幕| 成人在线观看你懂的| 欧美国产精品专区| 亚洲成a人片77777精品| 琪琪亚洲精品午夜在线| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 日本欧美精品久久久| 国产一区不卡精品| 西西44rtwww国产精品| 久久精品国产亚洲精品| 欧美18免费视频| 日日干日日操日日射| 欧美特级www| av在线播放国产| 奇米精品在线| 波多野结衣在线一区| 国产又大又长又粗| 91精品国产高清| 综合激情一区| 男人天堂资源网| 亚洲毛片在线看| 视频精品一区|