精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek-R1、o1都在及格線掙扎!字節開源全新知識推理測評集,覆蓋285個學科

人工智能 新聞
近日,字節跳動豆包大模型團隊聯合 M-A-P 開源社區,推出了全新評測基準 SuperGPQA。

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜變天???

要知道,過去幾年,各種通用評測逐漸同質化,越來越難以評估模型真實能力。GPQA、MMLU-pro、MMLU等流行基準,各家模型出街時人手一份,但局限性也開始暴露,比如覆蓋范圍狹窄(通常不足 50 個學科),不含長尾知識;缺乏足夠挑戰性和區分度,比如 GPT-4o 在 MMLU-Pro 上準確率飆到 92.3%。

不過別慌,大模型通用知識推理評測“強化版”來了,堪稱大模型評測里的“黃岡密卷”!

近日,字節跳動豆包大模型團隊聯合 M-A-P 開源社區,推出了全新評測基準 SuperGPQA

我們翻看論文,細品一番,足足 256 頁。據了解,該評測搭建工作耗時半年,近百位學界學者及名校碩博、業界工程師參與標注。

研究團隊構建了迄今為止最全面,覆蓋 285 個研究生級學科、包含 26529 道專業題目的評估體系。

實驗證明,即便最強的 DeepSeek-R1 在 SuperGPQA 上準確率也才 61.82%,在及格線上掙扎,顯著低于其在傳統評估指標上的表現。

SuperGPQA 精準直擊大模型評測的三大痛點:

  • 學科覆蓋不全:傳統基準僅覆蓋 5% 長尾學科,圖書館學、植物學、歷史地理學等眾多學科長期缺席
  • 題目質量存疑:公開題庫存在數據污染風險,簡單改編無法反映真實學術水平
  • 評測維度單一:多數測試停留在知識記憶層面,缺乏高階推理能力評估

除此之外,SuperGPQA 也公開了嚴格的數據構建過程。整個體系依靠大規模人機協作系統,結合專家標注、眾包注釋和大模型協同驗證三重流程,確保入選題目具有足夠高的質量和區分度。

目前, SuperGPQA 已在 HuggingFace 和 GitHub 開源,直接沖上了 Trending 榜單。

首次 「全學科覆蓋」,填補行業空白

研究人員透露,現在大語言模型評估體系主要有兩大“困境”:學科覆蓋嚴重失衡、評測基準挑戰性失效。

以 MMLU 和 GPQA 為代表的傳統基準,盡管在數學、物理等主流學科中建立了標準化測試框架,但其覆蓋的學科數量通常不足 50 個,無法涵蓋人類積累的多樣化和長尾知識。

而且,GPT-4o 和 DeepSeek-R1 在傳統基準上準確率都破 90% 了,導致評測體系失去區分度,無法有效衡量模型在真實復雜場景中的推理上限。

根源就在于傳統基準構建范式太單一,數據來源、質量篩選都相對粗糙。傳統基準僅依賴教科書例題或在線題庫,例如 GPQA 中 42% 的問題來自維基百科,導致題目缺乏專業深度,且易被模型通過記憶機制“破解”。

數據顯示,GPT-4o 對在線練習網站答案的重復率高達 67.3%,暗示其性能提升可能源于題目數據泄露而非真實推理能力。

此外,眾包標注的專業水平參差和主觀性問題難度評估進一步加劇了基準的不可靠性——早期嘗試中,僅 37% 的眾包標注問題通過專家審核,導致超過 60% 的標注資源浪費。

為解決上述困境,豆包大模型團隊聯合 M-A-P 開源社區推出 SuperGPQA,旨在深度挖掘 LLMs 潛力,其特點如下:

  • 全面且具區分性:STEM(科學、工程、醫學)領域問題占比 77.2%,確保在復雜推理任務中的高效評估。盡管非 STEM 學科(如哲學、文學、歷史)問題較少,但仍能有效區分不同 LLMs 的性能。
  • 難度分布多樣:各學科問題難度均衡分布;在工程和科學領域,難題比例較高。42.33% 的問題需要數學計算或嚴謹推理,確保模型在高難度任務中的表現。
  • 語義結構豐富:t-SNE 可視化顯示跨學科聚類模式,工程和科學類問題語義相似,人文學科知識中心獨特,不同領域語言特色鮮明。
  • 題目設計一致:平均問題長度 58.42 字,選項長度統一,迷惑性和挑戰性拉滿,評測公平又可靠。

作為基準測試,SuperGPQA 非常全面,覆蓋 13 個門類、72 個一級學科和 285 個二級學科,共 26,529 個問題,把現有 GPQA(448 題)和 MMLU-Pro(12,032 題)遠遠甩在身后。同時,每題平均 9.67 個選項,也比傳統 4 選項格式挑戰性高得多。

人機協作三步質檢,杜絕“刷題黨”

SuperGPQA 核心架構分三步:來源篩選、轉錄、質量檢測。

團隊設計時,深知眾包注釋方法在高復雜度題目上的不足,因此引入了專家注釋員,確保題目來源靠譜、難度合適。再結合最先進的 LLMs 輔助質量檢測,效率拉滿,也通過多模型協作降低了題目數據泄漏的風險。

此外,團隊還強調嚴格流程管理和持續質量反饋,保證每階段輸出都達標。靠著系統化、專業化流程,SuperGPQA 題庫質量飆升,后期修正成本和時間大幅減少。

來源篩選

為保證題目高質量,團隊直接拋棄眾包注釋員收集資源的老路,轉而讓專家注釋員從可信來源(教科書、權威練習網站)篩選、收集原始問題。

這招一出,避免了早期大量無效問題的產生,并通過要求提供來源截圖,大幅提升了質量檢測的效率和準確性。

轉錄

轉錄階段,專家注釋員對收集的原始問題進行語言規范化、格式轉換,確保所有問題都有統一學術語言和標準多項選擇題格式。

團隊發現,即使是最先進的語言模型(LLMs)在生成干擾項時也存在漏洞,因此需要專家統一重寫,以提高干擾項的準確性和有效性,確保題目的挑戰性和區分度。

質量檢測

質量檢測階段采用多層次的檢測機制,包括 :
1)基于規則的初步過濾:識別并過濾格式明顯不合規范的題目。
2)基于 LLM 的質量檢測:多個先進 LLMs(如 GPT-4、Gemini-flash 等)齊上陣,有效性、負面和極端詢問檢測、多模態排除、領域相關性評估、區分度標記都不在話下。
3)專家復審:專家注釋員對可疑題目進行二次審核,確保題庫的高可靠性和高區分度。

推理模型霸榜,但表現仍低于人類水平

LLMs 在不同劃分層級上的表現
△LLMs 在不同劃分層級上的表現
△LLMs 在不同學科上的表現

SuperGPQA 還做了全面的實驗,來測試業界主流 LLM 的能力表現。評估涵蓋 6 個推理模型、28 個聊天模型、17 個基礎模型,閉源、開源、完全開源模型全覆蓋。

團隊發現,在涵蓋 51 個模型的橫向評測中,DeepSeek-R1 以 61.82% 準確率登頂,但其表現仍顯著低于人類研究生水平(平均 85%+)

我們從論文中還扒到三大值得關注的結論:

1、推理能力決定上限

  • 推理模型(DeepSeek-R1、O1-2024-12-17)包攬前 3,領先聊天模型超 10 個百分點
  • DeepSeek-V3 和 Qwen2.5-72B-Instruct 的得分(47.40 和 40.75)遠超其基礎版本(32.14 和 34.33),說明指令微調顯著提升性能

2、國內模型突圍

  • 豆包大模型(Doubao-1.5-pro)以 55.09% 準確率位列聊天模型第一,超越 GPT-4o-2024-11-20(44.40%)
  • Qwen 系列展現強泛化能力:Qwen2.5-72B 在基礎模型中排名第 4,超越 Llama-3.1-405B

3、學科表現失衡 * STEM 領域優勢顯著:在「理論流體力學」「運籌學和控制論」等子領域,Top 模型準確率超 75%

  • 人文社科仍是短板:在「舞蹈研究」「設計藝術」等領域,最優模型準確率不足 50%

One More Thing

一直以來,評估數據集對提升大模型的效果上限至關重要,甚至有可能是“最關鍵的部分”。

但評測數據集的搭建耗費大量人力,很大程度依靠開源貢獻。早在去年,字節就在開源評測數據集上有所行動,覆蓋超 11 類真實場景、16 種編程語言的代碼大模型評估基準 Fullstack Bench 受到開發者好評。

此番字節再次亮出耗時半年打造的SuperGPQA,進一步打破外部關于“字節對基礎工作投入不足”的印象。另一方面,也側面暴露字節內部對模型能力的極高目標。

結合近期我們關注到的 DeepMind 大牛吳永輝加入,全員會定下“追求智能上限”的目標。

2025 年,豆包模型究竟能沖到什么水平?不妨讓子彈再飛一會。

論文鏈接: https://arxiv.org/pdf/2502.14739

數據鏈接: https://huggingface.co/datasets/m-a-p/SuperGPQA

代碼鏈接: https://github.com/SuperGPQA/SuperGPQA

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-03 14:17:27

2024-11-21 14:00:00

模型AI

2025-04-29 09:06:00

2025-02-19 08:00:00

2025-03-06 17:29:21

2025-03-05 10:21:04

DeepSeekLVLM

2025-01-24 15:03:27

2025-02-08 11:44:03

2025-03-10 08:10:00

AI研究安全

2024-09-24 11:01:03

2025-02-08 14:03:25

2025-05-06 09:09:37

2025-02-08 09:44:11

DeepSeekAI模型

2025-03-05 03:00:00

DeepSeek大模型調優

2025-04-22 09:12:00

AI模型數據

2025-02-18 08:15:03

2024-11-07 15:40:00

2025-04-11 14:54:44

2025-02-13 08:51:23

DeepSeek大模型
點贊
收藏

51CTO技術棧公眾號

黑人精品一区二区| www.四虎在线| 第一福利在线| 青青草97国产精品免费观看无弹窗版| 亚洲欧美另类人妖| 波多野结衣50连登视频| 黄色免费在线播放| 久久av老司机精品网站导航| 久久亚洲精品一区| 911亚洲精选| 羞羞网站在线免费观看| 国产精品自在在线| 97精品一区二区视频在线观看| 丰满少妇一区二区三区| 电影在线观看一区| 国产清纯在线一区二区www| 国产精选久久久久久| 免费毛片一区二区三区| 国产亚洲电影| 欧美成人一级视频| www在线观看免费| 国产特黄在线| 国产福利一区二区三区在线视频| 91精品国产一区| 国产一区二区三区视频播放| av日韩精品| 欧美日韩在线电影| 久久国产精品网| 91青青在线视频| av资源网一区| 亚洲free性xxxx护士hd| 九一国产在线观看| 国产精品伦理久久久久久| 精品sm捆绑视频| 最新天堂中文在线| 国模精品视频| 亚洲欧美日韩人成在线播放| 欧美在线视频二区| 成人午夜视频一区二区播放| 日韩av高清在线观看| 久久全国免费视频| 中国美女黄色一级片| 日本久久成人网| 日韩免费性生活视频播放| 欧美一级特黄a| 老色鬼在线视频| 亚洲午夜激情av| 尤物国产精品| 风间由美一区| 久久综合色之久久综合| 国产经典一区二区三区| 一级淫片免费看| 日本欧美一区二区三区乱码| 97在线观看免费高清| 青青青在线视频| 91精品国产调教在线观看| 亚洲国产小视频| 黄色av电影网站| 成人国产精品久久| 欧美日韩成人在线| 波多野结衣天堂| 浪潮色综合久久天堂| 亚洲最大的成人av| 一本大道东京热无码aⅴ| 日韩专区在线| 成人免费小视频| 伊人av成人| 欧美性猛交xxx乱大交3蜜桃| 国产视频在线观看一区二区三区| 肥熟一91porny丨九色丨| 国产又大又黄的视频| 久久精品国产99国产| 国产精品一香蕉国产线看观看 | 男的操女的网站| 日韩国产综合| 久久激情视频免费观看| 色偷偷男人天堂| 国产精品黑丝在线播放| 日韩在线一区二区三区免费视频| 日韩av片在线| 久久中文字幕二区| 久久精品久久久久电影| 疯狂撞击丝袜人妻| 亚洲五月婷婷| 欧洲日韩成人av| 樱花视频在线免费观看| 秋霞成人午夜伦在线观看| 国产精品2018| 国产农村妇女毛片精品久久| 国产一区二区中文字幕| 成人动漫在线观看视频| 囯产精品久久久久久| 97久久超碰精品国产| 日本不卡一区二区三区视频| 岛国大片在线观看| 中文字幕中文字幕中文字幕亚洲无线| 日韩av一级大片| 麻豆传媒视频在线| 一区二区三区在线视频观看58| 国产精彩视频一区二区| 天堂av在线| 欧美日韩免费观看一区三区| 日本r级电影在线观看| 哺乳挤奶一区二区三区免费看| 日韩精品高清在线| 九九热久久免费视频| 伊人久久大香线蕉综合四虎小说| 欧美精品福利视频| 在线观看中文字幕视频| 卡一卡二国产精品| 国产精品日韩一区二区免费视频 | 日韩精品中文在线观看| 久久精品国产亚洲AV熟女| 99久久精品网| 午夜精品久久久久久久久久久久久 | 国产一级片91| 亚洲黄色网址| 欧美视频日韩视频| 亚洲天堂2024| 国产一区二区三区四区五区传媒| 两个人的视频www国产精品| 中文字幕第15页| 国产成人在线视频播放| 日本精品一区二区三区不卡无字幕| 亚洲男同gay网站| 色婷婷综合中文久久一本| 天天爽夜夜爽视频| 欧美日韩国产传媒| 亚洲18私人小影院| 夜夜爽8888| 久久午夜免费电影| 400部精品国偷自产在线观看 | 久9re热视频这里只有精品| 在线播放日韩av| 黄色一级片免费看| 国产一区999| 神马影院午夜我不卡影院| 成人三级小说| 日韩一区二区三区免费看 | 欧美xnxx| 亚洲天堂男人的天堂| 国产精品一区无码| 91丝袜美腿高跟国产极品老师 | 国产91av视频在线观看| 91精品国产经典在线观看| 亚洲欧美色婷婷| 欧美一区二区三区网站| 91色.com| 欧美日韩亚洲一二三| 极品美女一区二区三区| 国产精品久久久久999| 成年人免费在线视频| 91电影在线观看| 美国精品一区二区| 久久爱www久久做| gogogo免费高清日本写真| 久久视频社区| 高清欧美电影在线| 亚洲色欧美另类| 一道本成人在线| 91激情视频在线观看| 美国欧美日韩国产在线播放| 亚洲制服中文| 日韩精品视频一区二区三区| 欧美精品电影免费在线观看| 深夜福利免费在线观看| 色狠狠桃花综合| 国产免费一区二区三区四区| 国产成人午夜精品5599| 福利视频一区二区三区四区| 亚洲8888| 成人黄色av网站| 国模私拍视频在线播放| 日韩精品视频在线观看网址| 国产又粗又猛又爽又| 中文字幕视频一区二区三区久| 在线成人免费av| 嫩草成人www欧美| 亚洲国产另类久久久精品极度| 国产999精品在线观看| 欧美激情亚洲自拍| 黄色av网站在线| 日韩一区二区三区观看| 亚洲黄色小说图片| 亚洲欧美在线高清| chinese麻豆新拍video| 日韩专区欧美专区| 高清无码一区二区在线观看吞精| 婷婷成人在线| 亚洲精品免费av| 毛片电影在线| 日韩中文综合网| 亚洲 国产 欧美 日韩| 欧美日韩一级黄| 五月天婷婷丁香| 国产精品麻豆视频| 欧类av怡春院| 国产在线播放一区二区三区| 免费毛片小视频| 综合久久综合| 视频一区视频二区视频三区视频四区国产 | 少妇愉情理伦片bd| 性久久久久久| 黄色一级片国产| 精品欧美激情在线观看| 国产乱码一区| 国产免费av国片精品草莓男男| 4438全国成人免费| 污视频网站在线免费| 中文字幕精品网| 免费黄色在线视频网站| 欧美成人免费网站| 一区二区日韩在线观看| 一本到不卡精品视频在线观看| 久久久久久久久久久久久久免费看 | 欧美日本乱大交xxxxx| 日韩 欧美 精品| 一区二区在线观看视频| 中文字幕在线观看二区| 国产亚洲制服色| 久久精品国产亚洲av麻豆| 成人免费毛片片v| 亚洲一二三不卡| 久久99最新地址| 黑人粗进入欧美aaaaa| 亚洲欧美清纯在线制服| av免费观看大全| 综合精品一区| 亚洲免费视频播放| 97精品国产| 亚洲精品9999| 成人午夜av| 亚洲乱码国产乱码精品天美传媒| 日韩电影在线观看完整免费观看| 国产精选在线观看91| 日韩视频一二区| 91超碰在线电影| 亚洲国产精选| 91中文精品字幕在线视频| 色综合视频一区二区三区日韩 | 亚洲精品国产精品国自产网站按摩| 五月激情六月综合| 日本三级免费看| 亚洲一区二区三区四区在线| 九九热这里有精品视频| 亚洲最色的网站| 国产无码精品在线播放| 亚洲国产视频在线| 日本一级黄色录像| 精品久久久久久中文字幕一区奶水| 圆产精品久久久久久久久久久| 午夜成人免费视频| 亚洲天堂一区在线| 91久久精品日日躁夜夜躁欧美| 久久久精品视频网站| 在线观看免费成人| 中文字幕在线观看高清| 678五月天丁香亚洲综合网| 国产精品污视频| 日韩欧美一区二区三区在线| 黑人乱码一区二区三区av| 亚洲国产欧美自拍| 男女视频在线观看| 中文字幕久久亚洲| 影音先锋中文在线视频| 国产做受69高潮| 国产精品伦理| 国产日韩欧美在线观看| 亚洲综合网狠久久| 蜜桃导航-精品导航| 欧美日韩一二三四| 久久视频免费在线| 国产精品婷婷| 在线观看av网页| 丰满岳乱妇一区二区三区| 成年人的黄色片| 国产精品妹子av| 欧美日韩中文视频| 欧美亚洲动漫精品| 精品国产伦一区二区三| 亚洲精品之草原avav久久| aⅴ在线视频男人的天堂| 色综合久久天天综线观看| 日本在线影院| 91精品久久久久久久久久另类 | 韩国精品一区二区| www.17c.com喷水少妇| 中文子幕无线码一区tr| 国产一级一级片| 欧洲精品一区二区三区在线观看| www.天堂在线| 国产一区二区三区视频| 美女精品导航| 国产欧美一区二区三区视频| 久久久精品国产**网站| 亚洲精品久久区二区三区蜜桃臀| 国语自产精品视频在线看8查询8| 黑人粗进入欧美aaaaa| 波多野结衣在线aⅴ中文字幕不卡| 一二三四国产精品| 午夜欧美视频在线观看| 96日本xxxxxⅹxxx17| 精品偷拍一区二区三区在线看| 91麻豆免费在线视频| 国产精品都在这里| 国产一区丝袜| 老司机午夜网站| 日韩精彩视频在线观看| 丝袜熟女一区二区三区 | 喜爱夜蒲2在线| 六月丁香婷婷久久| 亚洲av无码国产精品麻豆天美 | 波多野结衣影片| 亚洲第一黄色网| 尤物在线网址| 国产精品亚洲第一区| 蜜桃一区二区| 欧美三级在线观看视频| 成人午夜免费电影| 国产盗摄x88av| 欧美美女网站色| 91porn在线观看| 欧洲精品在线视频| 欧美一区二区三区久久| 91免费黄视频| 成人毛片老司机大片| 免费又黄又爽又色的视频| 91精品国产一区二区三区蜜臀| 在线看免费av| 国产在线观看精品一区二区三区| 精品理论电影在线| 538在线视频观看| 国产亚洲成年网址在线观看| aaa人片在线| 亚洲精品mp4| 性爱视频在线播放| 91情侣在线视频| 欧美日韩国产欧| 无人码人妻一区二区三区免费| 国产精品第五页| 国产精品久久777777换脸| 久久久999国产精品| 精品国产乱码久久久久久樱花| 中文字幕在线亚洲三区| 国产一区二区网址| caoporn91| 精品国产乱码91久久久久久网站| 免费在线看污片| 国产原创精品| 欧美专区18| 亚洲ⅴ国产v天堂a无码二区| 欧美三区在线观看| 黄色动漫在线| 666精品在线| 亚洲人人精品| 中文字幕av网址| 欧美亚洲国产一卡| 黄色网页在线播放| 高清av免费一区中文字幕| 99成人在线| 蜜桃传媒一区二区亚洲| 欧美精品国产精品| 最新av在线播放| 国产乱码精品一区二区三区中文 | 一区二区欧美精品| 免费av网站在线播放| 欧美亚洲第一页| 成人嘿咻视频免费看| 一级黄色高清视频| 欧美日韩国产精品一区二区三区四区 | 成人免费网站www网站高清| 亚洲欧美日韩精品久久久| 国产精品资源网站| 国产精品黄色大片| 中文国产亚洲喷潮| 日韩欧美中文字幕在线视频| 中文字幕无码精品亚洲35| 欧美国产成人在线| www.好吊色| 人人爽久久涩噜噜噜网站| 日韩欧美国产精品综合嫩v| 岛国大片在线免费观看| 欧美性高潮在线| 日韩av中文| 国产在线视频欧美一区二区三区| 欧美aⅴ一区二区三区视频| 久久久久黄色片| 中文字幕国产亚洲2019| 大型av综合网站| 天堂在线资源视频| 亚洲成人动漫av| 欧美成人高清在线| 久久精品二区| 粉嫩aⅴ一区二区三区四区五区| 欧美日韩综合一区二区三区| 欧美高清不卡在线| 成人一区而且| 久久偷拍免费视频| 日韩欧美国产综合在线一区二区三区 | 久久激情电影|