精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌發布BIG-Bench超難基準:DeepSeek-R1得分6.8,只有o3-mini超過10分

人工智能 新聞
近日,谷歌也發布了一個高難度基準:BIG-Bench Extra Hard,簡稱 BBEH。從名字也能看出來,這個基準非常難(Extra Hard)并且與久負盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)關系密切。

隨著 AI 能力的提升,一個常見的話題便是基準不夠用了——一個新出現的基準用不了多久時間就會飽和,比如 Replit CEO Amjad Masad 就預計 2023 年 10 月提出的編程基準 SWE-bench 將在 2027 年飽和。

也因此,為了更加準確地評估 AI 模型的能力,不斷有研究團隊構建出新的數據集和基準,比如我們前段時間報道過的 ZeroBench 和 HLE(人類的最后考試),它們都帶有大量當前的 AI 模型難以解決的難題。

近日,谷歌也發布了一個高難度基準:BIG-Bench Extra Hard,簡稱 BBEH。從名字也能看出來,這個基準非常難(Extra Hard)并且與久負盛名的 BIG-Bench 和 BIG-Bench Hard(BBH)關系密切。

  • 論文標題:BIG-Bench Extra Hard
  • 論文地址:https://arxiv.org/pdf/2502.19187
  • 數據地址:https://github.com/google-deepmind/bbeh

正如其論文一作  Mehran Kazemi 指出的那樣,相比于 BIG-Bench Hard,BBEH 中每個任務都更加困難,給當前所有模型都創造了進步空間。

另一位作者、DeepMind 著名研究科學家 Yi Tay 也建議 AI 研究者在自己的下一篇論文中使用該基準。

那么,BBEH 究竟有多難呢?當前能力最強的 o3-mini (high) 得分也僅有 44.8 分,不及格。而其它被測模型的得分均不超過 10 分!DeepSeek-R1 僅有 6.8,谷歌自家的 Gemini-2.0-Flash 也只有 9.8。遺憾的是,該團隊并沒有給出近期發布的 Grok-3 與 Claude 3.7 Sonnet 的表現。

該團隊在論文中解釋了構建 BBEH 基準的動機,其中指出目前對推理模型的評估大都依賴數學、科學和編程基準,而涉及到更多方面的 BIG-Bench 及其更難的子集 BIG-Bench Hard(BBH)基準則正趨向飽和 —— 當前領先的模型在 BBH 上的準確度都已經超過 90%。因此,BBH 已經無力評估前沿模型的推理能力。

BBEH 便應運而生,其設計目標是「評估高階推理能力」。

BIG-Bench Extra Hard

BBEH 是基于 BBH 構建的——將 BBH 中的 23 個任務中的每一個都替換成了另一個在類似推理領域中并測試類似(或更多)技能的任務,當然,新任務的難度要大得多。這種替換方法可以確保新數據集保留了原始 BBH 數據集的高度多樣性。

表 1 給出了 BBEH 中新任務的高層級描述,包括它們是如何構建的以及它們替換了 BBH 中的哪個任務,以及它們針對哪些推理技能。

該基準中,每個任務包含 200 個問題,但 Disambiguation QA 任務例外,有 120 個問題。

下圖展示了一些具體任務示例:

該論文的詳細創建過程以及對 BBEH 數據集的分析請參閱原論文,下面我們重點來看看前沿模型在該基準上的表現以及相關分析結果。

模型表現及分析

首先來看各家前沿模型的表現如何,下表是準確度分數詳情。

根據此結果,該團隊得出了幾個有趣的觀察:

  • 模型在各個任務上都有很大的進步空間,在 BBEH 整體上也是如此。
  • 通用模型的最佳性能為 9.8% 的調和平均準確率。推理專用模型在該基準上的表現優于通用模型(符合預期),但這些模型在 BBEH 上的最佳性能仍只有 44.8%。
  • 盡管采用了對抗性結構,但參考 Thinking 模型在 BBEH 上的調和平均準確率仍只有 20.2%。
  • 一些模型的準確率甚至低于隨機性能。經檢查,他們發現原因大多是模型無法在有效輸出 token 長度內解決問題并在某個點之后開始退化,因此無法從其解答中提取出最終答案。

另外,還能看到不同模型擅長不同類型的推理。例如,DeepSeek R1 在 BoardgameQA 上的表現明顯優于其他模型,o3-mini (high) 在 Temporal Sequences 和 Object Properties 上的表現明顯優于其他模型,GPT4o 在 NYCC 上的表現明顯優于其他模型,GPT4o 和 Gemini 2.0 Flash 在 SARC Triples 上的表現明顯優于其他模型。

該團隊還進行了進一步的結果分析。

通用模型與推理模型

推理模型可以利用更多測試時間計算進行思考,因此在涉及數學和編碼的推理任務上實現了巨大的性能飛躍。例如,在 AIME2024 數據集上,GPT4o 的性能為 13.4%,但 o1 模型將其提高到 83.3%,o3-mini (high) 將其進一步提高到 87.3%。

在這里,該團隊檢查了不同類型的一般推理是否也是如此。

如圖 5 所示,該團隊分別將 o3-mini (high) 和 GPT4o 作為推理和一般模型的模范,在 BBEH 的每個任務上進行了比較,并根據 o3-mini (high) 相對于 GPT4o 的增益程度對任務進行升序排序。

可以觀察到,增益最大的任務是那些涉及計數、規劃、算術以及數據結構和算法的任務。而增益最少(有時為負值)的任務大多涉及常識、幽默、諷刺和因果關系。

結果表明,推理模型在解決形式化問題時會取得最顯著的收益,而在處理復雜的現實場景時(通常需要軟推理技能)則收益有限。

模型大小的影響

該團隊還探討了模型大小對模型性能的影響。

如圖 6 所示,他們在 BBEH 的不同任務上比較了 Gemini 2.0 Flash 和 Gemini 2.0 Flash-Lite,并根據 Flash 相對于 Flash-Lite 的收益按升序方式對任務進行排序。

雖然信號不如將一般模型與推理模型進行比較時那么清晰,但仍然可以觀察到與幽默、常識和因果推理相關的任務收益最少,而需要多跳推理或應用算法的任務收益最大。

一個特殊的例外是 SARC Triples 任務,這是一個諷刺理解任務,并且收益很大。這可能部分是由于 SARC Triples 中的每個樣本都是三個子問題的組合,而較大的模型可能更擅長處理這種復合問題。

上下文長度和所需思考的影響

BBEH 中的任務具有不同的平均上下文長度,并且可能需要不同的思考量。基于此,可以了解上下文長度和所需思考對推理與一般模型以及較大模型與較小模型的影響。

圖 7 比較了 o3-mini (high) 與 GPT4o 以及 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite 的性能,這里使用了任務平均上下文長度和平均輸出長度作為所需思考的代理。

可以觀察到,無論是在上下文長度增加時,還是在所需思考增加時,o3-mini 的收益都比 GPT4o 更高;這表明與一般模型相比,推理模型在兩個方向上都可能有所改進。對于 Gemini 2.0 Flash 與 Gemini 2.0 Flash-Lite,可以看到當上下文長度增加時,收益也有類似的增長,但思考增加時,曲線基本保持平坦。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-18 09:00:00

2025-02-14 10:47:40

2025-02-17 08:12:00

AI模型生成

2025-02-08 11:44:03

2025-01-24 15:03:27

2022-06-13 10:43:11

谷歌模型學者

2025-02-03 14:06:32

2025-03-13 06:34:49

2025-02-03 12:38:28

2024-12-24 16:15:04

2025-03-31 08:00:00

AI模型測評

2025-02-19 08:00:00

2024-01-15 14:44:19

語言模型PaLMAI

2025-02-10 00:00:01

2025-08-18 17:16:45

AIChatGPT模型

2025-01-20 19:52:50

2025-02-24 14:05:00

LLM模型AI

2025-02-03 14:17:27

2025-04-22 09:12:00

AI模型數據
點贊
收藏

51CTO技術棧公眾號

亚洲成人精品| 99在线视频影院| 久久99精品国产麻豆不卡| 最近中文字幕2019免费| 久久久久久国产精品日本| 国产免费拔擦拔擦8x高清在线人 | 久久亚洲AV无码专区成人国产| 看片一区二区| 亚州成人在线电影| 亚洲欧洲另类精品久久综合| 好男人www在线视频| 免费成人av在线| 欧美精品videosex极品1| 中国美女乱淫免费看视频| 日本a人精品| 精品福利免费观看| 黄瓜视频免费观看在线观看www| 蜜臀av午夜精品| 老司机免费视频一区二区三区| 欧美激情影音先锋| 在线观看天堂av| 国产美女撒尿一区二区| 6080国产精品一区二区| 亚洲人成色77777| 超碰在线无需免费| 国产性色一区二区| 国产女主播一区二区三区| 这里只有精品999| 亚洲专区一区| 久久久久久久999精品视频| 国产亚洲精品精品精品| 天天躁日日躁狠狠躁欧美| 欧美一区在线视频| 欧美日韩亚洲自拍| 欧美日韩美女| 精品国产精品自拍| 青草视频在线观看视频| а√天堂官网中文在线| 国产精品另类一区| 欧美一区二区三区四区夜夜大片 | 国内自拍在线观看| 搞黄网站在线看| 亚洲美女视频在线观看| 伊人久久大香线蕉精品| 国产一二三在线观看| 91网站在线观看视频| 国产精品成人观看视频免费| 91麻豆成人精品国产| 蜜桃免费网站一区二区三区| 日韩美女激情视频| 亚洲伊人成人网| 亚洲免费播放| 欧美中文字幕在线播放| 好吊妞视频一区二区三区| 伊人久久久大香线蕉综合直播 | 欧美激情20| 亚洲mv在线观看| 青青青在线视频播放| 女囚岛在线观看| 亚洲国产综合91精品麻豆| 国产精品视频网站在线观看 | 日韩欧美午夜| 最近2019中文免费高清视频观看www99| 88久久精品无码一区二区毛片| 亚洲美女15p| 亚洲人永久免费| 美国黄色特级片| 日韩欧美自拍| 麻豆乱码国产一区二区三区| 欧美日韩三级在线观看| 欧美三级第一页| 久久乐国产精品| 手机在线看片1024| 奇米色777欧美一区二区| 国产精品亚洲欧美导航| 国产毛片久久久久| 国产成人在线视频免费播放| 国产区二精品视| 黄色在线播放| 最新国产成人在线观看| 国产视频在线观看网站| 免费在线小视频| 一道本成人在线| 中文字幕成人免费视频| 亚洲精品aⅴ| 精品一区二区亚洲| 亚洲精品视频网址| 欧美久久一区| 国产成人综合精品| 国产高清免费观看| 99久精品国产| 伊人久久大香线蕉综合75| 青青草原国产在线| 91久久精品一区二区三| 亚洲理论中文字幕| 日韩啪啪网站| 久久综合免费视频| 五月婷婷亚洲综合| 国产一区在线视频| 久久久久久久久久久久久久一区| 春暖花开成人亚洲区| 一区二区三区小说| 成年人在线看片| 香蕉大人久久国产成人av| 亚洲毛片在线免费观看| www欧美com| 男人的天堂亚洲| 亚洲一区中文字幕在线观看| 色在线免费视频| 亚洲另类中文字| 欧美精品aaaa| 国产三级精品三级在线观看国产| 中文字幕日韩在线观看| 日本一级黄色录像| 久久精品久久久精品美女| 精品午夜一区二区| 99福利在线| 欧美日韩视频专区在线播放| 中文字幕一区二区人妻电影丶| 婷婷久久综合| 91成人福利在线| 99热这里只有精品66| 欧美激情资源网| 青青视频在线播放| 精品欧美午夜寂寞影院| 久久久成人精品视频| 日本熟妇一区二区三区| 99精品欧美一区二区三区综合在线| 在线不卡日本| 欧美色片在线观看| 亚洲久久久久久久久久久| 免费麻豆国产一区二区三区四区| 麻豆国产精品官网| 欧美一区二区三区四区夜夜大片| caoporn视频在线| 日韩欧美一区中文| 麻豆天美蜜桃91| 另类调教123区 | yiren22综合网成人| 性久久久久久久久久久久 | 久久一留热品黄| 2018国产在线| 亚洲电影一区| 大胆欧美人体视频| 99久久精品日本一区二区免费 | www欧美com| 国内精品久久久久影院一蜜桃| 亚洲精品在线视频观看| 日本欧美一区| 一区二区三区视频观看| 无码日韩精品一区二区| 2020日本不卡一区二区视频| 国产精品自拍片| 久久精品色播| 97视频com| 深夜福利视频一区| 欧美午夜影院在线视频| 在线 丝袜 欧美 日韩 制服| 国产一区导航| 日韩在线国产| 精品九九久久| 久久亚洲影音av资源网| va婷婷在线免费观看| 亚洲一区二区三区四区的| 国产伦理在线观看| 99精品热视频只有精品10| 久久综合九色欧美狠狠| 高清电影一区| 色狠狠久久aa北条麻妃| 国产黄色美女视频| 亚洲综合色网站| 7788色淫网站小说| 久久一本综合频道| 在线国产伦理一区| 亚洲专区**| 欧美一二三视频| av在线电影免费观看| 欧美片在线播放| 久久久久无码国产精品不卡| 97精品国产露脸对白| 欧美伦理视频在线观看| 天天射综合网视频| 国产伦理一区二区三区| 欧美极品免费| 色综合91久久精品中文字幕| 日本一区二区三区在线观看视频| 欧美日韩一区在线| 久久久精品国产sm调教| 91麻豆精品一区二区三区| www.色欧美| 亚洲麻豆一区| 亚洲免费不卡| 久久精品国产亚洲blacked| 国产精选久久久久久| av在线理伦电影| 中日韩美女免费视频网站在线观看| 99热这里只有精品3| 91福利在线播放| 九九在线观看视频| 欧美激情一区二区三区在线| 亚洲少妇一区二区三区| 久久激情综合网| 能在线观看的av| 欧美一区二区| 色一情一区二区三区四区| 亚洲不卡在线| 国产精品专区第二| 一区二区乱码| 欧美精品久久久久久久久| 91成人高清| 日韩av综合中文字幕| 国产精品熟女久久久久久| 日韩欧美精品中文字幕| 久久成人国产精品入口| 亚洲国产精品精华液ab| 亚洲综合自拍网| 国产精品1024| 日本国产一级片| 首页欧美精品中文字幕| 日韩中字在线观看| 欧美在线资源| 91九色国产ts另类人妖| 日韩欧美1区| 神马欧美一区二区| 无码日韩精品一区二区免费| 91av免费看| 国产精品xnxxcom| 国产精品普通话| 欧美大片1688| 欧美一级视频在线观看| 123区在线| 欧美激情一级欧美精品| 91小视频xxxx网站在线| 久久精品国产一区| 色欧美激情视频在线| 伊人伊人伊人久久| 国产经典自拍视频在线观看| 精品偷拍各种wc美女嘘嘘| 欧美一级在线免费观看| 亚洲国产福利在线| 人妻中文字幕一区| 欧美精品一区二区久久久| 亚洲AV无码精品自拍| 日韩精品中午字幕| 国产片在线播放| 欧美一卡二卡三卡| 国产绳艺sm调教室论坛| 91麻豆精品久久久久蜜臀| 亚洲天堂男人网| 欧美体内she精视频| 欧美黄色一级大片| 91国产丝袜在线播放| 久操视频在线免费观看| 欧美在线观看视频一区二区三区| 亚洲av无码不卡| 欧美日韩国产bt| 国产在成人精品线拍偷自揄拍| 欧美日韩一区二区三区在线看| 最近日韩免费视频| 在线91免费看| 国产av无码专区亚洲av麻豆| 欧美一区二区三区视频在线观看| 国产男女裸体做爰爽爽| 欧美一级高清片在线观看| 亚洲黄色在线观看视频| 欧美va亚洲va在线观看蝴蝶网| 亚洲女人18毛片水真多| 亚洲精品一区二区三区香蕉 | 国产麻豆精品| 成人欧美视频在线| 亚洲永久精品唐人导航网址| 日韩中文一区二区三区| 国产精品久久久久久久免费观看| 国产av不卡一区二区| 国内成人在线| 成人午夜视频免费在线观看| 免费在线看成人av| 韩国一区二区三区四区| 99久久精品免费看国产| 麻豆精品免费视频| 亚洲同性gay激情无套| 麻豆一区二区三区精品视频| 欧美午夜宅男影院在线观看| 在线免费一级片| 亚洲国产99精品国自产| 国产精品99999| 欧美激情视频一区| 日本.亚洲电影| 亚洲一区二区三区在线免费观看| 久久婷婷国产| 在线播放豆国产99亚洲| 一区二区国产精品| 中文字幕视频三区| 久久夜色精品一区| 激情视频在线播放| 91黄色免费版| 亚洲国产精品一| 中文字幕日韩专区| freexxx性亚洲精品| 国产精品一区二区三区免费视频 | 偷拍视频一区二区三区| 亚洲自拍偷拍福利| 激情五月色综合国产精品| 亚洲啊啊啊啊啊| 青草av.久久免费一区| 亚洲精品一区二区18漫画| 国产调教视频一区| 国产精品美女毛片真酒店| 欧美少妇bbb| 亚洲区小说区图片区| 久久精品国产69国产精品亚洲| 欧美gv在线观看| 91视频网页| 色喇叭免费久久综合网| 精品中文字幕av| 国产成人综合在线播放| 在线观看免费小视频| 精品久久久久久| 国内精品偷拍视频| 菠萝蜜影院一区二区免费| 香蕉成人av| 久久久亚洲综合网站| 国内视频精品| 青青草原播放器| 国产精品三级av在线播放| 天天综合网久久综合网| 精品国产乱码久久久久久牛牛| 国产在线观看a视频| 国产精品日韩精品| 波多野结衣一区| 可以免费观看av毛片| 99re亚洲国产精品| 国产真实乱偷精品视频| 日韩一卡二卡三卡国产欧美| aaa日本高清在线播放免费观看| 欧美在线免费视频| 亚洲小说图片| 日本黄网站免费| 国产宾馆实践打屁股91| 国精产品一区一区二区三区mba| 91久久线看在观草草青青| 欧美伦理影视网| 日韩免费av片在线观看| 一区二区美女| 女人另类性混交zo| 国产日韩欧美综合一区| 麻豆成人免费视频| 亚洲人成在线观| 久久久人成影片一区二区三区在哪下载| 久久久久久久有限公司| 亚洲人www| www.超碰97| 色激情天天射综合网| 成人好色电影| 成人免费福利在线| 欧美在线不卡| 在线精品视频播放| 欧美日韩国产页| 国产黄在线看| 亚洲影影院av| 激情婷婷欧美| 亚洲做受高潮无遮挡| 欧美视频在线观看一区二区| 三区四区在线视频| 99精品99久久久久久宅男| 国产精品mm| 91精品人妻一区二区| 欧美自拍偷拍一区| 日本视频在线观看| 不卡视频一区二区三区| 一区二区三区福利| 先锋影音av在线| 欧美一级高清片| 亚洲最大网站| 综合视频在线观看| 成人性视频网站| 日本久久综合网| 欧美成人免费小视频| 久久中文字幕导航| 国产九九在线观看| 亚洲永久免费av| 黄色小视频在线观看| 91丨九色丨国产在线| 亚洲最黄网站| 91动漫免费网站| 亚洲成人精品av| 欧美激情福利| 久久国产精品网| 国产精品久久久久久久久久久免费看| 一区二区精品视频在线观看| 7777kkkk成人观看| 日韩精品一区二区三区免费观影| 2025中文字幕| 欧美群妇大交群中文字幕| 男人av在线播放| 久久视频免费在线| 国产亚洲污的网站| 99热这里只有精品99| 国产精品美女久久久免费| 好看的av在线不卡观看|