精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓GPT-4.1「頭皮發麻的考試」!OpenAI給大模型上強度,AI能贏嗎?

人工智能
當AI模型擁有千萬級Token的超長記憶力時,如何檢驗它們的真正實力?OpenAI給出了新答案:MRCR基準測試。這不再是簡單的「大海撈針」,而是要求模型在海量文本中,區分并找到多個一模一樣的「針」中的特定一個,難度堪稱「AI 界的奧運會」。MRCR不僅有助于揭示當前AI的能力邊界,也將促使下一代更強大、更可靠模型的誕生。

雕塑在大理石塊中已經完成,甚至在我開始工作之前就已經存在。

它就在那里,我只需要鑿去多余的材料。

——米開朗基羅

當被問及是如何創作出如此美麗的雕塑時,米開朗基羅說「雕塑已經存在,我只是需要鑿去多余的材料」。

當21世紀的一個AI模型去理解一個非常長的上下文時,冥冥之中與15世紀的雕塑家發生了共鳴。

一個「超長的上下文」就像米開朗基羅手里的大理石,AI必須鑿去無關信息以揭示其中的本質。

4月15日,OpenAI發布GPT4.1時,更多的人關注模型的能力以及各系列「奇怪的」命名規則。

圖片圖片

如果再加上OpenAI最近發布的o3和o4-mini,以后操縱一個AI聊天界面估計不亞于開宇宙飛船。

除了新模型,OpenAI還公布了一個叫做MRCR的評測標準數據集,如果說以前檢測模型上下文能力的測試叫做「大海撈針」的話。

新的MRCR標準就是針對AI模型上下文能力的「奧運會」級別測評。

在信息海洋中「大海撈針」

「大海撈針」是翻譯過來的,原文叫做The Needle In a Haystack,最早還得追溯到GPT-4那個「年代」(感嘆下,AI發展的如此快,上一個里程碑時刻都要用年代來感知了,其實也就是2023年的事情)

最早是Greg Kamradt為了測試GPT-4的上下文能力提出的。

圖片圖片

「The needle in a haystack」就是指將特定的、想要檢索的信息(needle)嵌入到超長且復雜的文本(haystack)中。

AI能否從這塊大理石(haystack)中鑿出美麗的雕像?

圖片圖片

Greg Kamradt評估了GPT-4的能力。當輸入tokens大于100k,這些信息「針」被嵌入在文檔的百分之十至百分之五十之間時,GPT-4的大海撈針的能力開始顯著下降。

但在GPT4.1中,這個能力得到了「巨大」的提升,有多大?

圖片圖片

上圖是OpenAI發布GPT4.1時同時公布的信息,展示了 GPT-4.1在上下文窗口中不同位置檢索一小段隱藏信息(「針」)的能力。

橫軸是Input tokens從10K一直到1M,縱軸是「針」的位置。

測試結果全部藍色,全部成功!

GPT-4.1能夠在所有位置和所有上下文長度下一致且準確地檢索到針,上下文長度一直到100萬個tokens。

什么意思呢?就是說GPT4.1能夠有效地提取與手頭任務相關的任何細節,無論這些細節在輸入中的位置如何。

看來現在的大模型處理2年前的「大海撈針」已經毫無壓力了。

并且PGT4.1的上下文窗口來到了「史詩級」的10M,1000萬tokens!是上述測試時的10倍。

用OpenAI的話,這個長度的上下文可以塞得下8個完整的React代碼庫。

圖片圖片

那么,模型真的可以處理這么長的上下文嗎?

2年前的「大海撈針」標準還能有效測試如今的大模型嗎?

終極「躲貓貓」游戲,OpenAI MRCR登場!

標準的「大海撈針」測試雖然有用,但對于如今的大模型可能有點太「溫柔」了。

如果想要找的不止一根針呢?如果這些針長得一模一樣呢?如果要求找的不是特定的一根針,而是特定順序的幾根呢?

歡迎來到OpenAI MRCR的世界——一場為頂級AI大模型設計的終極「躲貓貓」游戲!

OpenAI MRCR增加了任務難度,MRCR(Multi-round co-reference resolution,多輪共指消解)是一個用于評估大語言模型區分隱藏在長上下文中的多個目標能力的數據集。

MRCR數據集把「大海撈針」的難度提升到了一個全新的境界,來看一下OpenAI提供的例子。

圖片圖片

任務是給定了一段用戶和模型之間的長對話,比如先寫一首關于「tapirs」的詩,再寫一首關于「rocks」的詩,然后再寫一首關于「tapirs」的詩,以此類推。。。來增加這個上下文的難度。

最后的要求是:將「aYooSG8CQg」加到第二首關于「tapirs」的詩前面。

這個測試非常具有挑戰性,因為:

  • 刺激項(針:也就是aYooSG8CQg)與干擾項(haystack:也就是長對話上下文)來自相同的分布。
  • 所有AI助手的回答都是由gpt4o生成的,因此刺激項很容易與干擾項混淆。
  • 模型必須區分刺激項之間的順序:比如模型能分別出關于tapirs的詩是第幾首。
  • 刺激項數量越多,任務就越困難。
  • 上下文越長,任務的難度也越大。

這個測試不僅對于GPT4.1,而且對于其他推理模型也相當困難。

MRCR不僅僅是測試模型能不能「找到」信息,更是考驗它在極端干擾下,能否精確地、魯棒地、有區別地定位到目標信息。

這就像在極其嘈雜的環境中,讓你準確聽出并復述某個特定人的特定一句話。

OpenAI也給出了在不同難度下(不同的針數),模型的準確性隨著上下文的增大,迅速的降低。

比如2個針的情況下,在GPT4.1、GPT4.1-mini以及GPT4.1 nano的準確性同步降低。

圖片圖片

在4針和8針的情況下,當上下文足夠大的時候,GPT4.1 mini的準確性甚至稍微超過了GPT4.1。

圖片圖片

在這個「嚴苛」的測試中,也許并不是模型越大越好。

圖片圖片

AI 的「考試」永無止境

從GPT3.5的簡單的問答到DeepSeek-R1、OpenAI-o1的復雜的推理,從基礎的語言理解到極限的「大海撈針」再到更嚴格的MRCR,AI 大模型的基準測試就像一場永無止境的「考試」。

像OenAI-MRCR這樣的創新性基準,不斷地為這些聰明的AI模型設置新的、更難的挑戰。

這些測試基準本身不是目的,它們的真正價值在于:

  • 揭示能力邊界: 讓我們更清楚地認識到當前 AI 的能力極限在哪里。
  • 驅動技術進步: 激勵研究者們開發出更強大、更可靠、更能應對真實世界復雜性的 AI 模型。
  • 促進審慎應用: 了解模型的強項和弱點,有助于我們更負責任、更有效地使用這項強大的技術。

GPT4.1已經可以從10M上下文中找到關鍵的信息,未來AI大模型的能力上限在哪里呢?

AI的未來充滿了無限可能,而這些嚴苛的基準測試,正是照亮前行道路,指引AI模型穩步向前的「燈塔」。

參考資料:

https://huggingface.co/datasets/openai/mrcr

https://openai.com/index/gpt-4-1/

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-06-11 08:17:00

2025-07-01 04:45:00

馬斯克腦機接口

2025-05-15 11:54:11

GPT-4.1PlusAPI

2025-06-26 15:16:42

AI獎勵模型GPT-4.1

2025-06-03 08:12:00

模型框架訓練

2025-04-24 08:29:59

OpenAIGPT-4.1人工智能

2025-04-14 09:00:00

模型AI數據

2025-04-15 08:51:05

2023-04-12 08:01:10

系統性能系統指標

2025-08-29 09:10:00

2025-04-16 09:30:16

2025-04-15 07:41:18

2025-07-09 11:21:43

MIT語言模型GPT-4.1

2019-09-26 09:40:47

互聯網數據技術

2025-05-15 09:16:00

2023-11-07 07:28:58

ChatGPTGPT-4

2019-11-06 13:57:05

AI 數據人工智能

2023-05-30 09:40:34

模型訓練

2011-11-30 09:26:25

項目管理

2025-08-07 14:05:40

OpenAI大模型開源
點贊
收藏

51CTO技術棧公眾號

精品久久久网| 国产日本一区二区三区| 日韩一区免费观看| 国产女人被狂躁到高潮小说| 国产香蕉在线| 嫩草国产精品入口| 亚洲天堂免费看| 国产欧美精品va在线观看| 国产麻豆xxxvideo实拍| 一二三四区在线观看| 麻豆国产一区二区| 中文字幕国产亚洲| 国产理论在线播放| 男人天堂亚洲二区| 男人天堂欧美日韩| 日韩精品小视频| 91猫先生在线| 视频一区二区在线播放| 99这里有精品| 亚洲精品mp4| 免费在线观看亚洲视频| 隣の若妻さん波多野结衣| 女人色偷偷aa久久天堂| 6080午夜不卡| 九一免费在线观看| 国产免费高清av| 欧美成人精品| 最近2019中文字幕在线高清| 欧美日韩亚洲自拍| 天天在线视频色| 久久国产精品99久久久久久老狼| 最新69国产成人精品视频免费| 国内精品免费视频| 91探花在线观看| 91网站最新网址| 热re91久久精品国99热蜜臀| 受虐m奴xxx在线观看| 日韩精品影片| 人妻av无码一区二区三区| 成人三级小说| 91麻豆国产福利精品| 亚洲自拍小视频免费观看| 黄色在线观看免费| 久久影视三级福利片| 欧美日韩亚洲精品一区二区三区 | 日韩精品国内| 亚洲av片在线观看| 久久青草久久| 久久精品男人天堂| av av在线| 国产亚洲一区二区手机在线观看| 亚洲成年人影院| 日韩欧美三级电影| 欧美亚洲日本| 久国产精品韩国三级视频| 国产精品久久久久久久久久小说| 亚洲不卡在线播放| 精品久久ai电影| 精品国产乱码久久久久久蜜臀| 国产视频一视频二| caoprom在线| 午夜精品福利视频网站| 日韩在线第一区| 国产天堂素人系列在线视频| 久久久久久久综合色一本| 国产在线视频91| 国产黄色片视频| 日韩欧美自拍| 亚洲国产欧美自拍| 中文字幕乱码在线| 亚洲丝袜美腿一区| 日韩在线观看免费全| 亚洲 欧美 日韩系列| 高清电影一区| 欧美三级日韩三级| 激情小视频网站| 国产视频精选在线| 日本一区免费视频| 国产女主播一区二区三区| 韩国av永久免费| 91色九色蝌蚪| 亚洲精品8mav| 日韩a在线观看| 久久久蜜臀国产一区二区| 婷婷四月色综合| 亚洲欧美日韩动漫| 欧美国产日韩a欧美在线观看 | www.在线观看av| 国产在线91| www.欧美.com| 91大片在线观看| 亚洲午夜精品久久久| 乱人伦精品视频在线观看| 国产精品扒开腿做| 中文字字幕在线中文| 一区免费在线| 久久99久久亚洲国产| 99自拍偷拍视频| 精品国产不卡| 亚洲片av在线| 国产精品第七页| 青青草成人影院| 亚洲图片制服诱惑| 精品国产av无码| 66国产精品| 精品国产一区久久久| 四虎永久在线精品| 久久精品久久综合| 激情欧美一区二区三区中文字幕| 亚洲爱爱综合网| 国产白丝精品91爽爽久久| 亚洲最大成人网色| 蜜桃视频在线观看网站| 亚洲欧美经典视频| 日本久久高清视频| 伊人影院在线视频| 欧美午夜免费电影| 国产精品嫩草影院8vv8| 婷婷久久免费视频| 91精品国产麻豆| 香蕉视频在线观看黄| 99精品中文字幕在线不卡 | 成人激情四射网| 高清不卡一二三区| 一本久久a久久精品vr综合| 日本不卡不卡| 一区二区三区视频在线看| 黄色网在线视频| 国产99re66在线视频| 欧美日韩免费一区二区三区| 夜夜夜夜夜夜操| 日韩精品一区二区三区免费视频| 日韩精品中文字幕一区二区三区| 黄色国产在线视频| 综合在线视频| 午夜精品福利视频| 无码人妻av免费一区二区三区 | 国产精品99一区二区三| 欧美成人精品xxx| 久久久久久久久艹| 免费一区视频| 91精品久久久久久久久中文字幕| 国产普通话bbwbbwbbw| 欧美国产综合一区二区| 久久久久久久久久久久久国产精品| 手机看片久久| 欧美一区二区免费视频| 99自拍偷拍视频| 蜜桃视频一区二区三区在线观看| 亚洲直播在线一区| 麻豆视频在线免费观看| 欧美人xxxx| 色哟哟一一国产精品| 一区二区三区高清视频在线观看| 国产精品一区二区你懂得| 激情福利在线| 在线视频一区二区三区| 俄罗斯女人裸体性做爰| 欧美视频官网| 国产精品亚洲精品| 日本成人在线播放| 欧美一区二区三区在线看| 18岁成人毛片| 日韩精品成人一区二区在线| 99久久精品免费看国产一区二区三区 | 日本在线观看www| 欧美久久一二三四区| 欧亚乱熟女一区二区在线| 日韩dvd碟片| 国产女精品视频网站免费| 免费在线观看av| 日韩精品一区国产麻豆| 日韩精品在线不卡| 久久久久久久久免费| 艹b视频在线观看| 台湾佬综合网| 欧美理论电影在线播放| 亚洲精品视频网| 欧美日韩中文在线| 亚洲精品激情视频| 亚洲专区一区二区三区| 亚洲成人一区二区三区| 国产剧情一区二区在线观看| 伊人伊成久久人综合网小说| 日韩精品无码一区二区| 久久久久亚洲蜜桃| 中文字幕一区二区在线观看视频 | 亚洲一区二区三区欧美| 午夜久久av| 国产97在线亚洲| 天天干天天舔天天射| 亚洲综合偷拍欧美一区色| 手机免费av片| 亚洲精品专区| 国产精品伊人日日| 欧美日韩视频免费观看| 欧美成人激情在线| 搞黄视频免费在线观看| 欧美不卡视频一区| 久久精品黄色片| 久久在线观看免费| 一本大道熟女人妻中文字幕在线| 日韩伦理视频| 久久久久高清| 中文字幕人成乱码在线观看| 亚洲国产天堂久久综合| 这里只有精品6| 婷婷六月综合网| 国产又黄又粗又猛又爽的视频| 日本亚洲一区二区| 色综合影院在线观看| 97久久综合区小说区图片区| 国产精品美女www爽爽爽视频| 黄污视频在线观看| 日韩在线观看免费高清| 福利视频在线导航| 亚洲精品国产综合久久| av男人天堂网| 亚洲国产精品自拍| 国精产品久拍自产在线网站| 国产一区不卡在线| 青春草国产视频| 91精品国产麻豆国产在线观看| 欧美日韩亚洲在线| 97欧美成人| 麻豆国产va免费精品高清在线| 国产农村老头老太视频| 欧美私人免费视频| 天天干在线播放| 亚洲va国产va欧美va观看| 国产精品久久久久久久精| 国产精品久久久久永久免费观看| 亚洲高清在线不卡| 全国精品久久少妇| 免费裸体美女网站| 91视频综合| 国产伦精品一区二区三区免费视频| 四虎精品一区二区免费| 国产精品久久久久久久久久久不卡 | 亚洲黄色av网址| 青娱乐精品视频| 天天操天天爱天天爽| 日韩av高清在线观看| 日韩视频免费在线播放| 欧美成人直播| 亚洲综合网中心| 日韩一区二区三区免费播放| 三区精品视频| 四虎国产精品免费观看| 一本久道久久综合狠狠爱亚洲精品| 日韩一区欧美| 黄色一级视频播放| 欧美精品国产| 国产va亚洲va在线va| 亚洲激情网址| 免费成人在线视频网站| 男人天堂欧美日韩| 天堂中文视频在线| 久久精品二区亚洲w码| 中文字幕在线视频一区二区三区 | 黄色性生活一级片| 久草精品在线观看| 亚洲免费在线播放视频| 国产精品911| 午夜在线观看av| 精品亚洲成av人在线观看| 久久久久狠狠高潮亚洲精品| 石原莉奈一区二区三区在线观看 | 日韩一区二区三区四区五区| 国产一区欧美二区三区| 日韩精品一区二区三区中文| 好看的日韩精品| 成人情趣视频网站| 欧美一级中文字幕| 国产精品一级| 欧美又粗又长又爽做受| 思热99re视热频这里只精品| 日韩jizzz| 婷婷久久一区| 水蜜桃色314在线观看| 女人香蕉久久**毛片精品| 丝袜人妻一区二区三区| 视频一区视频二区在线观看| 污污视频网站在线| 不卡视频在线观看| 精产国品一区二区三区| 99国产精品久| 国产xxxx视频| 中文字幕免费一区| 国产一级免费观看| 一区二区三区影院| 中文字幕精品无码一区二区| 婷婷丁香激情综合| 中文字幕日本人妻久久久免费| 日韩欧美a级成人黄色| 亚洲熟女乱色一区二区三区久久久| 日韩一级黄色大片| www黄色网址| 亚洲人成电影在线| 青青在线视频| 欧美国产一区二区三区| а√天堂资源地址在线下载| 久久精品国产久精国产思思| 97蜜桃久久| 91视频-88av| 在线日韩成人| 国产欧美综合精品一区二区| 成人情趣视频| 久久成人免费观看| 国产激情一区二区三区四区| 天天躁夜夜躁狠狠是什么心态| 国产三区在线成人av| 男人的天堂官网| 午夜精品成人在线视频| 国产99999| 日韩在线免费视频观看| 韩国主播福利视频一区二区三区| 奇米成人av国产一区二区三区| 国产精品美女久久久久| 日韩三级电影网站| 午夜在线视频一区二区区别| av电影中文字幕| 99精品桃花视频在线观看| 日韩在线中文字幕视频| 欧美三级在线播放| 国产在线一二三| 日本aⅴ大伊香蕉精品视频| 成人免费直播在线| 久久久久福利视频| 久久精品国产一区二区三区免费看| 少妇久久久久久久久久| 欧美午夜激情视频| 婷婷综合激情网| 97在线视频免费播放| 亚洲欧美小说色综合小说一区| 97人人模人人爽视频一区二区| 97精品一区| 超碰超碰在线观看| 国产精品成人一区二区艾草 | 亚洲精品传媒| 国产精品h在线观看| 97久久精品一区二区三区的观看方式| 91在线看www| 国产精品精品| 九九热视频免费| 亚洲欧美偷拍卡通变态| 国产手机视频在线| 欧美成人中文字幕在线| 日韩精品一区二区三区中文在线 | 亚洲免费在线| 白丝女仆被免费网站| 综合分类小说区另类春色亚洲小说欧美 | 黄色一级二级三级| 日本一区二区三区四区在线视频| 久久永久免费视频| 日韩一区二区中文字幕| 中文字幕中文字幕在线中高清免费版| 成人午夜一级二级三级| 欧美国产免费| 稀缺小u女呦精品呦| 欧美日韩中文字幕在线| 波多野结衣一区二区| 高清一区二区三区日本久| 久久精品资源| 日本成人性视频| 久久久久国产精品一区三寸 | 亚洲日本青草视频在线怡红院| 国产熟女一区二区三区四区| 久久99久久99精品免观看粉嫩| 99热这里只有精品首页| www.爱色av.com| 中文字幕欧美激情| 精品国自产在线观看| 97热精品视频官网| 精品久久视频| 黄色片子免费看| 欧美国产国产综合| 国产特级aaaaaa大片| 97视频在线观看播放| 国产欧美日韩影院| 欧美深夜福利视频| 国产视频一区二区在线| 国产免费福利视频| 欧美在线视频网| 91精品啪在线观看国产18| 妖精视频一区二区| 欧美三级午夜理伦三级中视频| 日皮视频在线观看| 亚洲tv在线观看| 99av国产精品欲麻豆| 亚洲aaa视频| 亚洲精品国产suv| 日韩五码电影| 国产精品欧美激情在线观看| 中文字幕中文在线不卡住| 六月婷婷综合网| 国产专区欧美专区| 香蕉成人久久| 麻豆chinese极品少妇| 亚洲一区二区国产|