精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

米開朗基羅怎么說?谷歌DeepMind推出長上下文評估新框架

人工智能 新聞
近日,來自谷歌DeepMind的研究人員提出了Michelangelo,「用米開朗基羅的觀點」來測量任意上下文長度的基礎模型性能。

米開朗基羅,文藝復興時期著名的雕塑家。

曾有人問他是如何創作出如此偉大的作品,他回答說:

「The sculpture is already complete within the marble block, before I start my work. It is already there, I just have to chisel away the superfluous material.」


「在我開始工作之前,雕塑已經在大理石塊中完成了。它已經在那里了,我只需要鑿掉多余的材料。」

(小編PS:在我寫稿之前,稿子已經在字典里完成了......)

這種寫意的表述可以類比到許多工作,比如大語言模型從上下文中理解信息。

LLM可能面對著很長的語境(大理石),需要「鑿掉」其中不相關的信息,才能理解有效的內部結構(雕塑)

所以,對于LLM來說,米開朗基羅的能力就可以是長上下文的能力。

然而,無論是用戶還是研究者都不免會有疑問:你這瓜保熟嗎?號稱百萬token的長上下文真的能理解嗎?

近日,來自谷歌DeepMind的研究人員提出了Michelangelo,「用米開朗基羅的觀點」來測量任意上下文長度的基礎模型性能。

圖片

論文地址:https://arxiv.org/abs/2409.12640

作者設計了用于長上下文推理評估的潛在結構查詢框架LSQ,框架包含了長上下文評估的現有工作。

Michelangelo由三個簡單的潛在結構查詢實例組成,每個實例負責測量的能力和實例化的數據分布有所不同。

圖片

研究人員在目前性能最好的幾個模型上進行了高達1M上下文的評估。

實驗證明,GPT和Claude模型在128K的上下文范圍中表現都不錯,而Gemini也確實做到了在高達1M的上下文中具有泛化能力。

然而,如果是比較困難的推理任務,大家就基本全軍覆沒了。

圖片

上圖展示了幾個前沿模型在框架的其中一項任務MRCR(Multi-Round Co-reference Resolution)上的性能。

MRCR是一項合成的長推理任務,使用簡單的度量進行評估,并在許多模型族中使用固定提示,實驗中所有型號的LLM在32K之前的區間中,性能都隨上下文長度而顯著下降。

這一方面可以看出大家的能力都有點水分,另一方面也表明在比較短的長度(32K)上就已經可以摸清底細了。

圖片

對比不同模型系類的MRCR實驗,可以發現有趣的聯系——近似平行的曲線,這可能暗示這些模型在訓練過程中存在獨特的相似之處(即使性能可能存在絕對差異)。

米開朗基羅

通過要求模型從結構中提取信息,而不是從鍵中提取值,我們可以更深入地測試語言模型上下文理解能力,而不僅僅是檢索。

圖片

盡管隨著超長上下文的刷榜,基準測試也在不斷跟進,比如在大海中多撈幾根針,又或者是更現實的長語境問答評估。

但歸根結底,這些都只是不同環境中的檢索任務,而模型檢索一個或多個事實的能力并不一定意味著模型能夠從完整的上下文中綜合信息。

另外,目前的長上下文基準還存在以下一些問題:

相對較小的上下文長度;

高度人工性,沒有自然語言或代碼設置;

需要大量的人力才能延伸到更長的上下文長度;

有時,回答問題所需的信息可能存在于預訓練數據中,或者可以短路上下文長度并使用更多本地信息回答問題。

如何解決?

Michelangelo由三個直觀且簡單的長上下文綜合任務基元組成,它們要求模型綜合散布在整個上下文中的多條信息以產生答案,并測量模型綜合能力的不同方面,以提供對長上下文模型行為的更全面理解。

Michelangelo的每項評估都定位在自然語言或基于代碼的環境中,與現有基準相比,合成程度較低。

任務在上下文長度上可以任意擴展,同時保持固定的復雜性,并且不會導致邏輯矛盾或短路。

另外,實例的生成基于自然語言的方法,不依賴于現有的評估集或互聯網數據,因此避免了泄露。

評估任務

Latent List

考慮一個簡短的Python列表,并提出一系列修改該列表的操作,比如append、insert、pop、remove、sort、reverse。

給定操作序列,模型需要輸出結果潛在列表的視圖:能夠打印列表的完整切片、列表切片的總和、最小值或最大值,列表的長度(列表長度不取決于實例的總上下文長度,而是取決于相關操作的數量)。

為了填充上下文,這里統一采用三種不影響列表潛在狀態的策略:

1)插入print語句(Do nothing);

2)插入偶數個反向操作;

3)插入所有在本地自我抵消的操作塊。

圖片

作者考慮了三個復雜度級別,分別包含1個、5個和20個相關操作。

使用近似度量來對Latent List任務進行評分,以下代碼描述了計算此分數的確切方法:

圖片

MRCR

在MRCR任務中,模型根據與用戶之間的長時間對話,來進行不同主題的寫作(例如詩歌、謎語、論文)。

這里使用PaLM 2模型提供與每個請求和主題相對應的多個輸出。

在每個對話中,包含不同于其余對話的主題和寫作格式的用戶請求將隨機放置在上下文中。

圖片

將對話作為上下文,要求模型重現其中一個請求產生的對話的輸出。

MRCR任務還通過格式和主題重疊,來創建與查詢相似的對抗性樣本。

比如,請求「Reproduce the poem about penguins.」要求模型區分關于企鵝的詩和關于火烈鳥的詩,而「Reproduce the first poem about penguins.」要求模型對順序進行推理。

作者通過模型輸出和正確響應之間的字符串相似性對MRCR進行評分。

IDK

IDK任務向模型展示大量文本并提出一個問題,鑒于預訓練語料庫龐大,該問題沒有客觀答案。

例如,可能有一個關于一個女人和她的狗的虛構故事,其中詳細說明了狗的名字和年齡,但沒有詳細說明它的顏色。然后向模型提問:女人的狗是什么顏色的?

此任務的每個實例,都會提供四個選項作為答案,其中一個始終是「I don't know」,而其他選項都是相對合理的回答。

圖片

評估中設置70%的任務實例對應于真實答案是「I don't know」,30%的實例對應于在上下文中可找到答案(即簡單檢索任務),最后根據模型輸出是否具有正確答案進行評分。

全新評估框架

長上下文評估通常應遵循以下原則:

通常可擴展至任意上下文長度;

由相關信息的數量編制索引的復雜度;

上下文長度難度應與任務對應的復雜度解耦,沒有不相關的信息;

覆蓋自然語言文本和代碼(兩個基本領域);

避免數據泄露;

測試模型對上下文中傳達的隱含信息的理解;

用盡可能少的評估次數,測試長上下文綜合能力的正交維度。

本文的評估框架將呈現給模型的上下文視為一個信息流,它構成了對潛在結構的更新:完整的上下文長度就像一塊大理石,里面有許多不相關的信息,LLM需要鑿掉不相關的信息,才會露出里面的雕像(潛在結構)。

舉個例子,你可以想象讀一本描寫家庭的書——父母可能會離婚,孩子長大后會結婚,長輩會去世。在這個過程中,與家譜對應的潛在結構發生了變化和更新(書中的大部分信息則根本不影響家譜)。

實驗結果

考慮每個評估中的128K上下文:

圖片

如圖所示,在短上下文中,這些模型的性能最初會出現一次急劇的超線性下降。

圖片

請注意,任務復雜度在整個上下文中保持固定,因此這種下降完全是由于模型的長上下文處理能力。

圖片

之后,性能通常會趨于平緩或繼續以大致線性的速度下降,并通常會持續到非常大的上下文長度。

我們可以將這種行為解釋為模型具有足夠好的子功能,足以在給定任務上實現一定水平的性能,并且這些子功能的長度泛化到了非常大的上下文長度。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-04-03 10:05:00

LLM性能基準測試

2024-09-30 14:10:00

2024-04-07 08:50:00

谷歌框架

2025-10-31 01:00:00

2025-09-10 09:38:56

2025-10-20 09:06:00

2024-09-05 08:24:09

2023-06-20 16:26:21

2025-10-14 10:03:11

CompLLMLLMRAG

2025-05-28 11:46:52

強化學習模型AI

2017-05-11 14:00:02

Flask請求上下文應用上下文

2025-10-11 04:22:00

人工海馬體網絡LV-Eval

2025-02-26 00:16:56

RAGAI服務

2025-08-08 01:45:00

上下文工程優化框架

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2025-02-06 10:21:51

2022-09-15 08:01:14

繼承基礎設施基礎服務

2025-10-27 09:38:26

2022-10-28 16:24:33

Context上下文鴻蒙
點贊
收藏

51CTO技術棧公眾號

国产美女主播在线播放| 国产欧美精品在线播放| 亚洲久久久久久| 午夜激情电影在线播放| 中文一区二区在线观看 | 国产www视频在线观看| 成人aa视频在线观看| 日韩免费不卡av| 小泽玛利亚一区| 给我免费播放日韩视频| 91久久免费观看| 日韩欧美一级在线| 欧美巨乳在线| 国产美女精品在线| 欧美在线视频观看免费网站| 影音先锋男人资源在线观看| 国产成人福利av| 欧美三级电影精品| 免费av手机在线观看| 91xxx在线观看| 成人免费视频app| 国产精品网站大全| 欧美日韩综合在线观看| 久久久久久久久久久妇女| 日韩精品亚洲精品| 可以看的av网址| 日韩另类视频| 亚洲成a天堂v人片| 法国空姐在线观看免费| 国产在线91| 波多野结衣中文字幕一区| 国产欧亚日韩视频| 国产www在线| 欧美日本免费| xxx欧美精品| 韩国三级hd中文字幕| 麻豆一区一区三区四区| 欧美一卡2卡三卡4卡5免费| 毛葺葺老太做受视频| 岛国在线视频网站| 亚洲午夜免费视频| youjizz.com亚洲| 国产亚洲依依| 91毛片在线观看| 国产99在线播放| 国产乱码精品一区二区| 秋霞电影网一区二区| 日本久久久a级免费| 日韩经典在线观看| 精品二区视频| 欧美国产第一页| 暗呦丨小u女国产精品| 欧美一区二区三| 亚洲人成网站999久久久综合| 7788色淫网站小说| 国产劲爆久久| 亚洲精品一区二区三区影院| 中文字幕一区二区三区人妻在线视频| 91丨精品丨国产| 91麻豆精品国产91久久久更新时间| 国产又黄又猛又粗又爽的视频| www.精品| 色婷婷av一区二区| 日韩精品免费播放| 亚洲a∨精品一区二区三区导航| 欧美视频中文字幕在线| 干日本少妇首页| 依依综合在线| 欧美亚洲图片小说| 亚洲久久中文字幕| 亚洲精品aa| 欧美一区在线视频| 最好看的中文字幕| 免费日韩一区二区三区| 亚洲免费伊人电影在线观看av| 亚洲精品乱码久久久久久不卡| 欧美五码在线| 亚洲天堂av网| 日本一级片免费| 国产精品啊v在线| 91精品国产乱码久久久久久久久| 欧美一级特黄视频| 日韩精品一级中文字幕精品视频免费观看 | 日本在线观看大片免费视频| 亚洲自拍偷拍av| 国产欧美日韩网站| 国产一区二区三区朝在线观看| 欧美性大战久久| 青青草原播放器| 超碰精品在线观看| 精品在线小视频| 色www亚洲国产阿娇yao| 牛牛国产精品| 啪一啪鲁一鲁2019在线视频| 中文字幕人妻互换av久久| 国产一区二区在线视频| 国产一区二区自拍| 成人在线二区| 亚洲精品成人少妇| 99999精品视频| 日本成人在线网站| 亚洲高清免费观看高清完整版| 亚洲国产av一区| 亚洲精品小说| 热久久这里只有| 国产乱码精品一区二区| 91视频精品在这里| 看一级黄色录像| 中文字幕这里只有精品| 宅男在线国产精品| 蜜桃传媒一区二区亚洲av | 亚洲免费av网址| 91视频青青草| 久久九九电影| 成人欧美一区二区三区视频| 国产中文字幕在线观看| 亚洲午夜久久久久中文字幕久| 天天爽夜夜爽一区二区三区 | 久久精品一区二区三区不卡免费视频| av电影在线网| 精品欧美激情精品一区| 国产在线视频三区| 俺要去色综合狠狠| 91地址最新发布| a天堂视频在线| 中文字幕二三区不卡| 成年人午夜视频在线观看| 高清一区二区中文字幕| 国产亚洲欧洲高清| 国产区在线观看视频| 国产乱码精品一区二区三区五月婷| 欧美黑人3p| heyzo一区| 日韩一区二区三区观看| 99精品欧美一区二区| 中文亚洲免费| 国产精品区一区二区三含羞草| 九义人在线观看完整免费版电视剧| 一本一本久久a久久精品综合麻豆| 中文字幕99页| 午夜日韩在线| 成人在线视频网| 99精品老司机免费视频| 色猫猫国产区一区二在线视频| 亚洲精品第二页| 国产中文一区| 99精品欧美一区二区三区| 黄色动漫在线观看| 337p亚洲精品色噜噜| 天堂网av2018| 美女一区二区视频| 亚洲视频精品一区| 久久婷婷五月综合色丁香| 国产午夜精品一区理论片飘花| 色屁屁影院www国产高清麻豆| 99久久国产综合精品色伊| 国产中文字幕乱人伦在线观看| 午夜日韩影院| 欧美激情乱人伦| 亚洲大尺度视频| 亚洲一区二区五区| 一边摸一边做爽的视频17国产 | 日韩av中文字幕第一页| 亚洲一区电影| 久久久女女女女999久久| 黄色www视频| 精品国产福利视频| 日本黄色特级片| 午夜在线精品偷拍| 日本不卡久久| 日本黄色成人| 欧美成人免费大片| 天堂在线资源8| 色综合久久综合网97色综合| 中国女人特级毛片| 狠狠色丁香婷婷综合| 亚洲精品国产suv一区88| 国产精品一线| 国产91在线高潮白浆在线观看| 在线观看麻豆| 日韩午夜在线影院| 国产精品7777777| 久久久久久久久免费| 国产91色在线观看| 欧美激情视频一区二区三区在线播放| 国产精品yjizz| 欧美不卡高清一区二区三区| 日韩一区二区在线视频| 成人激情四射网| 日韩欧美成人网| 国产亚洲精品久久久久久豆腐| 国产一区二区三区四区五区入口| 日韩免费在线观看av| 日本中文字幕在线一区| 国产精品一区久久| 国产精品一品| 亚洲最新中文字幕| 亚洲成人av综合| 在线中文字幕一区| 麻豆影视在线播放| 欧美激情自拍偷拍| 香蕉在线观看视频| 日韩电影在线一区二区| 日本免费成人网| 国产91精品对白在线播放| 亚洲v日韩v综合v精品v| 中文一区一区三区高中清不卡免费 | 看欧美ab黄色大片视频免费 | 久久91超碰青草在哪里看| 久久久免费精品| 老司机精品影院| 精品亚洲一区二区三区在线播放| 一卡二卡三卡在线观看| 精品二区三区线观看| 四虎影院中文字幕| 国产欧美日韩精品在线| 亚洲久久久久久| 国产精品一品二品| 91精品无人成人www| 一本色道久久综合亚洲精品高清| 日韩视频在线免费播放| 国产剧情一区| 国产一区自拍视频| 蜜桃精品视频| 国产精品美女呻吟| 亚洲天堂手机| 久久人人爽人人| 97超碰在线公开在线看免费| 在线观看日韩av| 蜜桃视频在线免费| 亚洲精品久久久久国产| 亚洲成人一二三区| 日韩一区二区三| 97超碰资源站| 欧美日本一区二区| 制服丝袜在线一区| 在线影院国内精品| 91午夜精品亚洲一区二区三区| 亚洲午夜国产一区99re久久| 亚洲天堂黄色片| 亚洲丝袜制服诱惑| 岛国片在线免费观看| 国产亚洲成av人在线观看导航 | 国产精品沙发午睡系列990531| 精品中文字幕在线播放| 粉嫩av亚洲一区二区图片| 成人免费黄色av| 国内精品免费**视频| 亚洲综合av在线播放| 久久精品国产99| 在线能看的av网站| 国内精品伊人久久久久av一坑| 亚洲精品20p| 久久99国产精品久久99| 久热精品在线播放| 久久成人精品无人区| 一二三级黄色片| 狠狠色狠狠色综合| 1314成人网| 成人午夜av影视| 国产黑丝一区二区| 久久综合色天天久久综合图片| 一出一进一爽一粗一大视频| 色男人天堂av| 成人免费va视频| theav精尽人亡av| 久久综合久久综合亚洲| 国产精品久久久久无码av色戒| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 国产精品久久色| 伊人国产精品| 成人久久18免费网站漫画| 国产精品一区二区三区美女| 精品一区二区三区视频日产| 校花撩起jk露出白色内裤国产精品| 欧美日韩精品免费观看视一区二区| 国产剧情一区| 精品国产一区二区三区在线| 亚洲一本视频| 久草在在线视频| 极品销魂美女一区二区三区| 精品人妻一区二区乱码| 99久久精品免费看| 欧美成人另类视频| 一区二区三区精品| 国产乱国产乱老熟| 欧美高清视频不卡网| 丰满岳乱妇国产精品一区| 亚洲乱码国产乱码精品精| 在线观看麻豆蜜桃| 91国产美女在线观看| 欧洲成人一区| 国产精品美女xx| 国产亚洲电影| 91网站在线观看免费| 久久最新视频| 韩国av中国字幕| 日本一区二区三级电影在线观看| av成人免费网站| 狠狠躁18三区二区一区| 国产精品国产三级国产普通话对白 | 久久99热这里只有精品| 69亚洲乱人伦| 国产精品福利一区| 国产午夜性春猛交ⅹxxx| 91精品国产aⅴ一区二区| 亚洲三区在线观看无套内射| 久久在精品线影院精品国产| 澳门成人av网| 99高清视频有精品视频| 女人丝袜激情亚洲| japanese在线播放| 日韩高清电影一区| 国产乱了高清露脸对白| 亚洲人午夜精品天堂一二香蕉| 国产一级18片视频| 日韩精品一区二区三区三区免费| 国产毛片在线| 国语自产精品视频在线看抢先版图片| 成人精品高清在线视频| 你懂的视频在线一区二区| 国产尤物精品| 欧美污在线观看| 中文成人av在线| 丰满少妇xoxoxo视频| 精品国产1区二区| aaa大片在线观看| 国产精品女人久久久久久| 亚洲免费专区| 无码粉嫩虎白一线天在线观看| 国内精品伊人久久久久av影院| 国产又粗又黄又猛| 日韩欧美国产视频| 午夜一区在线观看| 国内精品模特av私拍在线观看| 清纯唯美激情亚洲| 中文字幕一区二区三区四区五区人 | 久久夜夜操妹子| 国产欧美日韩亚洲| 激情综合在线| 性活交片大全免费看| 欧美日韩中字一区| 五月婷婷一区二区| 欧美精品一二三四| 成人在线免费视频| 国产精品99久久久久久白浆小说| 欧美xxxx在线| 成人在线观看你懂的| 成人aaaa免费全部观看| 久久影院一区二区| 欧美精品一区二区三区在线播放| 亚洲妇熟xxxx妇色黄| 亚洲v日韩v综合v精品v| 欧美国产91| 香蕉视频色在线观看| 亚洲免费电影在线| 国产普通话bbwbbwbbw| 免费av一区二区| 一区二区在线视频观看| 亚洲色成人www永久在线观看| 成人午夜短视频| 国产精品第108页| 亚洲黄色av网站| 超碰在线公开| 麻豆av一区二区三区| 久久激情中文| 亚洲不卡的av| 欧美一区二区大片| 69av成人| 欧美二区在线| 日韩电影免费在线| 久久爱一区二区| 日韩一级在线观看| 草草在线观看| 日本精品一区二区三区视频| 九色综合狠狠综合久久| 欧美成人一区二区三区高清| 亚洲国产欧美久久| 影视一区二区三区| 小说区视频区图片区| 成人午夜激情视频| 国内av在线播放| 不用播放器成人网| 欧美一性一交| 中文字幕天天干| 亚洲综合视频在线观看| 毛片在线播放网址| 亚洲一区中文字幕在线观看| 亚洲日本视频| 欧美成人久久久免费播放| 欧美mv日韩mv国产网站| 亚洲第一二三四区| 日韩一二区视频| 2022国产精品视频| 国产精品爽爽久久久久久| 国产91精品久久久久| 一区二区三区四区日韩| 无码人妻精品一区二区三区温州| 欧美日韩中文一区| 超级白嫩亚洲国产第一|