精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準測試:所有模型輸出都低于標稱長度

人工智能 新聞
最近,陳丹琦團隊提出了一個全新的基準測試工具LONGPROC,專門用于檢測長上下文模型處理復雜信息并生成回復的能力。

很多大模型的官方參數都聲稱自己可以輸出長達32K tokens的內容,但這數字實際上是存在水分的??

最近,陳丹琦團隊提出了一個全新的基準測試工具LONGPROC,專門用于檢測長上下文模型處理復雜信息并生成回復的能力。

圖片

實驗結果有點令人意外,團隊發現,包括GPT-4o等最先進的模型在內,盡管模型在常用長上下文回憶基準上表現出色,但在處理復雜的長文生成任務時仍有很大的改進空間。

具體來說,測試的所有模型都聲稱自己上下文窗口大小超過32K tokens,但開源模型一般在2K tokens任務中就表現不佳,而GPT-4o等閉源模型在8K tokens任務中性能也明顯下降。

舉例來說,讓GPT-4o模型生成一個詳細的旅行規劃時,即使提供了相關的時間節點和直飛航班線路,在模型的生成結果中仍然出現了不存在的航班信息,也就是出現了幻覺。

圖片

這到底是怎么回事呢?

全新LONGPROC基準

目前現有的長上下文語言模型(long-context language models)的評估基準主要集中在長上下文回憶任務上,這些任務要求模型在處理大量無關信息的同時生成簡短的響應,沒有充分評估模型在整合分散信息和生成長輸出方面的能力。

為了進一步精確檢測模型處理長上下文并生成回復的能力,陳丹琦團隊提出了全新的LONGPROC基準測試。

從表1中各測試基準的對比可以看出,只有LONGPROC基準同時滿足6個要求,包括復雜的流程、要求模型輸出大于1K tokens、且提供確定性的解決方案等。

圖片

新基準包含的任務

具體來說,LONGPROC包含6個不同的生成任務:

1.HTML到TSV:要求模型從HTML頁面中提取指定信息并格式化為表格。需要從復雜的HTML結構中穩健地提取所有相關信息,并將其正確格式化。

比如從下面的網頁中提取出所有影片的信息:

圖片

2.偽代碼生成代碼:要求模型將偽代碼翻譯成C++代碼。需要保持源代碼和目標代碼之間的一一對應關系,并確保翻譯的正確性。

3.路徑遍歷:要求模型在假設的公共交通網絡中找到從一個城市到另一個城市的路徑。需要確保路徑的唯一性和正確性。

4.Theory-of-Mind跟蹤:要求模型跟蹤故事中對象位置的思想變化。需要進行長距離的推理,以準確反映對象在不同時間點的位置和狀態。

比如根據下面的文字敘述推斷出“Alice認為筆記本在哪里”:

圖片

5.Countdown游戲:要求模型使用四個數字和基本算術操作找到達到目標數字的方法。需要進行深度優先搜索,并確保搜索過程的完整性和正確性。

比如在下面的示例中,要求模型用四則運算操作輸入的數字,最終得出29的結果:

圖片

6.旅行規劃:要求模型生成滿足多種約束的多城市旅行計劃。需要探索多種可能的行程安排,并確保所有約束條件得到滿足。

如下圖所示,圖中要求模型根據任務提供的歐洲行程計劃和直飛航班規劃最佳的旅行時間安排:

圖片

在輸出結果的同時,LONGPROC還會要求模型在執行詳細程序指令的同時生成結構化的長形式輸出 。

從表2中可以看出,除了對比左邊的實例數量(N)、輸入和輸出tokens的平均數量(#In/#Out),團隊還會從表格最右3列的獲取信息的方式、是否存在演繹推理和執行搜索這三個方面對任務進行比較。

圖片

實驗任務設置

實驗中,上面的6個任務都有不同的數據集。例如,HTML到TSV任務使用了Arborist數據集中的56個網站;偽代碼生成代碼任務使用了SPOC數據集;路徑遍歷任務構建了一個假設的公共交通網絡等等。

實驗都會要求模型執行一個詳細的程序來生成輸出

此外,根據任務的輸出長度,數據集會被分為500 tokens、2K tokens和8K tokens三個難度級別。比如對于HTML到TSV任務來說,每個網站都會被分割成非重疊子樣本,這樣就可以獲得更多數據點。

參與實驗的模型包括17個模型,包括流行的閉源模型(如GPT-4o、Claude 3.5、Gemini 1.5)和開源模型(如ProLong、Llama-3、Mistral-v0.3、Phi-3、Qwen-2.5、Jamba)。

實驗結果及分析

首先來看看實驗中模型的整體表現

結果有點令人意外,所有模型在長程序生成任務中都表現出顯著的性能下降!具體的數值可以查看下面的表3。

即使是GPT-4o這種前沿模型,在8K tokens的輸出任務上也難以保持穩健的表現。

圖片

我們再來詳細分析一下不同模型之間的差異

根據下面的圖3可以看出,像GPT-4o這樣的頂尖閉源模型在0.5K任務上表現最佳,但在8K任務上性能顯著下降。

小規模的開源模型基本都表現不佳,而中等規模的開源模型(Llama-3.1-70B-Instruct)在低難度任務上表現與GPT-4o相差不大。

不過,在某些8K任務上,中等規模的模型表現很不錯,比如Gemini-1.5-pro在HTML to TSV任務中就超過了GPT-4o,Llama-3.1-70B-Instruct、Qwen2.5-72B-Instruct在8K的Countdown游戲中也與GPT-4o相差不大。

但整體來看,開源模型的性能還是不及閉源模型。

圖片

此外,模型表現跟任務類型也有關系。在需要更長推理的任務中,模型的性能普遍出現了更顯著的下降。

如圖4所示,在Theory-of-Mind跟蹤、Countdown游戲和旅行規劃任務這些需要處理更復雜的信息、進行更長鏈的推理的任務中,模型性能的下降幅度都更大,GPT-4o、Qwen等模型的精確度甚至直線下降。

圖片

除了對比17個模型之間的能力,團隊成員還將表現較好的模型輸出內容與人類輸出進行了對比。

從表6的結果中可以看出,與人類能力相比,當前模型還存在顯著差距。

人類在Countdown游戲和旅行規劃任務中分別解決了10個和9個問題,而最好的模型GPT-4o分別只解決了7個和3個問題。

圖片

總體來說,本論文提出的LONGPROC測試基準有效地評估了模型在長程序生成任務方面的表現,是對現有基準的一個補充。

實驗發現,即使是最先進的模型,在生成連貫的長段內容方面仍然有很大的改進空間。

尤其是在要求輸出8k tokens的任務中,參數較大的先進模型也表現不佳,這可能是未來LLM研究的一個非常有意義的方向。

一作是清華校友

這篇論文的一作是本科畢業于清華軟件學院的Xi Ye(葉曦),之后從UT Austin計算機科學系獲得了博士學位。

清華特獎得主Tianyu Gao(高天宇)也有參與這篇論文:

圖片

據一作Xi Ye的個人主頁顯示,他的研究主要集中在自然語言處理領域,重點是提高LLM的可解釋性并增強其推理能力,此外他還從事語義解析和程序綜合的相關工作。

圖片

目前他是普林斯頓大學語言與智能實驗室(PLI)的博士后研究員,還將從 2025 年 7 月開始加入阿爾伯塔大學(University of Alberta)擔任助理教授。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-09-28 15:35:32

AI模型強化學習

2024-06-27 12:45:30

2024-06-28 18:13:05

2024-06-12 11:50:23

2025-06-04 09:05:18

2023-10-25 09:19:00

AI訓練

2025-06-04 13:53:22

代碼模型AI

2023-07-05 09:57:11

2025-06-26 09:09:31

2025-05-26 08:33:00

2022-07-26 09:56:48

模型AI

2024-05-14 11:29:15

2024-05-15 17:34:15

2024-05-20 08:20:00

OpenAI模型

2025-02-18 12:30:00

2023-10-12 12:13:16

AI訓練

2025-04-01 09:25:00

2024-05-27 08:40:00

2024-09-06 13:00:29

2024-07-04 15:26:56

點贊
收藏

51CTO技術棧公眾號

国产成人精品午夜| 亚洲日本欧美中文幕| 日日噜噜夜夜狠狠久久丁香五月| 国产精品人人爽| 国产专区一区| 亚洲欧洲自拍偷拍| 亚洲第一天堂久久| av最新在线| 国产精品久久久久影院| 99九九电视剧免费观看| 国产无遮挡裸体免费视频| 自拍亚洲一区| 欧美一级淫片007| 男女视频网站在线观看| 自拍视频在线网| 成人高清视频在线| 国产在线观看一区二区三区 | 国产剧情一区| 欧美一区二区三级| 91av俱乐部| 欧美78videosex性欧美| 国产精品久久久久影院老司| 久久av一区二区三区亚洲| 亚洲天堂中文字幕在线| 国产日韩专区| 欧美乱大交xxxxx| 久久久久久九九九九九| 亚洲一二av| 在线中文字幕一区二区| 日韩网站在线免费观看| 秋霞a级毛片在线看| 26uuu欧美| 成人91免费视频| 国产精品爽爽久久| 奇米在线7777在线精品| 欧美性视频精品| 久草成人在线视频| 亚洲欧洲美洲一区二区三区| 尤物99国产成人精品视频| 亚洲精品乱码久久久久久蜜桃图片| 久久精品国产福利| 欧美午夜精品理论片a级按摩| 国产av国片精品| 尤物yw193can在线观看| 亚洲女同一区二区| 在线免费观看成人| 日韩免费网站| 国产精品热久久久久夜色精品三区| 蜜桃av久久久亚洲精品| 亚洲欧洲综合在线| 99在线精品视频| 国产精品自拍首页| 性做久久久久久久久久| 国产精品538一区二区在线| 成人黄色影片在线| 一级特黄aa大片| 久久综合综合久久综合| 国产成人福利网站| 精品无码一区二区三区的天堂| 午夜在线a亚洲v天堂网2018| 91av视频在线播放| 久久久国产精品成人免费| 尹人成人综合网| 91国内在线视频| 国产又大又黄视频| 久久综合图片| 国产精品露脸自拍| 国产又粗又黄又爽的视频| 久久电影国产免费久久电影| 91久久国产精品| 国产伦精品一区二区三区免.费| 国产一区视频网站| 97se视频在线观看| 日本美女一级片| 91麻豆高清视频| 视频三区二区一区| 国产原创视频在线观看| 亚洲精品日韩一| 东北少妇不带套对白| 天堂电影一区| 欧美日韩一区久久| 97人人模人人爽人人澡| 日韩精品一区二区三区中文| 亚洲成成品网站| 中文字幕一区二区久久人妻网站 | 日韩精品久久久毛片一区二区| 国产福利在线| 亚洲欧洲另类国产综合| 男人添女人荫蒂免费视频| 老司机2019福利精品视频导航| 在线日韩av片| 免费人成视频在线播放| 麻豆视频一区| 一色桃子一区二区| 久草视频免费在线播放| 老鸭窝91久久精品色噜噜导演| 国产精品入口免费视| 国产情侣激情自拍| 91免费观看国产| 日本特级黄色大片| 欧美男男tv网站在线播放| 欧美日韩色综合| 国产日韩视频一区| 日韩国产欧美| 午夜精品久久久久久久久久久久| 成人h动漫精品一区二区下载| 久久97超碰色| 久久久精彩视频| dj大片免费在线观看| 欧美性猛交xxxxx水多| 中文字幕 日韩 欧美| 欧美大奶一区二区| 久久在线视频在线| av首页在线观看| 成人动漫一区二区三区| 一区二区三区四区欧美日韩| 国产拍在线视频| 欧美一区二区在线不卡| 最近中文字幕免费| 99热在线精品观看| 91在线视频九色| 国产爆初菊在线观看免费视频网站| 亚洲综合激情另类小说区| 一区二区三区欧美精品| 久久av电影| 97精品欧美一区二区三区| 国产精品色综合| 中文av一区二区| 无码人妻丰满熟妇区五十路百度| 一区二区三区亚洲变态调教大结局 | 亚洲人成网77777色在线播放| 欧美精品制服第一页| 国产偷人爽久久久久久老妇app | 国产视频在线观看一区| 国产网友自拍视频导航网站在线观看| 色狠狠桃花综合| jizz欧美性20| 9色精品在线| 国产乱码精品一区二区三区日韩精品| 毛片av在线| 欧美亚洲国产bt| 亚洲熟妇无码av| 国产精品日本欧美一区二区三区| 国产精品视频一区二区三区经| av片在线观看永久免费| 欧美高清激情brazzers| 欧美成人久久久免费播放| 日韩高清一区二区| 日韩欧美亚洲日产国| 色婷婷综合久久久中字幕精品久久| 日韩成人av网址| 国产精品久久久久久久妇| av资源网一区| 日韩av综合在线观看| 亚洲大片精品免费| 欧美怡红院视频一区二区三区| 特黄视频在线观看| 欧美日韩激情视频| 波多野吉衣中文字幕| 久久精品一区| 亚洲一区综合| 国产一区精品二区| 欧美激情视频网站| 人妻少妇精品无码专区| 亚洲va韩国va欧美va精品| 国产性猛交96| 亚洲尤物精选| 日韩wuma| 大胆国模一区二区三区| 久久99久久99精品免观看粉嫩 | 国产手机在线视频| 91麻豆国产精品久久| 久久综合伊人77777麻豆最新章节| 日韩电影免费网站| 99视频在线播放| a在线视频v视频| 亚洲欧洲一区二区三区久久| 国产三级理论片| 亚洲天堂福利av| 国产免费a级片| 美女91精品| 国产精品美女在线播放| jizz18欧美18| 国产脚交av在线一区二区| 国产黄a三级三级三级av在线看| 精品区一区二区| chinese国产精品| 中文字幕日本乱码精品影院| 人妻av一区二区三区| 免费看黄裸体一级大秀欧美| 致1999电视剧免费观看策驰影院| 亚洲日本va| 国产精品久久二区| 欧美日韩经典丝袜| 一本色道久久88综合日韩精品 | 日产精品一区| 欧美成人免费全部| 亚洲人妻一区二区三区| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 少妇人妻丰满做爰xxx| 91片黄在线观看| 在线播放av中文字幕| 国产精品主播| 国内自拍中文字幕| 成人高清电影网站| 国产女人水真多18毛片18精品 | 欧美jizz18hd性欧美| 精品国产91久久久久久久妲己| 欧美三级网站在线观看| 亚洲国产精品久久人人爱| 四虎地址8848| 久久久久高清精品| 日本不卡视频一区| 国产一区二区视频在线播放| 欧美一级片中文字幕| 狠狠入ady亚洲精品| 国产精品av免费| 日韩精品dvd| 久久影视中文粉嫩av| 欧美日韩午夜电影网| 国产精品男女猛烈高潮激情| 日本不良网站在线观看| 欧美激情国产日韩精品一区18| 在线免费观看黄色av| 亚洲欧洲免费视频| 色视频在线看| 精品成人免费观看| 99热这里只有精品9| 欧美三级三级三级爽爽爽| 久久久久久久久久久久久久av| 亚洲精品成a人| 亚洲伦理一区二区三区| 国产欧美一区二区三区鸳鸯浴| 久久久国产精品无码| 成人免费视频视频在线观看免费| 九九热视频免费| 激情六月婷婷久久| 伊人成人222| 免费黄网站欧美| 簧片在线免费看| 天堂在线一区二区| 国产精品无码专区av在线播放| 亚洲免费综合| 日韩av资源在线| 噜噜噜久久亚洲精品国产品小说| 日韩在线视频在线观看| 亚洲永久视频| 蜜臀av午夜一区二区三区| 亚洲一卡久久| av免费在线播放网站| 性欧美xxxx大乳国产app| 国产精品一区二区免费在线观看| 亚洲高清久久| 欧美在线观看www| 午夜在线视频观看日韩17c| 人妻有码中文字幕| 日韩精品成人一区二区三区| 自拍偷拍 国产| 免费成人在线观看视频| 天堂av8在线| 国产精品一级片在线观看| 香蕉久久久久久av成人| av在线播放一区二区三区| 精品国产av色一区二区深夜久久| 91亚洲资源网| 波多野结衣一二三四区| 综合久久国产九一剧情麻豆| 看片网站在线观看| 污片在线观看一区二区| 欧美 日韩 精品| 欧洲视频一区二区| 国产精品久久影视| 欧美va亚洲va在线观看蝴蝶网| 天堂在线观看免费视频| 亚洲全黄一级网站| 激情影院在线观看| 久久免费视频在线观看| 成人免费短视频| 国产在线日韩在线| www国产精品| 欧美激情导航| 性欧美欧美巨大69| 久久综合久久网| 丝袜美腿亚洲一区| www.成人黄色| 99免费精品在线| 日韩精品久久久久久久的张开腿让| 一区二区三区中文在线| 探花视频在线观看| 欧美精品一卡两卡| 欧美 日韩 国产 成人 在线| 夜夜嗨av一区二区三区免费区| 亚洲综合伊人久久大杳蕉| 97人人爽人人喊人人模波多| 国产精品原创视频| 国产日产精品一区二区三区四区| 成人在线亚洲| 老太脱裤让老头玩ⅹxxxx| 麻豆精品蜜桃视频网站| 国产福利在线观看视频| 日韩毛片高清在线播放| 99久在线精品99re8热| 91精品久久久久久久久99蜜臂| 午夜福利一区二区三区| 啊v视频在线一区二区三区| 欧美aa在线观看| 91福利视频导航| jizzjizz欧美69巨大| 日韩中文字幕在线免费| 国产做a爰片久久毛片| 黑人巨大精品欧美| 亚洲影院久久精品| 一区二区三区www污污污网站| 日韩精品高清在线观看| 哥也色在线视频| 国产精品久久久久久久久免费看 | 久久电影网站中文字幕| 右手影院亚洲欧美| 亚洲国产综合人成综合网站| 国产又粗又长视频| 在线不卡国产精品| 亚洲欧洲日本韩国| 国产日韩在线一区二区三区| 一区二区三区网站| 日韩成人av免费| 国产精品麻豆欧美日韩ww| 欧美亚洲另类小说| 亚洲欧洲日产国产网站| 亚洲美女炮图| 精品中文字幕一区| 影音先锋久久| 91人人澡人人爽| 亚洲蜜臀av乱码久久精品蜜桃| 在线观看你懂的网站| 亚洲欧洲黄色网| 午夜日韩成人影院| 欧美色图亚洲自拍| 国产精品久久国产愉拍| 好男人香蕉影院| 亚洲18色成人| 蜜桃av噜噜一区二区三区麻豆| 欧美猛交ⅹxxx乱大交视频| 精品久久国产一区| 国产一区一区三区| 韩国v欧美v日本v亚洲v| 永久看片925tv| 91精品免费观看| 色网在线观看| 国产精品区一区二区三在线播放| 国产一区二区中文| 色综合久久五月| 欧美性猛交xxxx免费看漫画 | 日韩中文字幕视频在线观看| 粉嫩91精品久久久久久久99蜜桃| 日韩电影免费观看在| 日韩av电影天堂| 天天舔天天操天天干| 欧美日韩国产高清一区二区 | 91av成人在线| 亚洲国产精品嫩草影院久久av| 成年网站在线免费观看| 国产午夜精品一区二区三区嫩草 | 欧美tickling网站挠脚心| 欧美人与禽性xxxxx杂性| 国产欧美日韩综合一区在线观看| 亚洲精品四区| 日本一级免费视频| 欧美日韩国产首页| 色yeye免费人成网站在线观看| 不卡视频一区二区三区| 亚洲久久一区| 欧美特级黄色录像| 欧美高清激情brazzers| wwwww亚洲| 日韩福利一区二区三区| 国产一区二区美女诱惑| 日韩av女优在线观看| 亚洲人成电影网站| 成人污版视频| 欧美一级视频免费看| 国产亚洲短视频| 999久久久久久| 欧美性视频网站| 91精品国产福利在线观看麻豆| 日本一区二区在线观看视频| 日韩欧美成人区| 超碰个人在线| 蜜桃在线一区二区三区精品| 久久精品国产一区二区| 久久久久久国产精品免费播放| 亚洲精品小视频| 国产亚洲久久| 国产无套粉嫩白浆内谢的出处| 国产精品久久久久久久裸模| 亚洲黄色在线免费观看| 国产成人在线精品| 精品av久久久久电影| 青青青视频在线播放| 日韩国产在线看| 日本成人精品|