基準測試揭秘大模型“字數(shù)危機”：26個模型長文本生成普遍拉胯，最大輸出長度過度宣傳

2025-05-30 09:10:00

論文提出了 LIFEBENCH，用于評估大型語言模型（LLMs）在多種任務(wù)、語言和長度限制下遵循長度指令的能力。

你是否曾對大語言模型（LLMs）下達過明確的“長度指令”？

比如，“寫一篇10,000字的長文，詳細分析某個議題。”看似簡單的要求，實際卻往往讓這些模型“力不從心”：

不是生成內(nèi)容不足，就是重復啰嗦，甚至直接罷工拒絕生成。

一篇最新研究論文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》對這一問題進行了深入探討，提出了一個全新的基準測試集 LIFEBENCH，系統(tǒng)評估大語言模型在長度指令遵循方面的表現(xiàn)。

研究結(jié)果揭示：這些看似無所不能的模型在長度指令，特別是長文本生成任務(wù)中，表現(xiàn)不盡人意。當模型被明確要求生成特定長度的文本時，大多數(shù)模型表現(xiàn)糟糕。

接下來，讓我們一起來看看這篇論文是如何揭示這些“瓶頸”的！

LIFEBENCH：專注長度指令遵循的基準測試

LIFEBENCH，全稱“Length Instruction Following Evaluation Benchmark”，是一套專門評估大語言模型在長度指令下表現(xiàn)的測試集。它不僅覆蓋了從短篇到長文的多種長度范圍，還囊括了多種任務(wù)類型和語言，全面揭示了大模型在長度控制上的能力邊界。

LIFEBENCH的三大核心特性：

數(shù)據(jù)集的多樣性

為了測試模型的全方位能力，LIFEBENCH設(shè)計了多維度的數(shù)據(jù)集：

任務(wù)多樣性：涵蓋四類自然語言生成（NLG）任務(wù)，包括問答、摘要、推理和創(chuàng)意生成，以全面評估模型的長度指令遵循能力。
長短結(jié)合的輸入場景：測試數(shù)據(jù)既包含短輸入（<2000字），也包含長輸入（>2000字），以評估模型在不同輸入規(guī)模下的表現(xiàn)。
雙語支持：同時支持中文和英文任務(wù)，分別從獨立數(shù)據(jù)集中構(gòu)建，以便分析模型是否存在語言偏差。

全面的長度范圍與指令類型

LIFEBENCH是首個系統(tǒng)性評估模型長度指令遵循能力的基準測試，它設(shè)計了三種常見的長度控制方法：

等于（Equal To）：生成長度必須等于目標長度。
不超過（At Most）：生成長度不得超過目標長度。
至少（At Least）：生成長度必須達到目標長度。

同時，長度輸出范圍覆蓋從短文本（<100字）、中等長度（100–2000字）到長文本（>2000字）的任務(wù)，評測的全面性遠超以往研究。

創(chuàng)新的評測指標

為了更精準地分析模型的表現(xiàn)，LIFEBENCH提出了兩項專門指標：長度偏差（Length Deviation, LD）：衡量生成文本長度與目標長度之間的差異，包括偏差方向和偏差幅度。

長度評分（Length Score, LS）：綜合評價模型對長度指令的遵循能力，量化偏差的整體影響。

相較于簡單的字數(shù)匹配，這兩項指標提供了更細致的分析維度。

通過上述設(shè)計，LIFEBENCH不僅覆蓋了現(xiàn)有研究中涉及的所有長度指令評測范圍，還首次系統(tǒng)性探索了模型在不同任務(wù)、語言和長度限制下的表現(xiàn)。

實驗結(jié)果：大語言模型的“長度危機”

研究團隊對26個主流大語言模型進行了評測，結(jié)果揭示了它們在長度指令遵循上的重大不足，尤其是在長文本生成場景下。以下是一些關(guān)鍵發(fā)現(xiàn)：

1. 總體表現(xiàn)：長度指令“等于”最難達標

當模型被明確要求生成特定長度的文本時，大多數(shù)模型表現(xiàn)糟糕。

在26個模型中，有23個模型的長度評分（LS）低于60分，只有少數(shù)模型（如o3-mini、Claude-Sonnet-Thinking和Gemini-2.5-Pro）勉強達到了75.4分、61.3分和60分。

在“不超過”（At Most）和“至少”（At Least）指令下，由于限制更寬松，模型表現(xiàn)顯著改善。其中，有19個模型在“不超過”指令下的長度評分超過90分，而“至少”指令下也有6個模型表現(xiàn)優(yōu)異。

2. 長文本生成：模型普遍“拉胯”

大多數(shù)模型在短文本限制下表現(xiàn)穩(wěn)定，如o3-mini和Gemini-2.5-Pro分別獲得了80分和70分以上的長度評分。隨著長度限制增加，模型的表現(xiàn)開始下降。雖然o3-mini依然保持了較強的穩(wěn)定性（評分>70），但Gemini-2.5-Pro的評分從81分驟降至37分。

在長文本生成任務(wù)中，所有模型的長度評分均顯著下降，普遍低于40分，長文本生成成為模型的最大挑戰(zhàn)。

3. 輸入特性：任務(wù)與語言的雙重影響

模型在不同任務(wù)中的表現(xiàn)差異顯著。摘要任務(wù)的長度評分最低，有19個模型在這一任務(wù)中的表現(xiàn)顯著下降，創(chuàng)意生成任務(wù)的評分則最高，14個模型表現(xiàn)優(yōu)異。

幾乎所有模型在中文任務(wù)中的表現(xiàn)均劣于英文任務(wù)。此外，模型在處理中文指令時，出現(xiàn)了明顯的“過度生成”現(xiàn)象，可能反映了模型對中文數(shù)據(jù)的處理能力不足。

模型“過度宣傳”了它們的最大輸出長度

當面對極限長度指令時（比如“至少生成32,768字”），大部分大語言模型的表現(xiàn)堪稱“言過其實”。它們的宣傳似乎暗示自己是“長篇巨制大師”，但實際生成結(jié)果卻經(jīng)常讓人失望。研究發(fā)現(xiàn)：

1. 僅少數(shù)模型達標

在26個模型中，只有Claude系列和Qwen系列的7個模型能在其10%最長輸出中勉強符合長度要求。如果將目標放寬到25%最長輸出，情況依然不樂觀——只有Qwen2.5-72B-Instruct和Qwen3-235B-A22B達到了設(shè)定的長度要求。這些模型雖然聲明的最大輸出長度較其他模型“低調(diào)”許多，但恰恰因為如此，它們的表現(xiàn)更接近實際能力，算得上“務(wù)實派”。

2. 大部分模型表現(xiàn)不符預期

其他模型則頗具“宣傳藝術(shù)”。除Gemini-2.0-Flash和部分Qwen系列模型因最大token限制受限外，其余模型的表現(xiàn)遠低于它們聲稱的“最大輸出能力”。換句話說，這些模型的不足并不是因為無法達到技術(shù)上限，而是生成能力本身存在局限性。

有些模型在宣傳時或許給人一種“我可以寫出戰(zhàn)爭與和平”的錯覺，但實際上，生成一篇“長篇朋友圈”都可能顯得力不從心。

模型遵循長度指令的三大“瓶頸”

基于上面的實驗結(jié)果，論文深入分析了這個問題，總結(jié)出以下三大核心瓶頸：

1. 缺乏準確的長度感知能力

很多模型在“理解”目標長度上顯得模糊不清：短輸出任務(wù)時高估長度：目標是100字，模型可能“熱情過度”寫到150字。而長輸出任務(wù)時反而低估長度：目標是5000字，模型卻生成3000字，仿佛在說“這么長，夠用了吧？”，除此之外模型還有假遵循現(xiàn)象：有些模型生成后自信滿滿地“認為自己已經(jīng)完成了任務(wù)”，但實際結(jié)果卻大相徑庭：這種現(xiàn)象表明，模型更像是在“自我感覺良好”，而非真正理解并執(zhí)行了指令。

2. 對輸入長度的敏感性

輸入文本的長度對模型的表現(xiàn)影響很大，當輸入過長時，模型就有些“暈頭轉(zhuǎn)向”了，特別是在長輸入場景（>5000字）中。

這也解釋了為什么摘要任務(wù)尤為糟糕：面對長篇輸入時，模型不僅難以提取關(guān)鍵內(nèi)容，還會生成過短或過長的內(nèi)容，嚴重偏離指令要求。可以說，輸入越長，模型越容易“迷失在海量信息中”。

3. 懶惰生成策略

當面臨復雜的長文本任務(wù)時，許多模型選擇了“偷懶”：

提前終止：有些模型會在未完成任務(wù)的情況下突然“省略”后續(xù)部分，例如直接插入提示“（接下來還有6000字）”，仿佛在暗示“我知道還沒寫完，但后面的就不寫了”。

拒絕生成：在遇到超長的任務(wù)時，一些模型會直接選擇放棄，例如明確表示“你的要求長度已經(jīng)超過了我的能力極限，無法完成”。這種情況下，模型既沒有嘗試生成部分內(nèi)容，也沒有提供替代方案，而是干脆拒絕執(zhí)行指令。

研究發(fā)現(xiàn)，當目標長度超過8192字時，拒絕生成的比例顯著上升，所有模型中平均超過10%因這種懶惰策略而失敗。顯然，越復雜的任務(wù)，模型越傾向于“放棄治療”。

除了上面的三個瓶頸，有一些模型也嘗試解決這個問題：

4. 動態(tài)校準的局限性：一場“低效的修補”

為了糾正長度偏差，一些推理模型嘗試了動態(tài)校準：

他們會在推理過程總生成初稿后逐字統(tǒng)計輸出長度，發(fā)現(xiàn)長度不符時選擇重新生成，如此往復，直至接近目標長度。

雖然這個方法在短文本任務(wù)中相對有效，但是耗時耗力，因為動態(tài)校準需要耗費大量計算資源和生成token，大幅增加時間成本。而且動態(tài)校準在長文本場景中就會失效：由于校準過程過于低效，模型無法在長文本任務(wù)中維持相似的策略，最終還是無法完成指定長度的內(nèi)容。

換句話說，動態(tài)校準看似“聰明”，但面對長文本時，最終還是成了一場“得不償失”的努力。

從三大“瓶頸”到動態(tài)校準的局限性，我們可以看到：大語言模型在長度指令遵循上的表現(xiàn)還有很多不足。要讓這些模型真正“聽話”，需要在感知能力、信息處理能力和生成策略上進行全面優(yōu)化。

深挖模型長度指令遵循的隱藏問題

通過更深入的分析，研究揭示了一些隱藏在模型長度指令遵循能力背后的有趣現(xiàn)象和改進可能。以下是關(guān)鍵發(fā)現(xiàn)：

1. 長文本生成質(zhì)量的“起伏之路”

模型在不同長度限制下的表現(xiàn)如同一條“起伏的曲線”：

短文本（512字）：“還行”：生成質(zhì)量較高。

中等長度（1024–2048字）：“巔峰表現(xiàn)”：大多數(shù)模型在這個區(qū)間表現(xiàn)最好，輸出邏輯清晰，內(nèi)容質(zhì)量穩(wěn)定。

長文本（4096–8192字）：“質(zhì)量滑坡”：許多模型在此階段開始掉鏈子，生成內(nèi)容重復甚至拒絕生成。例如，有些模型會在生成到一半時插入“（接下來還有6000字）”，直接“擺爛”。

少數(shù)模型（如Claude-3.7-Sonnet）在超長文本上偶爾“逆風翻盤”，但這類情況較為罕見。大多數(shù)模型的長文本內(nèi)容，質(zhì)量隨長度增加而顯著下降，重復問題尤為突出。

2. 格式化輸出的“疊加挑戰(zhàn)”

在要求遵循長度指令的同時，還需要生成特定格式（如Markdown、HTML或LaTeX）時，模型的表現(xiàn)進一步惡化，復雜格式讓模型“抓狂”：格式越復雜，模型越容易出錯，甚至格式和內(nèi)容雙雙崩潰。

長文本中的額外壓力：在8192字限制下，生成一篇帶復雜格式的文檔對模型來說幾乎是“地獄難度”。生成的內(nèi)容不僅格式錯誤，甚至可能中途放棄，輸出一堆不完整的內(nèi)容片段。

3. EoS信號的“提前規(guī)劃”

在長文本生成任務(wù)中，EoS（End of Sequence，生成結(jié)束信號） token的異常行為揭示出一些有趣的現(xiàn)象：

短文本時表現(xiàn)乖巧：在2000字以下的限制下，模型的EoS預測較為正常，生成內(nèi)容完整且符合目標要求，EoS信號通常在內(nèi)容接近目標長度時觸發(fā)。

長文本時“提前規(guī)劃”傾向：當目標長度達到4096或8192字時，模型的行為變得耐人尋味——它似乎在生成開始前就“打好了自己的算盤”。EoS信號的觸發(fā)概率一開始就顯著升高，導致生成的內(nèi)容遠遠少于目標長度，甚至僅生成寥寥數(shù)百字便戛然而止。這種現(xiàn)象表明，模型在生成之前可能已經(jīng)“規(guī)劃”好了要寫多少，而不是在生成過程中逐步調(diào)整。

這種提前終止的行為可能源于模型在長文本生成中的不確定性或自我限制，反映了其對任務(wù)長度的規(guī)劃能力仍存在局限性。模型在面對超長文本指令時，可能會傾向于“保守估計”，提前結(jié)束生成以避免過度消耗計算資源或偏離任務(wù)要求。

4. 預訓練與后訓練的“雙管齊下”

模型在長文本生成中的不足，既源于預訓練的限制，也可以通過后訓練優(yōu)化：

預訓練的“偷懶基因”：由于預訓練階段長文本數(shù)據(jù)覆蓋不足，模型可能學到了一些“偷懶策略”，比如提前終止或拒絕回答，以規(guī)避長文本中的復雜邏輯和連貫性問題。

后訓練的“預規(guī)劃策略”：后訓練提供了改進的機會。通過讓模型在生成前先規(guī)劃整體結(jié)構(gòu)或章節(jié)大綱，生成內(nèi)容更貼合長度要求，邏輯也更加清晰。例如，模型可以先生成“目錄”，再逐步填充內(nèi)容。這種方法顯著提升了長文本的質(zhì)量，且讓模型對長度指令的遵循更為精準。

從生成質(zhì)量的“起伏之路”到復雜格式的雙重挑戰(zhàn)，再到EoS信號的“提前規(guī)劃”，這些隱藏的現(xiàn)象揭示了模型長度指令遵循能力的深層次不足。不過，通過擴充預訓練數(shù)據(jù)和引入預規(guī)劃策略，未來的模型完全有希望實現(xiàn)“字夠了，內(nèi)容也對了”。

總結(jié)

論文提出了 LIFEBENCH，用于評估大型語言模型（LLMs）在多種任務(wù)、語言和長度限制下遵循長度指令的能力。

分析表明，當前 LLMs 在長度指令執(zhí)行上仍存在顯著問題，尤其在長文本限制下，生成長度常低于聲稱的能力范圍，甚至表現(xiàn)出“提前結(jié)束””的傾向。模型表現(xiàn)還受到任務(wù)類型、語言和輸入長度等因素的顯著影響。

這些發(fā)現(xiàn)揭示了 LLMs 在長度指令遵循上的關(guān)鍵短板，表明未來需要更優(yōu)的訓練策略，以及更全面的評估體系，來提升其對長度指令的執(zhí)行能力和實際表現(xiàn)。

github倉庫: https://github.com/LIFEBench/LIFEBench

huggingface鏈接: https://huggingface.co/datasets/LIFEBench/LIFEBench

論文地址: https://arxiv.org/abs/2505.16234

責任編輯：張燕妮來源：量子位

模型論文 AI