R-HORIZON：長程推理時代來臨，復旦NLP&美團LongCat重磅發(fā)布LRMs能力邊界探測新范式

2025-10-23 09:10:39

復旦大學與美團 LongCat Team?聯(lián)合推出 R-HORIZON—— 首個系統(tǒng)性評估與增強 LRMs 長鏈推理能力的方法與基準。

陸毅，復旦大學自然語言處理實驗室碩士生，在 ACL、EMNLP、COLM、NeurIPS 等頂會發(fā)表論文十余篇，LongCat Team 核心成員，研究方向為大模型的復雜推理和長序列建模，指導老師為桂韜老師。

郭林森，碩士畢業(yè)于東南大學，在 NAACL、EMNLP、Recsys 等會議發(fā)表論文多篇，目前就職于美團，LongCat Team 核心成員，研究方向為大模型評測與數(shù)據(jù)價值挖掘。

王嘉寧，獲得華東師范大學博士學位，曾前往 UCSD 訪問學習，在 ACL、EMNLP、AAAI、ICLR 等頂會發(fā)表論文數(shù)十篇，目前就職于美團，LongCat Team 核心成員，研究方向為大模型訓練與復雜推理。

研究背景：從「單步推理」到「長鏈決策」

OpenAI o1、DeepSeek-R1 等大型推理模型（LRMs）的出現(xiàn)，標志著 AI 推理能力進入了「測試時擴展」的新紀元。通過長鏈推理 Long Chain-of-Thought（CoT），這些模型在數(shù)學推理、代碼生成、智能體任務等領域取得了令人矚目的突破。

然而，當前的訓練與評測范式存在一個根本性的局限：幾乎所有主流 Benchmark（如 MATH500、AIME）都聚焦于孤立的單步問題，問題之間相互獨立，模型只需「回答一個問題，然后結(jié)束」。但真實世界的推理場景往往截然不同：

一個軟件工程師需要連續(xù)調(diào)試多個相互依賴的代碼模塊
一個數(shù)學研究者需要基于前序定理推導后續(xù)結(jié)論
一個智能助手需要在多輪對話中逐步完成復雜任務規(guī)劃

這些場景要求模型具備跨問題的長鏈推理能力 —— 不僅要解決單個問題，還要在多個相互關聯(lián)的子問題間維持推理連貫性、合理分配思考資源、進行跨步驟的反思與糾錯。

這引出了一個核心問題：大型推理模型的長鏈推理能力邊界究竟在哪里？

現(xiàn)有評測無法回答這個問題，傳統(tǒng)訓練數(shù)據(jù)也無法培養(yǎng)這種能力（如圖所示，模型在長程推理場景下性能下降嚴重）。

R1 系列模型在長程推理場景下理論準確率和實際準確率的差異

為填補這一空白，復旦大學與美團 LongCat Team 聯(lián)合推出 R-HORIZON—— 首個系統(tǒng)性評估與增強 LRMs 長鏈推理能力的方法與基準。

論文標題： R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
論文地址： https://arxiv.org/abs/2510.08189
項目主頁： https://reasoning-horizon.github.io
代碼地址： https://github.com/meituan-longcat/R-HORIZON
數(shù)據(jù)集： https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

R-HORIZON：揭開推理模型「能力地平線」

核心創(chuàng)新：Query Composition 方法

R-HORIZON 提出了一種簡潔而強大的問題組合（Query Composition）方法，通過建立問題間的依賴關系，將孤立任務轉(zhuǎn)化為復雜的多步驟推理場景。

以數(shù)學任務為例：

1. 提取關鍵信息：從多個獨立問題中提取核心數(shù)值、變量等信息

2. 建立依賴關系：將前一個問題的答案嵌入到后一個問題的條件中

3. 形成推理鏈：模型必須按順序正確解決所有問題才能得到最終答案

這種方法具有三大優(yōu)勢：

可擴展性：可靈活控制推理鏈長度（n=2, 4, 8...）
可控性：可靈活設定問題間的依賴關系
低成本：基于現(xiàn)有數(shù)據(jù)集即可構(gòu)建，無需額外標注

基于這一方法，我們構(gòu)建了長鏈推理的評測基準 R-HORIZON Benchmark，用于系統(tǒng)性評估 LRMs 在多步推理場景下的真實能力；同時，我們還構(gòu)建了長鏈推理的訓練數(shù)據(jù)，通過強化學習（RLVR）訓練來提升模型的長鏈推理能力。

R-HORIZON 方法示意圖 —— 從單一問題到復雜推理鏈的轉(zhuǎn)化過程以及 R-HORIZON 的應用場景

R-HORIZON Benchmark：全面的長鏈推理評測基準

基于 Query Composition 方法，我們構(gòu)建了 R-HORIZON Benchmark，涵蓋 6 大代表性數(shù)據(jù)集：

核心發(fā)現(xiàn)：頂級模型的「推理斷崖」

我們評測了 20+ 個主流 LRMs（包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等頂級商業(yè)模型以及開源模型），結(jié)果揭示了一個令人震驚的現(xiàn)象：即使是最先進的模型，在長鏈推理場景下也會出現(xiàn)性能斷崖式下降。

關鍵發(fā)現(xiàn)：

普遍性能衰退：所有模型隨著問題數(shù)量增加都出現(xiàn)顯著性能下降。DeepSeek-R1 在 AIME25 單問題場景下準確率達 87.3%，但在 5 個組合問題場景下暴跌至 24.6%
模型規(guī)模影響：更大的模型對多步推理挑戰(zhàn)展現(xiàn)出更強的韌性
任務依賴性衰退：代碼生成任務相比數(shù)學任務表現(xiàn)出更陡峭的性能下降；許多推理模型在網(wǎng)頁搜索場景中失去了工具調(diào)用能力

R-HORIZON Benchmark 評測結(jié)果 —— 所有模型均出現(xiàn)顯著性能衰退

深度分析：推理模型的三大瓶頸

為了理解性能斷崖背后的原因，我們進行了深入的機制分析，發(fā)現(xiàn)當前 LRMs 存在三個關鍵瓶頸：

1. 有效推理長度受限

隨著相互依賴問題數(shù)量的增加，LRMs 難以維持其性能。實際準確率與理論準確率之間的差距顯著擴大，表明模型無法在更長的推理范圍內(nèi)保持原有性能。

深入分析發(fā)現(xiàn)：

模型錯誤穩(wěn)定在特定的上下文范圍內(nèi)
7B 模型的主要錯誤范圍在 (4-6K tokens)
32B 模型將范圍擴展到 (8-10K tokens)
這表明更大的模型擁有更長的有效推理邊界

R1-Qwen-7B 和 R1-Qwen-32B 在準確率和錯誤位置上的分析

2. 反思機制高度局部化

我們分析了模型的「反思」行為，發(fā)現(xiàn)：

模型的反思頻率隨著問題數(shù)量增加而上升并趨于收斂
超過半數(shù)的復雜任務完全缺乏長程反思（跨越當前問題的反思）
這表明當前 LRMs 的反思機制高度局部化，不足以支撐長鏈場景

MATH500 數(shù)據(jù)集上的反思行為分析

3. 思考預算分配失衡

最令人意外的發(fā)現(xiàn)是：包括 DeepSeek-R1 在內(nèi)的主流 LRMs 都無法有效地在推理范圍內(nèi)分配思考預算。

模型傾向于過度分配 tokens 給早期推理階段
未能合理地將資源分配給后續(xù)的關鍵問題
這種失衡嚴重影響了整體推理鏈的完成質(zhì)量

不同組合問題數(shù)量下各模型的思考預算分配

R-HORIZON 訓練：重塑推理模型的能力邊界

發(fā)現(xiàn)問題只是第一步，我們進一步探索：能否通過使用組合數(shù)據(jù)進行強化學習訓練來突破這些瓶頸？

RLVR with R-HORIZON：用長鏈數(shù)據(jù)訓練推理模型

我們使用 R-HORIZON 構(gòu)建的長鏈推理數(shù)據(jù)并使用 GRPO 算法進行訓練，訓練策略：

基于主流 RLVR 算法 GRPO 進行訓練
使用 R-HORIZON 組合數(shù)據(jù)（n=2, n=4）
設計不同的獎勵函數(shù)進行對比實驗

突破性成果：雙重性能提升

實驗結(jié)果令人振奮：R-HORIZON 訓練不僅顯著提升長鏈任務表現(xiàn)，連單問題性能也大幅增強。

加粗數(shù)字表示該列最佳成績

不同訓練配置下的性能對比。"Origin" 表示單問題場景，"n=X" 表示 X 個組合問題場景，"Multi" 表示多問題場景的平均性能

關鍵發(fā)現(xiàn)：

1. 雙重性能提升：使用 n=2 組合問題訓練，不僅大幅提升多步推理性能（AIME24 n=2 +17.4 分），單問題性能也顯著增強（AIME24 單題 +7.5 分）

2. 可擴展復雜度：增加組合復雜度（n=4）增強了模型處理需要更多推理步驟問題的能力，在 MATH500 (n=8) 上達到 50.6%

訓練帶來的質(zhì)變

R-HORIZON 訓練不僅提升了性能數(shù)字，更帶來了推理機制的深層改變：

更高效的推理長度：訓練顯著改善了模型在組合任務上的性能，展現(xiàn)出更好的泛化到更長推理鏈的能力，同時緩解了「overthinking」現(xiàn)象（生成更短、更高效的回答）。
更合理的預算分配：模型學會了在多步問題中進行更合理的 token 預算分配，不再「重頭輕尾」。
更長程的反思能力：R-HORIZON 促進了模型進行更長程反思的頻率增加，直接改善了長鏈推理性能。

圖：使用標準數(shù)據(jù)集和組合數(shù)據(jù)集進行強化學習的效果分析

結(jié)論與展望：開啟長鏈推理新紀元

R-HORIZON 的推出，標志著大型推理模型研究進入了一個新的階段 —— 從「能解決什么問題」到「能走多遠」的范式轉(zhuǎn)變。

技術(shù)貢獻

首個長鏈推理評測基準：系統(tǒng)性揭示了 LRMs 的能力邊界，包括有效推理長度、反思范圍和思考預算分配的局限性
可擴展訓練范式：提供了低成本、高效率的能力提升路徑，通過 Query Composition 方法實現(xiàn)可控的長鏈推理數(shù)據(jù)構(gòu)建
深度機制分析：為未來的推理模型指明了改進方向，揭示了當前模型在長鏈推理中的三大瓶頸

開放生態(tài)

R-HORIZON 框架已全面開源，包括：

完整評測代碼與 Benchmark 數(shù)據(jù)
訓練數(shù)據(jù)和訓練代碼
數(shù)據(jù)構(gòu)建流程
詳細文檔與使用教程

期待與全球研究者攜手，共同推動下一代推理模型的發(fā)展，讓人工智能在現(xiàn)實世界中展現(xiàn)出更卓越的長鏈推理能力。

責任編輯：張燕妮來源：機器之心

AI 模型推理