利用LLM做論文review到哪一步了？來看看DeepReview吧！

發(fā)布于 2025-3-14 00:48

瀏覽

0收藏

今天分享一篇西湖大學(xué)張岳老師的一篇利用合成推理數(shù)據(jù)做論文評審文章，Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process：通過合成類人深度思考過程改進基于LLM的論文評審效果。

這篇文章探索了如何利用大型語言模型（LLM）來改進論文評審過程，提出了一個多階段框架DeepReview，通過結(jié)合結(jié)構(gòu)化分析、文獻檢索和基于證據(jù)的論證，模擬專家評審員的深度思考過程，從而提高LLM在論文評審中的可靠性。

該方法分為三個階段：1）新穎性驗證：通過文獻檢索評估研究的原創(chuàng)性。2）多維度評估：綜合多個專家意見。3）可靠性驗證：檢查內(nèi)部一致性和邏輯連貫性。

該方法特點總結(jié)如下：1）提出了DeepReview-13K，一個帶有結(jié)構(gòu)化注釋的精選數(shù)據(jù)集，用于訓(xùn)練模型。2）訓(xùn)練了DeepReviewer-14B模型，在評估中優(yōu)于CycleReviewer-70B。3）模型提供了三種推理模式（快速、標(biāo)準(zhǔn)和最佳），允許用戶在效率和響應(yīng)質(zhì)量之間進行平衡。

一、概述

?Title:DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process

?URL:arXiv:2503.08569v1

?Authors:Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang

?Code:zhu-minjun/Researcher

?Homepage:ai-researcher.net

?Demo:ai-researcher.net/deepreviewer

1.Motivation

? 現(xiàn)有的基于LLM的論文評審系統(tǒng)存在包括領(lǐng)域?qū)I(yè)知識有限、推理錯誤和缺乏結(jié)構(gòu)化評估等缺陷。

?同時缺乏能夠捕捉細(xì)粒度專家評估過程的結(jié)構(gòu)化論文評審數(shù)據(jù)集。

2.Methods

DeepReview 數(shù)據(jù)收集與構(gòu)建（Data Collection）：

![image-20220313103359178](/Users/huxiang/Library/Application Support/typora-user-images/image-20220313103359178.png)

??步驟??：

從 OpenReview 平臺收集原始數(shù)據(jù)，包括 ICLR 2024 和 2025 的投稿論文。
使用 MinerU 工具將論文轉(zhuǎn)換為可解析的 Markdown 格式。
為每篇論文構(gòu)建評審集 R，包括文本評估(Strengths, Weaknesses, and Questions)、互動討論（rebuttal）和標(biāo)準(zhǔn)化評分（overall ratings (∈ [1, 10]) and fine-grained evaluations of Soundness, Presentation, and Contribution (∈ [1, 4])）。
收集元評審文本（meta-review texts）和最終評分以及decisions（接受/拒絕）。
最終的 DeepReview-13K 數(shù)據(jù)集包含 13,378 個有效樣本。

DeepReview 長推理數(shù)據(jù)合成方法：基于已有openreview的數(shù)據(jù)合成推理數(shù)據(jù)訓(xùn)練模型

結(jié)合檢索、rank、自我驗證和自我反思等方法，開發(fā)了一個paper review的數(shù)據(jù)合成流程，該流程確保 LLM 生成建議的可靠性和魯棒性。該框架主要分為以下幾個方面來模擬專家評審過程：

利用LLM做論文review到哪一步了？來看看DeepReview吧！-AI.x社區(qū)

最終一個完整的review example如下：

利用LLM做論文review到哪一步了？來看看DeepReview吧！-AI.x社區(qū)

合成數(shù)據(jù)的流程如下：

1）新穎性評估（Novelty Verification）：通過檢索文獻評估研究的新穎性并給出分析報告。

? 使用 Qwen-2.5-72B-Instruct 模型生成三個關(guān)鍵研究問題（questions, focusing on research gaps, innovative directions, and methodological breakthroughs to capture domain-specific characteristics）。

? 使用 Gemini-2.0-Flash-thinking 模型進行系統(tǒng)論文分析（research motivation, core ideas, technical approaches, and experimental design）。

? 使用 OpenScholar 進行文獻檢索、比較和總結(jié)。（literature retrieval, comparison, and summary base on OpenScholar）

? 使用 Qwen-2.5-3B-Instruct 和few-shot learning將問題轉(zhuǎn)換為搜索關(guān)鍵詞（Semantic Scholar API）。

? 使用 ReRank 模型對檢索到的論文進行重新排序（top 10 most relevant papers）。

? 使用內(nèi)部 QA 模型生成綜合報告作為新穎性分析（Llama-3.1_OpenScholar-8B）。

? 可能存在的問題：得按之前論文的發(fā)表時間來檢索才對吧？否則有新論文進來會影響novelty的分?jǐn)?shù)。不知道作者有沒有考慮到！

2）多維度評估標(biāo)準(zhǔn)（Multi-dimensional Review）：將rebuttals合成multiple review報告。

? 使用 Qwen-2.5-72B-Instruct 開發(fā)評審重構(gòu)流程（從rebuttal中提取experimental results, theoretical proofs, and implementation details）。

? 分析 R 中的每個評審及其對應(yīng)的作者回復(fù)。

? 將批評轉(zhuǎn)化為具體的技術(shù)建議。

3）可靠性驗證（Reliability Verification）：從原文找到證據(jù)，并給出confidence level（檢查assessment內(nèi)部一致性和邏輯連貫性）。

? 使用 Gemini-2.Flash-thinking 進行系統(tǒng)證據(jù)分析。總共需要通過四階段驗證鏈進行：方法驗證、實驗驗證和綜合分析（methodology verification, experimental verification, and comprehensive analysis）。每個評審意見都需要論文中的支持證據(jù)和置信度。

? 最終使用 Qwen 生成新的meta review（依據(jù)original Meta-Review, reviewer comments, and verification outcomes）。

4）質(zhì)量控制機制（Quality Control Mechanism）：

? 使用 Qwen-2.5-72B-Instruct 堅持最終推理鏈的嚴(yán)謹(jǐn)性。

? 評估每個生成樣本的邏輯完整性（z1, z2, z3）和完備性。

? 檢查邏輯一致性和完整性。

訓(xùn)練模型并測試：

1）模型訓(xùn)練(Model Training)

? 基于Phi-4 14B模型, 使用DeepReview-13K的數(shù)據(jù)集進行訓(xùn)練.

? 在8x H100 80G GPUs上使用DeepSpeed + ZeRO3優(yōu)化。

? 使用LongRoPE將上下文窗口擴展到256K,訓(xùn)練期間使用40K的上下文窗口。

? 使用23,500步訓(xùn)練，batch size為16，學(xué)習(xí)率為5e-6。

2）推理策略（Inference Strategy）

? Fast: 快速模式，直接生成最終評估結(jié)果（z3）

? Standard: 標(biāo)準(zhǔn)模式，包括Z2和Z3兩個核心的評估步驟

? Best：最佳模式，執(zhí)行整個的reasoning chain(Z1,Z2,Z3)

3.Conclusion

1）與其他baseline的效果對比

利用LLM做論文review到哪一步了？來看看DeepReview吧！-AI.x社區(qū)

總結(jié)1：DeepReviewer-14B 在多個維度上表現(xiàn)優(yōu)異，與 CycleReviewer-70B、GPT-o1 和 Deepseek-R1 等現(xiàn)有系統(tǒng)相比，在評分、排名和選擇方面均取得了顯著改進。總結(jié)2: 感覺還是沒有帶來本質(zhì)的替身，pairwise accuracy都還不太高！