精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

利用LLM做論文review到哪一步了?來看看DeepReview吧!

發(fā)布于 2025-3-14 00:48
瀏覽
0收藏

今天分享一篇西湖大學(xué)張岳老師的一篇利用合成推理數(shù)據(jù)做論文評審文章,Title: DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process:通過合成類人深度思考過程改進基于LLM的論文評審效果。

這篇文章探索了如何利用大型語言模型(LLM)來改進論文評審過程,提出了一個多階段框架DeepReview,通過結(jié)合結(jié)構(gòu)化分析、文獻檢索和基于證據(jù)的論證,模擬專家評審員的深度思考過程,從而提高LLM在論文評審中的可靠性

該方法分為三個階段:1)新穎性驗證:通過文獻檢索評估研究的原創(chuàng)性。2)多維度評估:綜合多個專家意見。3)可靠性驗證:檢查內(nèi)部一致性和邏輯連貫性。

該方法特點總結(jié)如下:1)提出了DeepReview-13K,一個帶有結(jié)構(gòu)化注釋的精選數(shù)據(jù)集,用于訓(xùn)練模型。2)訓(xùn)練了DeepReviewer-14B模型,在評估中優(yōu)于CycleReviewer-70B。3)模型提供了三種推理模式(快速、標(biāo)準(zhǔn)和最佳),允許用戶在效率和響應(yīng)質(zhì)量之間進行平衡。

一、概述

?Title:DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking Process

?URL:arXiv:2503.08569v1

?Authors:Minjun Zhu, Yixuan Weng, Linyi Yang, Yue Zhang

?Code:zhu-minjun/Researcher

?Homepage:ai-researcher.net

?Demo:ai-researcher.net/deepreviewer

1.Motivation

? 現(xiàn)有的基于LLM的論文評審系統(tǒng)存在包括領(lǐng)域?qū)I(yè)知識有限、推理錯誤和缺乏結(jié)構(gòu)化評估等缺陷。

?同時缺乏能夠捕捉細(xì)粒度專家評估過程的結(jié)構(gòu)化論文評審數(shù)據(jù)集

2.Methods

DeepReview 數(shù)據(jù)收集與構(gòu)建(Data Collection):

![image-20220313103359178](/Users/huxiang/Library/Application Support/typora-user-images/image-20220313103359178.png)

??步驟??

  • 從 OpenReview 平臺收集原始數(shù)據(jù),包括 ICLR 2024 和 2025 的投稿論文。
  • 使用 MinerU 工具將論文轉(zhuǎn)換為可解析的 Markdown 格式。
  • 為每篇論文構(gòu)建評審集 R,包括文本評估(Strengths, Weaknesses, and Questions)、互動討論(rebuttal)和標(biāo)準(zhǔn)化評分(overall ratings (∈ [1, 10]) and fine-grained evaluations of Soundness, Presentation, and Contribution (∈ [1, 4]))。
  • 收集元評審文本(meta-review texts)和最終評分以及decisions(接受/拒絕)。
  • 最終的 DeepReview-13K 數(shù)據(jù)集包含 13,378 個有效樣本。

DeepReview 長推理數(shù)據(jù)合成方法: 基于已有openreview的數(shù)據(jù)合成推理數(shù)據(jù)訓(xùn)練模型

結(jié)合檢索、rank、自我驗證和自我反思等方法,開發(fā)了一個paper review的數(shù)據(jù)合成流程,該流程確保 LLM 生成建議的可靠性和魯棒性。該框架主要分為以下幾個方面來模擬專家評審過程:

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

最終一個完整的review example如下:

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

合成數(shù)據(jù)的流程如下:

1)新穎性評估(Novelty Verification):通過檢索文獻評估研究的新穎性并給出分析報告。

? 使用 Qwen-2.5-72B-Instruct 模型生成三個關(guān)鍵研究問題(questions, focusing on research gaps, innovative directions, and methodological breakthroughs to capture domain-specific characteristics)。

? 使用 Gemini-2.0-Flash-thinking 模型進行系統(tǒng)論文分析(research motivation, core ideas, technical approaches, and experimental design)。

? 使用 OpenScholar 進行文獻檢索、比較和總結(jié)。(literature retrieval, comparison, and summary base on OpenScholar)

? 使用 Qwen-2.5-3B-Instruct 和few-shot learning將問題轉(zhuǎn)換為搜索關(guān)鍵詞(Semantic Scholar API)。

? 使用 ReRank 模型對檢索到的論文進行重新排序(top 10 most relevant papers)。

? 使用內(nèi)部 QA 模型生成綜合報告作為新穎性分析(Llama-3.1_OpenScholar-8B)。

? 可能存在的問題:得按之前論文的發(fā)表時間來檢索才對吧?否則有新論文進來會影響novelty的分?jǐn)?shù)。不知道作者有沒有考慮到!

2)多維度評估標(biāo)準(zhǔn)(Multi-dimensional Review):將rebuttals合成multiple review報告。

? 使用 Qwen-2.5-72B-Instruct 開發(fā)評審重構(gòu)流程(從rebuttal中提取experimental results, theoretical proofs, and implementation details)。

? 分析 R 中的每個評審及其對應(yīng)的作者回復(fù)。

? 將批評轉(zhuǎn)化為具體的技術(shù)建議。

3)可靠性驗證(Reliability Verification):從原文找到證據(jù),并給出confidence level(檢查assessment內(nèi)部一致性和邏輯連貫性)。

? 使用 Gemini-2.Flash-thinking 進行系統(tǒng)證據(jù)分析。總共需要通過四階段驗證鏈進行:方法驗證、實驗驗證和綜合分析(methodology verification, experimental verification, and comprehensive analysis)。每個評審意見都需要論文中的支持證據(jù)和置信度。

? 最終使用 Qwen 生成新的meta review(依據(jù)original Meta-Review, reviewer comments, and verification outcomes)。

4)質(zhì)量控制機制(Quality Control Mechanism):

? 使用 Qwen-2.5-72B-Instruct 堅持最終推理鏈的嚴(yán)謹(jǐn)性。

? 評估每個生成樣本的邏輯完整性(z1, z2, z3)和完備性。

? 檢查邏輯一致性和完整性。

訓(xùn)練模型并測試:

1)模型訓(xùn)練(Model Training)

? 基于Phi-4 14B模型, 使用DeepReview-13K的數(shù)據(jù)集進行訓(xùn)練.

? 在8x H100 80G GPUs上使用DeepSpeed + ZeRO3優(yōu)化。

? 使用LongRoPE將上下文窗口擴展到256K,訓(xùn)練期間使用40K的上下文窗口。

? 使用23,500步訓(xùn)練,batch size為16,學(xué)習(xí)率為5e-6。

2)推理策略(Inference Strategy)

? Fast: 快速模式,直接生成最終評估結(jié)果(z3)

? Standard: 標(biāo)準(zhǔn)模式,包括Z2和Z3兩個核心的評估步驟

? Best:最佳模式,執(zhí)行整個的reasoning chain(Z1,Z2,Z3)

3.Conclusion

1)與其他baseline的效果對比

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

總結(jié)1:DeepReviewer-14B 在多個維度上表現(xiàn)優(yōu)異,與 CycleReviewer-70B、GPT-o1 和 Deepseek-R1 等現(xiàn)有系統(tǒng)相比,在評分、排名和選擇方面均取得了顯著改進。總結(jié)2: 感覺還是沒有帶來本質(zhì)的替身,pairwise accuracy都還不太高!

2)基于Gemini-2.0-Flash-Thinking分析生成的review質(zhì)量

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

總結(jié):在文字內(nèi)容上,提的點上,效果看起來都不錯。這個可能可以給作者提供比較詳細(xì)的指導(dǎo)!

3)展現(xiàn)出強大的抗攻擊能力

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

4)推理token的scaling law

利用LLM做論文review到哪一步了?來看看DeepReview吧!-AI.x社區(qū)

Reasoning Path Scaling: 對應(yīng)文章提到的fast,standard,best,看著提升效果沒那么大。

Reviewer Scaling: 代表reviewer的個數(shù),看著提升還不錯,但是對Decision Accuracy提升不大。

三、總結(jié)

結(jié)論1: 利用 LLM 進行結(jié)構(gòu)化推理可以顯著提升論文評審的質(zhì)量和可靠性。 DeepReview 框架通過模擬人類專家評審過程,結(jié)合新穎性驗證、多維度評估和可靠性驗證,提高了評審的深度和準(zhǔn)確性。

結(jié)論2: DeepReview 框架具有良好的可擴展性和魯棒性。 通過 Test-Time Scaling 分析表明,DeepReviewer 可以通過調(diào)整推理路徑和響應(yīng)長度來提高性能,并且對對抗性攻擊表現(xiàn)出很強的彈性。

總的來說,論文評審的decision還是一個非常有難度(看運氣)的一個事情,但是基于LLM的review可能可以給作者在提交前提供很多反饋意見和建議(參考原文Tabble 4)。

本文轉(zhuǎn)載自??NLP PaperWeekly??,作者: NLP PaperWeekly ????


收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
第九色区av在线| 最好看的日本字幕mv视频大全| 国产精区一区二区| 亚洲国产精品视频| 欧美精品一区二区三区在线看午夜 | 牛牛精品成人免费视频| 欧洲国产伦久久久久久久| 一级全黄肉体裸体全过程| 欧美视频xxx| 蜜桃免费网站一区二区三区| 一区二区三区日韩精品| 狠狠干一区二区| 一级黄色片在线| 一区二区三区国产盗摄| 久久精品中文字幕| 国内精品久久99人妻无码| japansex久久高清精品| 色综合中文综合网| www.av91| 亚洲国产精品久久久久久6q| 久久国产精品99国产| 亚洲精品美女久久| 欧美成人手机在线视频| 伊人久久视频| 亚洲午夜一区二区| 强伦女教师2:伦理在线观看| 四虎影视精品成人| 国产高清不卡一区| 国产日韩中文字幕| 日日骚av一区二区| 极品尤物久久久av免费看| 深夜精品寂寞黄网站在线观看| 捆绑裸体绳奴bdsm亚洲| 国产精品亚洲四区在线观看| 色www精品视频在线观看| 美女黄色免费看| 快射视频在线观看| 国产精品福利影院| 亚洲精品白虎| 国产精品四虎| 久久精品水蜜桃av综合天堂| 国精产品一区二区| 久久久精品免费看| 国产成人三级| 亚洲级视频在线观看免费1级| 最好看的中文字幕| 激情五月综合婷婷| 4438x亚洲最大成人网| 中文字幕第38页| 亚洲电影有码| 国产精品久久久久久久久免费相片 | 国模精品系列视频| 双性尿奴穿贞c带憋尿| 91精品啪在线观看国产爱臀 | 亚洲风情第一页| 国产乱码精品一品二品| 亚洲一区二区免费在线| 伊人国产在线观看| 欧美日韩国产高清| 亚洲欧美成人网| 欧美 变态 另类 人妖| 日韩av系列| 亚洲女人天堂成人av在线| 熟女俱乐部一区二区| 蜜臀av免费一区二区三区| 亚洲欧洲第一视频| 精品人体无码一区二区三区| 成人影视亚洲图片在线| 日韩精品在线一区| 中文字幕视频观看| 国产一区在线电影| 亚洲美女免费精品视频在线观看| 国产伦精品一区二区三区妓女| 色天天色综合| 在线视频日韩精品| 国产精品白丝喷水在线观看| 欧美日韩一区二区三区在线电影| 亚洲精品98久久久久久中文字幕| 在线观看日韩精品视频| 波多野结衣在线播放一区| 日韩最新免费不卡| 在线观看福利片| 欧美日韩色图| 欧美另类xxx| 日本三级小视频| 老司机一区二区| 官网99热精品| 国产天堂素人系列在线视频| 亚洲男同性恋视频| 成人免费aaa| 日本欧美在线| 亚洲第一福利网站| 黄色国产在线播放| 激情综合视频| 91精品国产综合久久香蕉最新版 | 大白屁股一区二区视频| 欧美日韩精品久久| 亚洲www色| 在线免费观看日韩欧美| 无码人妻精品一区二区三| 欧美日韩一区二区综合| 欧美大成色www永久网站婷| 日韩精品一区二区亚洲av| 激情丁香综合五月| 欧美国产综合视频| 亚洲综合图区| 在线精品视频小说1| 91精品人妻一区二区三区蜜桃2| 图片婷婷一区| 欧美人成在线视频| 中文字幕人妻一区二区在线视频| 成人国产精品免费网站| 一区二区三区视频| 久久sese| 亚洲国产福利在线| 国产黄色的视频| 日韩av中文在线观看| 国产成人精品日本亚洲11| 最近高清中文在线字幕在线观看| 欧美日韩日本国产| 少妇性l交大片7724com| 91中文字幕精品永久在线| 91福利视频网| 天堂在线中文网| 国产精品美女一区二区三区 | 免费一二一二在线视频| 欧美一级黄色大片| 三上悠亚在线观看视频| 日韩高清在线观看| 久久久一本精品99久久精品| 丰满少妇一级片| 波波电影院一区二区三区| 青春草在线视频免费观看| 成人免费av电影| 欧美日韩综合不卡| 精品无码一区二区三区| 亚洲高清激情| 国产精品久久久久久久久久久久午夜片 | 亚洲国产精品久久久久婷蜜芽| 2020国产在线| 精品久久久久久久久久久久包黑料| 91久久久久久久久久久久久久 | 先锋资源在线视频| 亚洲精品a级片| 91精品久久久久久综合乱菊 | 亚洲精品手机在线观看| 国产精品视频首页| 久久视频免费在线播放| 亚洲天天综合网| 亚洲欧洲日产国码二区| 奇米视频888| 午夜影院欧美| 亚洲自拍高清视频网站| 在线观看h网| 精品毛片乱码1区2区3区| 国产精品99无码一区二区| 成人一区二区三区在线观看| 老子影院午夜伦不卡大全| 高清一区二区三区| 欧美亚洲午夜视频在线观看| 日本成人一区| 欧美视频中文字幕| 精品人妻伦九区久久aaa片| 国产精品一级二级三级| 人妻激情另类乱人伦人妻| 懂色av一区二区| 91超碰中文字幕久久精品| 免费在线黄色电影| 欧美日韩国产精品成人| 亚洲国产美女视频| 成人不卡免费av| 91av俱乐部| 国产精品毛片久久| 国产精品区一区二区三含羞草| 1区2区3区在线| 亚洲欧美日韩在线一区| 亚洲午夜激情视频| 亚洲一区二区三区精品在线| 亚洲欧美在线不卡| 免费的成人av| 国产精品videossex国产高清| 欧美大片网址| 国产精品网红福利| 91福利在线尤物| 亚洲性线免费观看视频成熟| 一级片视频播放| 亚洲午夜在线电影| 91禁男男在线观看| 粉嫩aⅴ一区二区三区四区五区| 无码精品a∨在线观看中文| 日韩久久精品网| 浅井舞香一区二区| 激情在线小视频| 亚洲精品国精品久久99热| 中文字幕+乱码+中文| 亚洲一线二线三线视频| www.狠狠爱| 成人一级视频在线观看| 精品免费国产一区二区| 午夜亚洲福利| 日韩精品欧美在线| 国产色噜噜噜91在线精品| 国产精品视频久久久久| 玖玖综合伊人| 日韩欧美精品在线视频| 波多野结衣电影在线播放| 一二三区精品福利视频| 2019男人天堂| 99久久精品国产观看| 中文字幕亚洲影院| 蜜桃久久av| 真人抽搐一进一出视频| 久久久久免费av| 日本一区不卡| 欧美jizz19性欧美| 俄罗斯精品一区二区三区| 成人国产精选| 国产999精品| av资源一区| 欧美裸身视频免费观看| 日韩子在线观看| 亚洲人在线观看| 污污网站免费在线观看| 日韩午夜激情电影| 国产又粗又猛又色又| 欧美亚洲国产一区二区三区| 午夜精品三级久久久有码| 一区二区三区毛片| 99热这里只有精品4| 久久精品亚洲乱码伦伦中文| 特级特黄刘亦菲aaa级| 国产一区二区三区高清播放| www.18av.com| 欧美高清视频看片在线观看| 亚洲xxx视频| 精品入口麻豆88视频| 成人观看高清在线观看免费| 欧美激情不卡| 国产精品久久久久久一区二区| 成人直播视频| 日本欧美国产在线| 欧洲一区二区三区精品| www亚洲欧美| 成人性爱视频在线观看| 亚洲一区二区久久久| 免费在线黄色影片| 国产一区二区三区三区在线观看| 男生女生差差差的视频在线观看| 亚洲女人被黑人巨大进入al| 邻居大乳一区二区三区| 亚洲色图17p| 91露出在线| 日韩在线视频导航| 国产激情视频在线| 久久777国产线看观看精品| 欧美女同一区| 91精品国产91久久久久福利| 热色播在线视频| 国产精品国产自产拍高清av水多| 在线不卡日本v二区707| 欧美裸体xxxx极品少妇| 草美女在线观看| 91超碰caoporn97人人| 国精产品一区二区三区有限公司 | 久久精品视频在线播放| 国产黄色在线网站| 久久久视频在线| 国模冰冰炮一区二区| 国产精品视频99| 免费观看性欧美大片无片| 国产九区一区在线| av中文一区| 中国一级大黄大黄大色毛片| 合欧美一区二区三区| 免费看黄在线看| 日韩高清不卡一区二区三区| 欧美又黄又嫩大片a级| 大胆亚洲人体视频| 国产三级短视频| 一区二区三区成人在线视频| 日韩不卡在线播放| 欧美日韩在线观看一区二区| 国产suv精品一区二区69| 日韩精品中文字幕视频在线| 国产精品久久久久久在线| 日韩一级视频免费观看在线| 三级视频网站在线| 久久深夜福利免费观看| caoporn视频在线| 国产精品人人做人人爽| 中文字幕日韩在线| 日本一区二区精品视频| 亚洲国产日韩欧美在线| 久久国产亚洲精品无码| 黄色资源网久久资源365| 日韩成人av一区二区| 国产精品免费免费| 国产又黄又粗又爽| 69堂成人精品免费视频| 婷婷国产在线| 九九九久久久久久| 福利精品在线| 久久99久久精品国产| 综合国产在线| 男人搞女人网站| www.亚洲激情.com| av激情在线观看| 欧美亚洲国产一卡| 深夜福利免费在线观看| 欧美精品中文字幕一区| 日本欧美韩国| 久久久久资源| 激情婷婷亚洲| 黄色一级片免费播放| 国产精品三级电影| 国产极品美女高潮无套久久久 | 成人激情四射网| 亚洲国产视频二区| 精品国产区一区| 日本xxxxxwwwww| 久久精品中文字幕电影| 伊伊综合在线| 国产精品乱码一区二区三区| 五月天久久777| 欧美一级特黄a| 国产丝袜美腿一区二区三区| 国产污片在线观看| 日韩一区二区三区电影在线观看 | 91免费黄视频| 国产一区二区日韩精品| 国产一区在线观看免费| 丁香网亚洲国际| 天天做夜夜爱爱爱| 欧美群妇大交群中文字幕| 成人亚洲综合天堂| 国产精品久久久久久久av大片 | 最新欧美日韩亚洲| 奇米888四色在线精品| 这里只有久久精品| 色综合久久久久综合| 日韩一二三四| 欧美壮男野外gaytube| 日韩大尺度在线观看| 免费成人午夜视频| 久久一区二区视频| 天天干天天色综合| 3d动漫精品啪啪一区二区竹菊| av午夜在线| 成人黄色免费网站在线观看| 99久久99久久精品国产片桃花| 中文字幕有码av| 国产精品久久久久一区二区三区 | 精品国产伦一区二区三区免费| av中文字幕在线播放| 91久久久一线二线三线品牌| 欧美日韩一区自拍| 黄色片视频免费观看| 欧美午夜激情视频| av网站在线播放| 亚洲影视中文字幕| 国内精品久久久久久久影视麻豆 | 国产三级精品在线观看| 欧美日韩999| 日韩av午夜| 中文字幕 91| 夜夜嗨av一区二区三区网页| 无码国产色欲xxxx视频| 青青草99啪国产免费| 日韩欧美在线中字| 特种兵之深入敌后| 精品人伦一区二区三区蜜桃免费| 噜噜噜噜噜在线视频| 国产欧美日韩视频| 国模吧视频一区| 国产精品久久久久无码av色戒| 欧美性感一区二区三区| 国产写真视频在线观看| 国产欧美在线一区二区| 久久精品成人| 2018天天弄| 亚洲午夜激情免费视频| 99视频这里有精品| 波多野结衣家庭教师在线播放| 国产欧美一区视频| 日本在线免费观看| 日韩欧美一级二级| 日韩影院在线| 在线看无码的免费网站| 成人亚洲精品久久久久软件| 无码人妻丰满熟妇区bbbbxxxx| 久久人人爽亚洲精品天堂| 狼人天天伊人久久| 久久亚洲精品无码va白人极品| 久久精品亚洲乱码伦伦中文| 99免费在线视频| 91精品国产91久久久久久| 国产精品毛片久久| 国产美女免费无遮挡| 亚洲精品在线电影| 先锋影音一区二区|