離了大譜,21%的ICLR 2026審稿意見竟是AI生成的?官方回應(yīng)來了
剛過去的這個(gè)周末,圍繞 ICLR 2026 審稿意見中很多被標(biāo)記為完全由 AI 生成的說法,引發(fā)了社區(qū)熱烈討論。本屆會(huì)議將于 2026 年 4 月 23 日至 27 日在巴西里約熱內(nèi)盧舉行。
隨著首輪分?jǐn)?shù)的公布,有第三方機(jī)構(gòu)開始對(duì) ICLR 2026 的審稿意見進(jìn)行系統(tǒng)性統(tǒng)計(jì),其中發(fā)現(xiàn)了大量 AI 審稿的現(xiàn)象。
在對(duì) 75800 篇論文的審稿意見統(tǒng)計(jì)中,竟然有 21% 完全由 AI 生成、4% 重度由 AI 編輯、9% 中度由 AI 編輯、22% 輕度由 AI 編輯,完全由人類(審稿人)撰寫的僅占 43%。

圖源:X@ Graham Neubig
并且還呈現(xiàn)出一些趨勢,包括 AI 審稿意見篇幅更長、AI 審稿更可能給出高分。

這項(xiàng)統(tǒng)計(jì)是由潘格拉姆實(shí)驗(yàn)室(Pangram Labs)完成的,這是一家專門檢測 AI 生成(自動(dòng)撰寫或由大語言模型生成文字內(nèi)容)的科技公司。此次,該機(jī)構(gòu)對(duì) ICLR 2026 投稿人和審稿人使用 AI 的情況進(jìn)行了詳盡的分析。

圖源:X@ Pangram Labs 首席執(zhí)行官 Max Spero
為了處理每篇論文,Pangram Labs 下載了 PDF,并使用 Mistral-OCR 解析其中的文本內(nèi)容。這樣可以去除預(yù)印本中的行號(hào),得到較為干凈的文本用于分析。他們針對(duì)所有文檔運(yùn)行了 Pangram 的生產(chǎn)模型,其在底層使用滑動(dòng)窗口算法來估計(jì) AI 使用的程度。
雖然許多文檔檢測到 AI 使用程度在 0% 到 10% 之間,但這些大多是因?yàn)檎撐闹邪俗鳛檠芯績?nèi)容的 LLM 輸出示例,而不是在論文主體寫作中使用了 AI。因此這一類全部被歸為「完全由人類撰寫」。

投稿論文的 AI 使用程度以及平均得分劃分。
對(duì)于投稿論文,最終發(fā)現(xiàn)有 39% 以某種方式使用了 AI 作為寫作助手。但有趣的是,論文中的 AI 使用程度與較低的評(píng)分呈相關(guān)性。其中,199 篇被 Pangram Labs 標(biāo)記為「90–100%」AI 內(nèi)容的投稿,它們的平均得分竟然只有 2.9 分。

對(duì)于審稿意見,由于評(píng)審文本很短,因此無法依賴滑動(dòng)窗口來區(qū)分「AI 輔助」與「AI 生成」。因此,Pangram Labs 使用了 EditLens—— 一個(gè)全新模型,旨在量化一段文本中 AI 輔助的程度。

審稿意見中 AI 使用程度的預(yù)測、評(píng)分以及置信度。
結(jié)果發(fā)現(xiàn) 21% 的審稿意見被 EditLens 標(biāo)記為完全由 AI 生成。并且,完全由 AI 生成的評(píng)審平均得分高出 0.3 分,長度也比完全由人類撰寫的評(píng)審長了 26%!

完全由 AI 生成的審稿意見示例如下:

對(duì)于有人詢問的 AI 評(píng)審的「置信度」問題,Pangram Labs 發(fā)現(xiàn):完全由 AI 生成的評(píng)審比人類或 AI 輔助撰寫的評(píng)審更傾向于給出置信度為 3 的評(píng)價(jià)。不過,這個(gè)差異幅度較小,因此仍需謹(jǐn)慎解讀。

另外,為了驗(yàn)證所用模型的準(zhǔn)確性(假陽性率),Pangram Labs 使用 ICLR 2022 的審稿意見運(yùn)行了 EditLens,結(jié)果發(fā)現(xiàn):輕度 AI 編輯的假陽性率為千分之一,中度 AI 編輯的假陽性率為五千分之一,重度 AI 編輯的假陽性率為萬分之一,而完全由 AI 生成的未出現(xiàn)任何假陽性。

評(píng)論區(qū)有審稿人現(xiàn)身說法,表示自己評(píng)審的一篇論文在收到另外兩個(gè)低分評(píng)審時(shí)被打了回去,而這兩個(gè)評(píng)審正好被標(biāo)記為完全由 AI 生成。

官方回應(yīng)來了
就在今天早上,ICLR 2026 發(fā)布了一則官方回應(yīng),表示「我們已經(jīng)注意到低質(zhì)量的評(píng)審以及由大語言模型生成的評(píng)審,目前正在討論應(yīng)采取的適當(dāng)措施。就目前而言,收到質(zhì)量非常差或由 LLM 生成評(píng)審的作者,應(yīng)將其標(biāo)注并反饋給所在領(lǐng)域主席(AC)。我們感謝社區(qū)在報(bào)告這些問題上的努力!」

對(duì)于使用 AI 的審稿人,有人給出了處理建議:移除不良評(píng)審,并自動(dòng)使這些不良審稿人被認(rèn)定為「未履行評(píng)審職責(zé)」,隨后自動(dòng)拒絕他們提交的論文。

評(píng)論區(qū)有沒有向本屆 ICLR 投稿的作者,可以參考 Pangram Labs 的統(tǒng)計(jì)結(jié)果,查看自己論文的 AI 審稿情況。
統(tǒng)計(jì)鏈接:https://iclr.pangram.com/submissions



































