當(dāng)AI重新定義「科研影響力」:一場關(guān)于CSRankings的反思與重塑
在計算機科學(xué)領(lǐng)域, CSRankings 曾被視為一次劃時代的改進(jìn)。它摒棄了早期諸如 USNews 那樣依賴調(diào)查問卷的主觀排名體系,轉(zhuǎn)而以論文發(fā)表數(shù)量這一客觀指標(biāo)來評估各大學(xué)的科研實力。
然而,理想往往伴隨著隱憂——當(dāng)論文發(fā)表數(shù)量成為唯一的標(biāo)準(zhǔn),學(xué)術(shù)評價異化為一場比拼篇數(shù)的競賽。論文越多,排名越高;但數(shù)量的增長,真的代表質(zhì)量的提升嗎?近年來,有越來越多的個人和機構(gòu)視論文為數(shù)字游戲,動輒一年發(fā)表數(shù)十篇論文并廣為宣傳。然而,發(fā)表的論文數(shù)量真的可以代表個人或者機構(gòu)的學(xué)術(shù)影響力嗎?
從「發(fā)得多」到「影響深」
科研領(lǐng)域多年以來一直希望評價學(xué)術(shù)影響力。因此,我們有了影響因子,有了 Google Scholar。然而,只數(shù)論文引用的數(shù)量帶來了其它的問題,例如,論文中經(jīng)常會有很多并非對當(dāng)前工作很重要的引用。
同時,有些類型的論文會有較高的引用數(shù)量,但是并不一定代表其學(xué)術(shù)價值。比如,綜述文章經(jīng)常被引用,但并不總意味著此綜述是本論文的必要基石。或許某個前置工作(算法,模型, codebase, etc)才是本論文能完成的前提。
一個關(guān)鍵問題是:如何拋開發(fā)表數(shù)量和引用數(shù)量,來真正衡量科研的「質(zhì)量」?
我們認(rèn)為答案可能來自兩個方向:
- 真正懂的人——同領(lǐng)域研究者的集體判斷;
- 足夠聰明的算法——能夠從海量論文中提取這些判斷。
其實,真正在每一個領(lǐng)域中的研究者,寫論文的時候已經(jīng)在他們的論文里或明確或暗含地揭示了哪些論文是領(lǐng)域中真正重要的文獻(xiàn)。
但這種「重要」往往是雙重的:它既包含作者在寫作時主觀認(rèn)可和強調(diào)的前置工作(比如綜述幫助了信息獲?。?,也包含那些在技術(shù)上或思想上奠定了客觀基石的工作。前者蘊含在寫作中,而后者更是要結(jié)合技術(shù)背景來捕捉。
然而,這些信息隱含在海量的論文中,光靠人力是無法讀完所有文獻(xiàn),將這些信息提取出來的。
基于這一思路,俄勒岡州立大學(xué) (Oregon State University) 和加州大學(xué)圣 CRUZ 分校 (University of California Santa Cruz) 的學(xué)者構(gòu)建了一個全新的學(xué)術(shù)排名系統(tǒng):讓大語言模型讀出學(xué)者們心中對論文影響力的評價。
網(wǎng)頁:https://impactrank.org/
用 LLM 追蹤「被引用的靈魂」
學(xué)者們選用了 DeepSeek-R1-Distill-Llama-8B 大語言模型,讓它閱讀來自 2020-2025 年頂級 AI 會議的論文,并提出一個簡單的問題:
「這篇論文認(rèn)為對它最重要的 5 篇參考文獻(xiàn)是什么?」
換句話說,讓 AI 來幫我們閱讀參考文獻(xiàn),找出哪些研究是當(dāng)今學(xué)術(shù)論文背后的靈魂。
通過反復(fù)分析數(shù)萬篇論文,我們就能描繪出整個 AI 研究版圖中,哪些作者、哪些論文、哪些機構(gòu)最常被視為創(chuàng)新的根基。
從論文到機構(gòu):影響力的鏈路
接下來,學(xué)者將所有論文找到其在 DBLP 中匹配的論文和作者,防止 AI 產(chǎn)生幻覺生成不存在的參考文獻(xiàn)。然后再將這些「Top 5 關(guān)鍵參考文獻(xiàn)」的作者映射回其所在的大學(xué)。
每當(dāng)一篇論文被另一篇新論文選為「Top 5 關(guān)鍵參考文獻(xiàn)」,該論文的作者及其機構(gòu)便會獲得相應(yīng)的學(xué)術(shù)影響力積分。為了公平起見,積分會平均的分配給每個作者。
一種全新的科研排行榜
最終,學(xué)者們得到了一個不以數(shù)量取勝,而以影響力見長的排名體系。
它獎勵那些激發(fā)新發(fā)現(xiàn)、奠定研究基石、推動學(xué)科前行的研究機構(gòu)。
這種方式,讓我們看到的不再是「誰發(fā)得最多」,而是——
「哪些論文真正的影響了領(lǐng)域的發(fā)展。」
檢視 CSRanking 和 Research Impact Ranking,我們發(fā)現(xiàn),他們有非常大的區(qū)別。如 Computer Vision 領(lǐng)域:

AI Research Impact Rankings:

自然語言處理領(lǐng)域:

AI Research Impact Ranking:

是否該讓 AI 幫助我們,重新定義科研的「質(zhì)量」?專業(yè)讀者們覺得哪個排名更符合您心中的觀點?


























