謝賽寧「踩雷」背后,竟藏著科研圈更黑真相:Science實錘論文造假+AI濫用!
謝賽寧是真倒霉!為了避免被LLM審稿「誤上」,他領導的實驗室投稿的一些論文中暗藏了系統提示詞,被??網友當中「處刑」!
跟剛剛《Science》爆出的科研圈兩大丑聞,就是小巫見大巫,不值一提。
這次,頂刊《Science》連發兩條新聞,曝光了科研圈的兩大「陋習」:
(1)論文工廠肆虐,論文造假已形成產業鏈,全球科學期刊被系統性滲透;
(2)ChatGPT入侵學術圈,20%計算機論文已現AI痕跡。
如果說第一條是實錘了科研界早有的惡習,那第二條絕對是科研圈新的「壞現象」。
而且,這次是實打實的科學研究,研究非常系統,證據充足,扒下了科研圈「皇帝的新衣」。

科研欺詐形成產業鏈
多年來,專門研究科學不端行為的專家一直在警告:制造虛假科研論文的產業不僅規模龐大,而且手法日益復雜。
如今,一項大規模的調查提出了確鑿證據。

論文鏈接:https://www.pnas.org/doi/10.1073/pnas.2420092122
這項研究分析了數千篇論文以及它們的作者和編輯,發現「科學詐騙」已經形成了產業鏈。
整個產業錯綜復雜、相互勾連,「論文工廠」只是其中的一部分,還涉及出版商、期刊和中介等多個環節。

西北大學從事元科學(metascience)研究的Reese Richardson等指出,已有作者與編輯組成關系網,合謀發表質量低劣甚至完全造假的論文。

他們還發現一些大型機構在期刊上批量投放虛假論文,懷疑中介機構起到了牽線搭橋的作用。
同時,研究顯示,盡管目前虛假論文在科研文獻的比例仍不算高,但增長速度遠超學術出版物整體的增長趨勢。
柏林自由大學的Anna Abalkina說道:「這項研究表明,學術不端行為已經演變為一項產業。」

她長期研究學術腐敗。雖然沒有參與這次研究,的Richardson和他的同事希望,這項覆蓋廣泛的調查能引起廣泛關注,并推動學術出版體系的改革。
這些編輯撤稿率高得不正常
這次的分析從識別涉嫌腐敗的編輯入手。
研究團隊選擇PLOS ONE作為重點調查對象,因為大型期刊不僅便于獲取大規模的元數據,還會公開處理每篇論文的編輯姓名。由于該期刊每年發表數千篇論文,這些特性使得研究人員無需內部數據也能識別出潛在的異常情況。
他們首先篩選出所有曾被撤稿或在PubPeer上收到評論的論文,隨后進一步追蹤這些論文的責任編輯。

在線平臺PubPeer允許研究人員對已發表論文提出質疑
總的來說,有33位編輯處理的論文,被撤稿或受質疑的頻率遠高于正常的統計概率。
Richardson表示:「其中一些人屬于極端異常」。例如,有一位編輯 PLOS ONE審理的79篇論文中,竟有49篇被撤稿!雖然這些被識別的編輯只負責了截至2024年所發表論文的1.3%,但卻涉及了幾乎三分之一的撤稿論文。
研究團隊還發現,這些編輯與某些作者之間的互動頻率異常高。有些編輯經常互相審稿,這種關系令人懷疑。Richardson指出,一些編輯可能是收受了賄賂,但「也可能只是同事之間的一種私下安排」。
Hindawi旗下的10本期刊中也出現了類似的可疑編輯行為。在收購后,由于該期刊頻繁出現論文工廠操作而被迫暫停運營。
科研也是生意
相關領域的學者早已懷疑編輯和作者之間存在勾結。
西班牙維戈大學的文獻計量學家Domingo Docampo表示,這項新研究為這一長期猜測提供了「確鑿證據」。

他補充道,雖然目前發現的問題集中在少數期刊,但其他出版物很可能也存在類似現象。
就在上周,Retraction Watch報道稱,出版商Frontiers因發現在同行評審中,作者與編輯組相互勾結,未披露利益沖突,已開始撤回122篇論文。

根據聲明,這一關系網共計35 人,還在其他7家出版商的期刊上發表了超過4000篇論文,目前也正在接受進一步審查。Frontiers表示,他們計劃將相關信息分享給其他受影響的出版商。
Richardson團隊發現,這一問題的根源遠不止是個別作者與編輯之間「互幫互助」。他們發現,存在系統性「串通」操作,專門將大量可疑的論文集中發表。
研究人員分析了2000多篇在PubPeer上被標注為圖像重復的論文,并識別出多個彼此共享圖片的論文集。這些論文通常在同一時間段集中發表,且集中出現在少數幾個期刊中。
Abalkina指出,通過圖像重復來追蹤潛在的造假網絡是一種「真正具有創新性」的方法,「此前從未有人嘗試過」。
有些案例可能源于單一論文工廠滲透的多個期刊,但研究團隊也認為,有些集群可能是「中介」操控的結果——這些中介充當論文工廠與被攻陷期刊之間的橋梁。
研究團隊進一步調查了總部位于印度金奈的Academic Research and Development Association(ARDA)。
這家機構提供的服務包括「論文撰寫」和「期刊發表」,涵蓋數十本期刊。

團隊發現,ARDA提供的期刊名單在過去幾年中不斷更替:有新刊物加入,也有因被數據庫除名而被移除的期刊。
Richardson指出,這些期刊經常刊登明顯存在問題的論文,ARDA向研究團隊提供的報價大約在250到500美元之間。該網站要求作者自行提交論文,這說明ARDA本身不是論文工廠,而是一個中介平臺。
美國貝魯特大學的信息科學家Lokman Meho表示,像ARDA這樣的機構常以「編輯服務」為幌子公開運營。

雖然這些行為可能違反科研倫理,對學術界造成嚴重危害,但由于「開展這類業務在法律上并不違法」,它們并不避諱。
科研造假,貽害無窮
Richardson團隊記錄的問題正在迅速加劇。
他們發現,這類可疑論文每1.5年翻一番,增長速度是整個科研文獻的10倍,雖然總體比例仍不算高。
同時,被撤稿的論文和在PubPeer上被標注的論文數量也在快速上升,分別每3.3年和3.6年翻番,但遠遠追不上造假論文的增速。
Abalkina指出:「這說明虛假科學的比重正在上升。」她特別警告,醫學等領域尤為敏感,這些假論文可能被納入系統綜述和Meta分析,從而誤導人們對藥物和治療的認知。
萊頓大學的科學研究學者Wolfgang Kaltenbrunner指出,科學研究本身的快速擴張也是助長這一問題的因素之一。

論文工廠的產物往往被埋藏在影響力較低的期刊中,目的就是避免引起注意。在小型學術圈,這些問題更容易暴露,但隨著某些領域日益龐大且缺乏透明度,這些論文更容易逃避審查。
他補充道,隨著科研人員數量激增,許多機構愈加以論文數量作為評價標準,一些研究者因此轉向論文工廠以快速積累「成果」。
國內亦有教授指出:
扭曲的激勵機制、虛高的評價指標、「非發即亡」的文化氛圍,以及對低質量研究的普遍縱容,都為論文工廠的繁榮提供了土壤。
Richardson也指出,在競爭壓力下,一些年輕研究人員可能被迫購買論文工廠服務,避免被同行淘汰。
這項研究中的許多現象其實早已廣泛猜測,但此次提供了有力的實證。
Kaltenbrunner說道
在問題規模和真相曝光方面,我們已經遠遠落后了。
這項研究最重要的啟示就是:問題的規模遠比我們想象的要嚴重。
Docampo補充說,除非出版商、科研資助機構以及招聘與晉升決策者真正采取行動并追責,「否則這一現象將持續擴散,而且還在迅速惡化。」
ChatGPT污染學術圈
自從2022年ChatGPT橫空出世以來,科研圈使用人工智能撰寫論文的頻率持續飆升——如今,這股潮流已跨越多個學科,正在深刻重塑科研寫作。
在一些領域,使用生成式AI撰寫稿件已經幾乎成了「標準操作」:在計算機科學領域,22%的論文被發現含有大語言模型(LLM)生成內容的痕跡。

研究團隊分析了2020年至2024年間超過100萬篇科學論文和預印本,重點聚焦摘要與引言部分,通過識別AI常用詞匯,追蹤語言風格的變化軌跡。研究結果令人震撼。

論文鏈接:https://www.nature.com/articles/s41562-025-02273-8
最終這項研究發表于《自然·人類行為》(Nature Human Behaviour)。
研究顯示:到2024年9月,22.5%的計算機科學摘要顯示出LLM修改的證據,電氣系統和工程科學緊隨其后,而數學摘要僅為7.7%。生物醫學和物理學等學科的比例較低。

美國路易斯維爾大學的Alex Glynn表示:「這次研究非常有分量。」

他指出,在像計算機科學這樣與AI高度相關的學科中,大語言模型的滲透程度如此之高,這一發現或將為監管和檢測提供重要線索。
他補充到:「也許我們要重新思考,這場關于AI的對話,應主要聚焦在哪些領域。」
ChatGPT潛入科研圈
ChatGPT剛上線時,各大學術期刊如臨大敵,紛紛出臺限制使用AI撰寫論文的政策,試圖防止「AI水軍」泛濫。
但很快,研究者就開始發現,大量提交的論文和評審報告中,出現了如「regenerate response」(重新生成回答)或「my knowledge cutoff」(我的知識截止時間)等「AI味」十足的短語。
圖盧茲大學計算機科學家Guillaume Cabanac等人開始整理包含這些「確鑿證據」的論文清單。

自2024年3月起,Glynn一直在維護Academ-AI數據庫,記錄科學論文中涉嫌使用AI的案例
Glynn說:「乍一看確實有些好笑,但深層含義卻令人憂心。」
有些論文赤裸裸地自述:「我是一個AI語言模型。」甚至會勸讀者去找更靠譜的信息來源。
問題是,LLM不僅可能胡編亂造「幻覺信息」,更可怕的是經過多輪同行評審后依然「混進」正式期刊,直接挑戰科研論文質量底線。
更麻煩的是,隨著技術升級,使用者掩蓋痕跡的能力也越來越強。
為此,科學家們開始尋找更微妙的LLM使用跡象。
上個月,《科學進展》(Science Advances)發表了一項研究。

論文鏈接:https://www.science.org/doi/10.1126/sciadv.adt3813
這項分析了2010年至2024年間PubMed索引的1500多萬篇論文,尋找ChatGPT發布后頻率異常升高的「過量詞匯」(excess vocabulary)。

2024年頻率增加的詞匯
由圖賓根大學數據科學家Dmitry Kobak領導的研究顯示,2024年約七分之一的生物醫學研究摘要可能由AI撰寫。

斯坦福大學計算生物學家James Zou采取了類似方法,調研多個領域。

論文鏈接:https://www.nature.com/articles/s41467-025-58551-6
他采取了類似方法:先找出ChatGPT發布前的論文段落,再用大語言模型對其進行摘要,再讓AI根據摘要生成完整段落,最終訓練出一套能識別AI文風的統計模型。
這個模型對「pivotal」(關鍵的)、「intricate」(復雜精細的)、「showcase」(展示)等原本罕見于科研寫作的詞語非常敏感。
研究團隊將模型應用于2020年1月至2024年9月間的112萬篇論文,包括arXiv、bioRxiv等預印本平臺以及15種《自然》系列期刊。
結果顯示,從ChatGPT于2022年11月發布起,不到數月,大語言模型生成內容的比例就出現劇烈飆升。
要知道,寫一篇論文往往需要好幾個月甚至幾年。這說明從一開始大家就迅速開始用了。
不同學科增長速度不一。James Zou認為,這與研究人員對AI技術的熟悉程度有關。

但Zou強調:「大語言模型,無論是好是壞,成為科研過程不可分割的一部分。」
Kobak指出,實際AI使用頻率可能更高,因為作者可能已開始刪除「標志性」詞匯以規避檢測。
雖然研究主要聚焦于摘要和引言,Kobak擔心未來由LLM生成內容訓練新LLM的「惡性循環」。




































