8/8/6/3的Mamba論文,最終還是被ICLR 2024拒了,網(wǎng)友:懸著的心終于死了
幾天前,ICLR 2024 的最終接收結(jié)果出來了。
大家應(yīng)該還記得,Mamba 被 ICLR 2024 大會 Decision Pending(待定)的消息在 1 月份引發(fā)過一波社區(qū)熱議。
當時,多位領(lǐng)域內(nèi)的研究者分析,Decision Pending 的意思是延遲決定,雖然也可能會被拒,但這篇論文得到了 8/8/6/3 的打分,按理說不至于真被拒。

論文審稿頁面:https://openreview.net/forum?id=AL1fq05o7H
如今,Decision 已出,Mamba 徹底被拒,懸著的心終于死了。

「Mamba」發(fā)布之初即被視為「Transformer 的強勁競爭者」,它是一種選擇性狀態(tài)空間模型(selective state space model),在語言建模方面可以媲美甚至擊敗 Transformer。而且,它可以隨上下文長度的增加實現(xiàn)線性擴展,其性能在實際數(shù)據(jù)中可提高到百萬 token 長度序列,并實現(xiàn) 5 倍的推理吞吐量提升。
但對于 ICLR 審稿人來說,這篇論文還存在重大缺陷(至少針對當前版本)。
手握 8/8/6/3 得分,究竟為什么被拒?
重新查看 OpenReview 頁面之后,我們發(fā)現(xiàn)了新的審稿意見。
ICLR 區(qū)域主席給出的最終說法是:論文使用的評估方法有爭議。

審稿意見整理如下:
本文介紹了一種為遠距離語言建模而設(shè)計的新型狀態(tài)空間模型變體。實驗表明,在語言建模任務(wù)的困惑度指標下,該模型與現(xiàn)有模型相比有顯著進步。值得注意的是,兩位審稿人給出了非常積極的評價(盡管其中一位審稿人在語言模型方面經(jīng)驗有限)。然而,第三位審稿人,一位在語言模型方面更有經(jīng)驗的專家,提出了兩個與基準和評估指標有關(guān)的重大問題:
1. 缺少 LRA(Long Range Arena)的結(jié)果:審稿人強調(diào)缺少 LRA 的結(jié)果,而 LRA 是公認的長序列建?;鶞?。在之前的狀態(tài)空間模型研究中,LRA 已成為慣例,因此必須對其進行全面評估。
2. 使用困惑度進行評估:審稿人質(zhì)疑將困惑度作為主要評價指標的做法。論文引用了 Sun et al. (2021)(《Do Long-Range Language Models Actually Use Long-Range Context?》)的觀點,他們認為較低的困惑度并不一定意味著最終 NLP 應(yīng)用的建模能力有所提高。Zhang et al. (2023)(《Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer》)進一步加強了他們的觀點,他們強調(diào)了一些 transformer 模型的局限性,這些模型雖然實現(xiàn)了較低的困惑度,但在生成任務(wù)(如摘要和問題解答)中卻舉步維艱。
此外,還有人對長序列語言模型在短文本序列中的潛在性能差距表示擔憂。我建議加入補充實驗結(jié)果來解決這方面的問題。
為了調(diào)和這些不同的觀點,我們與審稿人 du8a 進行了討論,隨后又與高級區(qū)域主席進行了討論。在對論文進行細致審查并考慮到所提出的合理關(guān)切后,最終決定建議拒絕該論文。這些問題,尤其是與實驗方法和所選評價指標有關(guān)的問題,被認為是實質(zhì)性的,在所提供的 rebuttal 中沒有得到充分解決。我們認為,通過增加額外的實驗來解決這些問題,對論文將大有裨益。
同樣被 ICLR 拒絕的神作:「 Word2vec」
Mamba 的經(jīng)歷,讓人們想起了十年前的一篇論文。

圖中提到的是關(guān)于的 Word2vec 首篇論文《Efficient Estimation of Word Representations in Vector Space》,由 Tomas Mikolov 等四位谷歌研究者共同完成。

論文鏈接:https://arxiv.org/pdf/1301.3781.pdf
這篇論文在 2013 年首屆 ICLR 會議被拒了,盡管當年的接收率比較高。去年, Tomas Mikolov 在梳理 Word2vec 發(fā)展歷程的時候還遺憾提到:「這讓我想到審稿人預(yù)測論文的未來影響是多么困難?!?/span>
但細看之下,Word2vec 被拒的原因倒是和一般論文不同。
在 OpenReview 的頁面,我們看到當時幾位審稿人針對提交版本給到了一波意見,比如補充定義模型的方程等等。
審稿頁面:https://openreview.net/forum?id=idpCdOWtqXd60
而 Tomas Mikolov 的回復態(tài)度偏強硬,顯然也沒有充分完善對應(yīng)每條審稿意見的材料,導致幾位審稿人看完了 rebuttal,更生氣了。
一位審稿人最終給出「Strong Reject」:

另一位審稿人曾給出「大部分內(nèi)容清晰良好」的評論,但后來也修改為「Weak Reject」:
圖
還有一位審稿人直白地指出:
「令人遺憾的是,答辯作者似乎只關(guān)心他的模型和模型組合的每一個可能的調(diào)整,卻對合理的科學對比表現(xiàn)出強烈的漠視?!?/span>
「作者寫道,有許多顯而易見的實際任務(wù),他們的詞向量應(yīng)該有所幫助,但卻沒有展示或提及任何任務(wù)?!?/span>
「除了他自己的模型、數(shù)據(jù)集和任務(wù)之外,作者似乎更愿意忽略所有其他的東西。我仍然不清楚是模型的哪個部分帶來了性能提升。是頂層任務(wù)還是詞向量的平均化?」
「鏈接到作者在維基百科上發(fā)表的一篇文章并不能作為有力的論據(jù),還不如顯示出指出實際差異的方程式。經(jīng)過審稿人之間的討論,我們一致認為論文的修訂版和隨附的 rebuttal 并沒有解決審稿人提出的許多問題,審稿人的許多問題(如哪些模型包含非線性)仍未得到回答?!?/span>

總之,這次審稿鬧得不太愉快。
后來,四位作者 Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean 和當時在谷歌任職的 Ilya Sutskever 又寫了一篇關(guān)于 Word2vec 的論文《Distributed Representations of Words and Phrases and their Compositionality》,轉(zhuǎn)投 NeurIPS 且被順利接收了。
去年,這篇論文還獲得了 NeurIPS 2023 的時間檢驗獎,獲獎理由是「這項工作引入了開創(chuàng)性的詞嵌入技術(shù) word2vec,展示了從大量非結(jié)構(gòu)化文本中學習的能力,推動了自然語言處理新時代的到來」。
可惜的是,后續(xù)幾位作者的關(guān)系陷入僵局,Tomas Mikolov 透露的版本是:
我在谷歌 Brain 內(nèi)部多次討論過這個項目,主要是與 Quoc 和 Ilya,在我轉(zhuǎn)到 Facebook AI 后他們接手了這個項目。我感到非常意外的是,他們最終以「從序列到序列(sequence to sequence)」為名發(fā)表了我的想法,不僅沒有提到我是共同作者,而且在長長的致謝部分提及了谷歌 Brain 中幾乎所有的人,唯獨沒有我。那時是資金大量涌入人工智能領(lǐng)域的時期,每一個想法都價值連城。看到深度學習社區(qū)迅速變成某種權(quán)力的游戲,我感到很悲哀。
神作的影響力,時間自會證明
從 Mamba 的 OpenReview 頁面來看,本次審稿過程中并沒有「不夠冷靜」的成員。
匯總所有審稿人的意見之后,作者團隊及時對論文內(nèi)容進行了修改和完善,補充了詳盡的實驗結(jié)果和分析。但正如審稿人所說,仍然「缺少 LRA(Long Range Arena)的結(jié)果」,導致最終被拒。
與此同時,一位細心的網(wǎng)友發(fā)現(xiàn),熱門的開源多模態(tài)大模型 CogVLM 也被這次 ICLR 拒了。


對于 Mamba、CogVLM 的作者團隊來說,拒稿是一種令人遺憾的結(jié)果,但換個角度想,研究的真正價值不會僅由某一個學術(shù)會議而界定,也不會因此被埋沒。伴隨著理論研究的不斷突破,Mamba 和 CogVLM 或許將衍生出更多有意義的成果,同樣有機會開啟一個新的時代。



































