萬引大神: 機器學習不存在了
微軟總部研究院機器學習理論組負責人萬引大神Sébastien Bubeck聯手2023新視野數學獎得主Ronen Eldan、2023新晉斯隆研究獎得主李遠志、2020斯隆研究獎得主Yin Tat Lee等人,在其論文《通用人工智能的火花:GPT-4早期實驗》中申明:“GPT-4可被視作AGI (人工通用智能)的早期版本”。這項研究最近30天關注度極高,眾多大佬爭相轉發。

大神們做了非常專業的評測,雖然最后結論措辭偏向保守,但也實實在在認定了GPT4在AGI方向質的飛躍,同時也印證了筆者的剛剛接觸ChatGPT時候的判斷:??ChatGPT是第一個真正意義的人工通用智能 。??
GPT-4展示了在推理、問題解決和語言能力方面的巨大提升。標志著人工智能的一個“相變”,并加速進步。為此微軟研究院制作了一系列播客,AI科學家兼工程師Ashley Llorens與他的同事對話,探討現在及未來的這類新模型,對人們創造、理解和部署人工智能,在醫療保健和教育等領域的應用,以及最終其造福人類意味著什么。第一集節目就邀請了Sebastien Bubeck,探討這篇論文中的發現,內容詳見文末“原文鏈接”-- AI前沿:Sébastien Bubeck解析AI物理學。
其中筆者對下面這段高度關注,Bubeck宣稱傳統機器學習已經不存在了,他和他的團隊全面轉向 AI 物理學。與筆者近期的幾篇文章的觀點不謀而合。研究大模型的機理,微軟研究院有得天獨厚的資源優勢,應該也可以看到GPT的模型內部,期待他們落地的有價值的發現,而不是像筆者能做的僅僅是理論上的推演。
*********************************

Ashley Llorens: 我想回到你早些時候提到的自然進化與人工進化的概念。我認為這開始暗示了你想要將這個領域帶到哪里的方向,至少在你的研究和團隊方面。那就是,關注涌現的方面以及智能如何涌現。那么,從這一點出發,從你剛才描述的與 Lego 的合作中,你和這個領域的未來會朝著什么方向發展呢?
Sebastien Bubeck:是的,絕對。因此,我認為或許我們需要為機器學習取一個新的名字。GPT-4和GPT-3以及其他所有大型語言模型,在某種程度上,已經不再是機器學習了。我的意思是,機器學習的全部意義在于如何教機器完成一個非常明確定義的任務?比如識別貓和狗。但在這里,這并不是我們所做的。我們不是在試圖教它一個狹窄的任務。我們試圖教它所有事情。我們也不是在模仿人類學習的方式。這是另一個困惑的地方。有些人說,哦,但它正在學習語言,但是使用比任何人類都要多的標簽。
但這有點錯了。問題在于我們不是在模仿人類的學習。這就是為什么學習也許不再是正確的詞語了。我們真正試圖模仿的是一些類似于進化的東西。我們試圖模仿數以億計的實體與世界互動的經驗。在這種情況下,世界就是人類生產的數據。
因此,這是一種非常不同的風格。我認為我們在機器學習中引入的所有工具在GPT-4的光芒下幾乎無用且不相關,因為這是一個新領域。這是需要新工具來定義的東西。因此,我們希望處于這一領域的前沿,我們想引入這些新工具。
當然,我們不知道它會是什么樣子,但我們嘗試研究的方法是嘗試理解“涌現現象”。因此,“涌現現象”是指當您擴大網絡和數據時,每個規模都會出現新屬性的現象。Google進行了一個實驗,將其大型語言模型從80億擴展到600億到5000億。
在80億時,它能夠理解語言。在600億時,突然間它能夠翻譯不同的語言。之前它無法翻譯。在5000億時,它突然能夠解釋笑話。為什么它突然能夠解釋笑話?
因此,我們真的希望理解這一點。還有另一個領域長期以來一直在研究“涌現現象”,即我們試圖研究非常復雜的粒子相互作用的系統,以及導致某些涌現行為的系統。
這是什么領域?這是物理學。因此,我們想要提出的建議是,讓我們研究人工智能的物理學或者通用人工智能的物理學,因為從某種意義上講,我們現在真正看到的是這種通用智能。那么,研究通用人工智能的物理學意味著什么?它的意思是,讓我們試著借鑒物理學家過去幾個世紀用來理解現實的方法論。
那么,這些工具是什么呢?其中之一是運行非常受控的實驗。如果你看看瀑布,觀察流動的水,水朝著各種方向流動,然后在冬天去看,水都結冰了。光憑看瀑布,GPT-4或LAMDA或者Flash語言模型是很難理解水相的。這些都是瀑布。我們需要更小尺度的非常受控的實驗,確保我們有純凈的水,它沒有被石頭或者藻類污染。我們需要這些受控的實驗來理解它。樂高積木就是一個例子。這是我們想要走的一個方向。但在物理學中,還有另一個方向,就是建立真實世界的玩具數學模型。
你試著將許多東西抽象出來,最終留下一個非常簡單的數學方程,你可以對其進行研究。然后你必須回到實驗中去,看看玩具數學模型的預測是否告訴你一些關于真實實驗的東西。所以這是我們想要走的另一個途徑。最近我們還與微軟研究院的實習生取得了一些進展。
我們有一篇論文,名為“學習閾值單元”。在這里,我們真正能夠理解最基本的元素,我不想說智能,但是在這些神經網絡中推理最基本的元素是如何出現的。這個最基本的推理元素是什么?它是一個閾值單元。它是一個接受某些值作為輸入的東西。如果這個值太小,它就把它變成零。這種出現已經是一個非常復雜的現象了。我們能夠理解這種非凸動力學,以及與之相關的穩定邊緣,這都是非常令人興奮的。但關鍵是,我們有一個玩具數學模型,在本質上我們能夠說出現與訓練不穩定性有關,這非常令人驚訝,因為通常在傳統的機器學習中,不穩定性是你不想要的東西,你想要消除所有的不穩定性。通過這種AI物理學方法,我們有一個玩具數學模型,我們能夠說實際上訓練中的不穩定性,每個人在幾十年來都看到的,實際上對學習和出現很重要。所以這是我們采取的第一步。


















