AI教父Hinton諾獎演講首登頂刊!拒絕公式,讓全場秒懂「玻爾茲曼機」
2024年12月8日,諾貝爾物理學獎得主Hinton登臺,發表了題為《玻爾茲曼機》的演講。
當時,斯德哥爾摩大學Aula Magna禮堂內座無虛席,全球目光都集聚于此。

他深入淺出地分享了,自己與John Hopfield利用神經網絡,推動機器學習基礎性發現的歷程。

如今,Hinton這個演講的核心內容,于8月25日正式發表在美國物理學會(APS)期刊上。

論文地址:https://journals.aps.org/rmp/pdf/10.1103/RevModPhys.97.030502
1980年代,并存兩種頗具前景的梯度計算技術——
一種是,反向傳播算法,如今成為了深度學習核心引擎,幾乎無處不在。
另一種是,玻爾茲曼機器學習算法,現已不再被使用,逐漸淡出人們的視野。
這一次,Hinton的演講重點,就是「玻爾茲曼機」。
一開場,他幽默地表示,自己打算做一件「傻」事,決定在不使用公式的情況下,向所有人解釋復雜的技術概念。
霍普菲爾德網絡找到能量最低點
什么是「霍普菲爾德網絡」(Hopfield Network)?
Hinton從一個簡單的二進制神經元網絡入手,介紹了「霍普菲爾德網絡」的核心思想。
每個神經元只有1或0兩種狀態,最重要的是,神經元之間通過對稱加權連接。

整個神經網絡的全局狀態,被稱為一個「配置」(configuration),并有一個「優度」(goodness)。
其「優度」是由所有活躍神經元之間權重的總和決定,如上圖所有紅色方框,權重加起來等于4。
這便是該網絡配置的優度,而能量(energy)是優度的負值。
「霍普菲爾德網絡」的全部意義在于,每個神經元通過局部計算決定如何降低能量。
在這里,能量就代表「劣度」(badness)。因此,開啟還是關閉神經元,全憑總加權輸入的「正負」。

通過不斷更新的神經元狀態,網絡最終會穩定在「能量最低點」。
但它并非是唯一的能量低點,因為「霍普菲爾德網絡」可以有很多能量最低點,最終停留在哪一點,取決于起始狀態,也取決于更新哪個神經元的隨機決策序列。
如下,便是一個更優的能量最低點。開啟右邊神經網絡,其優度是3+3-1,能量為-5。

「霍普菲爾德網絡」的魅力在于,它可以將能量最低點與記憶關聯起來。
Hinton生動地描述道,「當你輸入一個不完整的記憶片段,然后不斷應用二進制決策規則,網絡就能補全完整記憶」。
因此,當「能量最低點」代表記憶時,讓網絡穩定到能量最低點的過程,就是實現所謂的「內容可尋址存儲」。

也就意味著,僅激活項目一部分訪問存儲器中的某個項目,然后運用此規則后,網絡就會將其補全。
不僅記憶存儲,還能解釋「感官輸入」
接下來,Hinton進一步分享了,自己與Terrence Sejnowski(霍普菲爾德學生)對「霍普菲爾德網絡」的創新應用——
用它來構建對感官輸入的解釋,而不僅僅是存儲記憶。

他們將網絡分為了「可見神經元」和「隱藏神經元」。
前者接收感官輸入,比如一幅二進制圖像;后者則用于構建對該感官輸入的解釋。網絡的某個配置的能量,代表了該解釋的劣度,他們想要的是一種低能量的解釋。

Hinton以一幅經典的模棱兩可的線條畫——內克爾立方體(Necker cube)為例,展示了網絡如何處理視覺信息的復雜性。
如下這幅畫,有的人會將其看作是「凸面體」,有的人會看到的是「凹面體」。
那么,我們如何讓神經網絡,從這一幅線條畫中得出兩種不同的解釋?在此之前,我們需要思考的是:圖像中的一條線,能告訴我們關于三維邊緣的什么信息?

視覺詮釋:從2D到3D
想象一下,你正透過一扇窗戶看向外面的世界,然后在玻璃上,把看到的景物輪廓描繪出來。
這時候,窗上的那條黑線,其實就是你畫出來的一條邊。
而那兩條紅線呢,就是從你眼睛出發,穿過這條黑線兩端的視線。
那么問題來了:現實世界中,到底是什么樣的邊緣形成了這條黑線?
其實可能性非常多,所有不同的三維邊緣,最終都會在圖像中產生同樣的線條。

所以,視覺系統最頭疼的是,怎么從這一條二維的線反推回去,判斷現實中,到底那條邊才真正存在?
為此,Hinton和Sejnowski設計了一個網絡,可以將圖像中的線條,轉化為「線神經元」的激活狀態。
然后,通過興奮性連接與代表「三維邊緣神經元」相連(綠色),并讓其相互抑制,確保一次只激活一種解釋。
如此一來,就體現了許多感知光學方面的原理。

接下來,Hinton又將此方法應用于所有的神經元,問題是,應該激活哪些邊緣神經元呢?
要回答這個問題,還需要更多信息。
人類在詮釋圖像時,都會遵循特定的原理。比如,兩條線相交,假設它們在三維空間中,也在同一點相交,且深度相同。
此外,大腦往往傾向于將物體視為直角相交。
通過合理設置連接強度,網絡可以形成兩個穩定的狀態,對應「內克爾立方體」的兩種三維詮釋——凹面體和凸面體。
這種視覺詮釋方法,又帶來了兩個核心問題:
- 搜索問題:網絡可能陷入局部最優,停留在較差的解釋上,無法跳到更好的解釋
- 學習問題:如何讓網絡自動學習連接權重,而不是手動設定

搜索問題:帶噪聲神經元
對于「搜索問題」,最基本的解決方法——引入帶有噪聲的神經元,即「隨機二進制神經元」。
這些神經元狀態為「二進制」(要么是1,要么是0),但其決策具有很強的概率性。
強的正輸入,就會開啟;強的負輸入,就會關閉;接近零的輸入則引入隨機性。
噪聲可以讓神經網絡「爬坡」,從較差的解釋跳到更好的解釋,就像在山谷間尋找最低點。

玻爾茲曼分布+機器學習
通過隨機更新隱藏神經元,神經網絡最終會趨近于所謂的「熱平衡」(thermal equilibrium)。
一旦達到熱平衡,隱藏神經元的狀態就構成了對輸入的一種詮釋。
在熱平衡下,低能量狀態(對應更好解釋)出現概率更高。
以內克爾立方體為例,網絡最終會傾向于選擇更合理的三維詮釋。
當然,熱平衡并非系統停留在單一狀態,而是所有可能配置的概率分布穩定,遵循著玻爾茲曼分布(Boltzmann distribution)。
在玻爾茲曼分布中,一旦系統達到熱平衡,其處于某個特定配置的概率,完全由該配置的能量決定。
并且,系統處于低能量配置的概率會更高。
要理解熱平衡,物理學家們有一個訣竅——你只需想象一個由海量相同網絡組成的巨大「系綜」(ensemble)。
Hinton表示,「想象無數相同的霍普菲爾德網絡,各自從隨機狀態開始,通過隨機更新,配置比例逐漸穩定」。
同樣,低能量配置,在「系綜」中占比更高。
總結來說,玻爾茲曼分布的原理在于:低能量的配置遠比高能量的配置更有可能出現。
而在「玻爾茲曼機」中,學習的目標,就是要確保當網絡生成圖像時,本質上可以稱為「做夢、隨機想象」,這些與它在「清醒」時感知真實圖像所形成的印象相吻合。
若是可以實現這種吻合,隱藏神經元的狀態,便可以有效捕捉到圖像背后的深層原因。

換句話說,學習網絡中的權重,就等同于弄清楚如何運用這些隱藏神經元,才能讓網絡生成出看起來像真實世界的圖像。
「玻爾茲曼機」學習算法
針對如上「學習問題」,Hinton與Sejnowski在1983年,提出了「玻爾茲曼機學習算法」進而解決了權重調整問題。

論文地址:https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf
該算法主要包含了兩個階段:
- 清醒階段:向網絡呈現真實圖像。將一幅真實圖像「鉗位」到可見單元上,然后讓隱藏單元演化至熱平衡。對同時開啟的神經元對,增加連接權重。
- 睡眠階段:讓網絡自由「做夢」。所有神經元隨機更新至熱平衡。對同時開啟的神經元對,減少連接權重。
這一簡單的算法,通過調整權重,提高了神經網絡在「做夢」時生成的圖像與「清醒」時感知圖像之間的相似度。

學習過程的本質,就是在降低網絡在清醒階段,從真實數據中推導出的配置所對應的能量。
與此同時,提高它在睡眠階段自由生成的配置所對應的能量。
正如Hinton所言,「你本質上是在教導這個網絡:要相信清醒時所見,而不信睡夢中所夢」。
核心創新:相關性差異
如上所見,「玻爾茲曼機」的最大亮點在于,權重調整所需的信息都蘊含在兩種相關性差異中——
網絡在「清醒」(觀察真實數據)時兩個神經元共同激活的頻率,與當網絡自由「做夢」時,它們共同激活的頻率,這兩者之間的差異。
令人驚嘆的是,這兩種相關性差異,足以告訴某個權重關于所有其他權重的一切信息。
與反向傳播(backpropagation)算法不同,「玻爾茲曼機」無需復雜的反向通路傳遞「敏感度」——一種完全不同的物理量信息。

「反向傳播」算法依賴的是,前向通路傳遞神經元活動,反向通路傳遞敏感度;「玻爾茲曼機」僅通過對稱連接性和相關性差異完成學習。
然而,「玻爾茲曼機」的最大瓶頸是——速度。
當權重較大時,達到熱平衡極其緩慢,若是權重很小,這個過程才得以加速完成。
整整17年后,Hinton突然意識到,通過消除隱藏單元之間的連接來對「玻爾茲曼機」進行限制,就可以得到一個快得多的學習算法。
由此,受限玻爾茲曼機(RBM)誕生了。

這一方法將輸入「鉗位」在可見單元上,大幅簡化了「清醒」階段的計算,僅需一步即可達到熱平衡。
不過,「睡眠」階段仍需要多次迭代,才能達到熱平衡。
為此,Hinton引入了「對比散度」(contrastive divergence)的方法,通過以下步驟實現了加速學習:
- 將數據輸入可見單元。
- 并行更新所有隱藏神經元,使其與數據達到平衡。
- 更新所有可見單元以得到一個「重構」版本。
- 再次更新所有隱藏神經元。
- 停止。

「受限玻爾茲曼機」也在實踐中取得了顯著成果。
比如,Netflix公司曾使用RBM,根據用戶偏好推薦電影,并贏得了用戶偏好預測大賽。
然而,僅靠彼此不相連的隱藏神經元,是無法構建出識別圖像中的物體/語音中,單詞所必需的多層特征檢測器。
為此,2006年,Hinton進一步提出了「堆疊RBM」的方法。
堆疊RBM
通過以下三步,就可以實現堆疊RBM:
- 用數據訓練一個RBM。
- 將該RBM的隱藏層激活模式作為數據,用于訓練下一個RBM。
- 持續這個過程,以捕捉日益復雜的關聯。
在堆疊了這些玻爾茲曼機之后,可以將它們視為一個前饋網絡,忽略其對稱連接,只使用單向的連接。

由此,這創建了一個特征的層級結構:
- 第一隱藏層:捕捉原始數據中相關性的特征。
- 第二隱藏層:捕捉第一層特征之間相關性的特征。
- 以此類推,創建出越來越抽象的表示。
等所有堆疊完成后,可以再添加一個「最終層」進行監督學習,比如分類貓和狗的圖像。

這時,神經網絡展現出兩大優勢——
- 學習速度遠超隨機初始化:因其在預訓練中,已學習到了用于建模數據結構的合理特征。
- 網絡的泛化能力也更好:大部分學習在無監督情況下進行,信息從數據相關性中提取。
歷史的「酶」
2006-2011期間,Hinton、Bengio、LeCun等實驗室研究人員,都在使用「堆疊RBM」預訓練前饋神經網絡,然后再進行反向傳播微調。
直到2009年,Hinton的學生George Dahl和Abdel-rahman Mohamed證明:
「堆疊RBM」在識別語音中的音素片段方面,效果顯著由于當時所有的方法。
這一發現,徹底改變了整個語音識別領域。
到了2012年,基于「堆疊RBM」的系統,在谷歌安卓設備上大幅改善了語音識別性能。

論文地址:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38131.pdf
然而,不幸的是,一旦證明了「堆疊RBM」預訓練的深度神經網絡的潛力,研究人員很快開發了其他初始化權重的方法。
于是,「玻爾茲曼機」逐漸退出歷史主流。
最后,Hinton做了一個非常生動形象的比喻:
但如果你是化學家,你就會知道「酶」是非常有用的東西。
「玻爾茲曼機」就像化學中「酶」,催化了深度學習的突破,一旦完成這個轉變,酶就不再被需要。
所以,不妨把它們看作是「歷史的酶」。
不過,Hinton認為,利用「睡眠」階段的「反學習」(unlearning),從而得到一個更具生物學合理性、避免反向傳播的非對稱通路的算法。
到目前為止,他依舊堅信:有一天搞明白大腦如何學習的時候,一定會發現,睡眠中「反學習」絕對是關鍵一環。





































