75歲Hinton中國大會最新演講「通往智能的兩種道路」，最后感慨：我已經老了，未來交給年輕人

作者：機器之心 2023-06-12 15:58:24

Hinton 本次的演講題目為「通往智能的兩種道路」（Two Paths to Intelligence），即以數字形式執行的不朽計算和依賴于硬件的可朽計算，它們的代表分別是數字計算機和人類大腦。

「但我已經老了，我所希望的是像你們這樣的年輕有為的研究人員，去想出我們如何能夠擁有這些超級智能，使我們的生活變得更好，而不是被它們控制。」

6 月 10 日，在 2023 北京智源大會的閉幕式演講中，在談到如何防止超級智能欺騙、控制人類的話題時，今年 75 歲的圖靈獎得主 Geoffrey Hinton 不無感慨地說道。

Hinton 本次的演講題目為「通往智能的兩種道路」（Two Paths to Intelligence），即以數字形式執行的不朽計算和依賴于硬件的可朽計算，它們的代表分別是數字計算機和人類大腦。演講最后，他重點談到了大型語言模型（LLM）為他帶來的對超級智能威脅的擔憂，對于這個涉及人類文明未來的主題，他非常直白地展現了自己的悲觀態度。

演講一開始，Hinton 便宣稱，超級智能（superintelligence）誕生的時間可能會比他曾經想象的早得多。這一觀察引出了兩大問題：（1）人工神經網絡的智能水平將會很快超越真實神經網絡嗎？（2）人類是否能保證對超級 AI 的控制？在大會演講中，他詳細討論了第一個問題；針對第二個問題，Hinton 在演講的最后表示：超級智能可能將很快到來。

首先，讓我們來看看傳統的計算方式。計算機的設計原則是要能精準地執行指令，也就是說如果我們在不同的硬件上運行相同的程序（不管是不是神經網絡），那么效果應該是一樣的。這就意味著程序中包含的知識（如神經網絡的權重）是不朽的，與具體的硬件沒有關系。

為了實現知識的不朽，我們的做法是以高功率運行晶體管，使其能以數字化（digital）的方式可靠運行。但這樣做的同時，我們就相當于拋棄了硬件其它一些性質，比如豐富的模擬性（analog）和高度的可變性。

傳統計算機之所以采用那樣的設計模式，是因為傳統計算運行的程序都是人類編寫的?，F在隨著機器學習技術的發展，計算機有了另一種獲取程序和任務目標的方法：基于樣本的學習。

這種新范式讓我們可以放棄之前計算機系統設計的一項最基本原則，即軟件設計與硬件分離；轉而進行軟件與硬件的協同設計。

軟硬件分離設計的優點是能將同一程序運行在許多不同的硬件上，同時我們在設計程序時也能只看軟件，不管硬件 —— 這也是計算機科學系與電子工程系能夠分開設立的原因。

而對于軟硬件協同設計，Hinton 提出了一個新概念：Mortal Computation。對應于前面提到不朽形式的軟件，我們這里將其譯為「可朽計算」。

可朽計算是什么？

可朽計算放棄了可在不同硬件上運行同一軟件的不朽性，轉而采納了新的設計思路：知識與硬件的具體物理細節密不可分。這種新思路自然也有優有劣。其中主要的優勢包括節省能源和低硬件成本。

在節能方面可以參考人腦，人腦就是一種典型的可朽計算裝置。雖然人腦中也依然有一個比特的數字計算，即神經元要么發射要么不發射，但整體來說，人腦的絕大多數計算都是模擬計算，功耗非常低。

可朽計算也可以使用更低成本的硬件。相較于現如今以二維模式高精度生產的處理器，可朽計算的硬件能以三維模式「生長」出來，因為我們不需要明確知道硬件的連接方式以及每個部件的確切功能。很顯然，為了實現計算硬件的「生長」，我們需要很多新型納米技術或對生物神經元進行基因改造的能力。改造生物神經元的方法可能更容易實現，因為我們已經知道生物神經元大致能夠完成我們想要的任務。

為了展示模擬計算的高效能力，Hinton 給出了一個示例：計算一個神經活動向量與一個權重矩陣的積（神經網絡的大部分工作都是此類計算）。

對于該任務，當前計算機的做法是使用高功耗的晶體管將數值表示成數字化的比特形式，然后執行 O (n2) 數字運算將兩個 n 比特的數值相乘。雖然這只是計算機上的單個運算，但卻是 n2 個比特的運算。

而如果使用模擬計算呢？我們可以將神經活動視為電壓，將權重視為電導；那么每一單位時間里，電壓乘以電導可得到電荷，電荷可以疊加。這種工作方式的能效會高很多，而且其實現在已經存在這樣工作的芯片了。但很不幸，Hinton 表示，現在人們還是要使用非常昂貴的轉換器將模擬形式的結果轉換成數字形式。他希望以后我們能在模擬領域完成整個計算過程。

可朽計算也面臨著一些問題，其中最主要的是難以保證結果的一致性，即在不同硬件上的計算結果可能會有所差別。另外，在反向傳播不可用的情況下，我們還需要找到新方法。

可朽計算面臨的問題：反向傳播不可用

在特定硬件上執行可朽計算的學習時，就需要讓程序學習利用該硬件的特定模擬屬性，但它們無需知道這些屬性究竟是什么。舉個例子，它們無需知道究竟神經元的內部連接方式究竟是怎樣的，該神經元的輸入和輸出又是通過什么函數關聯起來的。

這意味著我們不能使用反向傳播算法來獲取梯度，因為反向傳播需要一個確切的前向傳播模型。

那么既然可朽計算不能使用反向傳播，我們又該怎么做呢？下面來看看在模擬硬件上執行的一個簡單學習過程，其中用到的方法稱為權重擾動。

首先，為網絡中的每個權重生成一個隨機向量，該向量由隨機的小擾動構成。然后，基于一個或少量樣本，測量全局目標函數在使用這個擾動向量后的變化情況。最后，根據目標函數的提升情況，將該擾動向量帶來的效果按比例尺度永久化到權重之中。

這個算法的優點是其大致上的行為模式與反向傳播一致，同樣遵循梯度。但問題是它具有非常高的方差。因此，當網絡規模增大時，在權重空間中選擇隨機移動方向時所產生的噪聲會很大，讓這個方法難以為繼。這就意味著這種方法僅適用于小型網絡，不適用于大型網絡。

另一種方法是活動擾動，雖然它也存在類似的問題，但也能更好地用于更大型的網絡。

活動擾動方法是要用隨機向量對每個神經元的整體輸入執行擾動，然后在一小批樣本下觀察目標函數的變化情況，再計算如何改變該神經元的權重以遵循梯度。

與權重擾動相比，活動擾動的噪聲要小得多。并且這種方法已經足以學習 MNIST 這樣的簡單任務。如果你使用非常小的學習率，那么它的行為就與反向傳播完全一樣，但速度要慢得多。而如果學習率較大，那么噪聲會很多，但也足夠應對 MNIST 這樣的任務。

但是如果我們的網絡規模還要更大呢？Hinton 提到了兩種方法。

第一種方法是使用巨量目標函數，也就是說不使用單個函數來定義大型神經網絡的目標，而是使用大量函數來定義網絡中不同神經元集團的局部目標。

這樣一來，大型神經網絡就被化整為零，我們就能使用活動擾動來學習小型的多層神經網絡。但問題來了：這些目標函數從何而來？

其中一種可能性是在不同層級的局部圖塊上使用無監督對比學習。其工作方式是這樣的：一個局部圖塊有多個表示層級，在每個層級，該局部圖塊會盡力與同一圖像的所有其它局部圖塊產生的平均表示保持一致；與此同時，還要盡力與其它圖像在該層級的表示保持差異。

Hinton 表示該方法在實踐中的表現很不錯。大概的做法是讓每個表示層級都具有多個隱藏層，這樣可以進行非線性的操作。這些層級使用活動擾動來進行貪婪學習并且不會反向傳播到更低層級。由于它不能像反向傳播那樣傳遞很多層，因此不會像反向傳播那樣強大。

實際上這正是 Hinton 團隊近些年最重要的研究成果之一，詳情可參閱機器之心的報道《放棄反向傳播后，Geoffrey Hinton 參與的前向梯度學習重磅研究來了》。

Mengye Ren 通過大量研究表明該方法是能夠在神經網絡中實際生效的，但操作起來卻很復雜，實際效果也還趕不上反向傳播。如果大型網絡的深度更深，那么它與反向傳播的差距還會更大。

Hinton 表示這個能利用模擬屬性的學習算法只能說還算 OK，足以應對 MNIST 這樣的任務，但也并不是真正好用，比如在 ImageNet 任務上的表現就不是很好。

可朽計算面臨的問題：知識的傳承

可朽計算面臨的另一個主要問題是難以保證知識的傳承。由于可朽計算與硬件高度相關，因此無法通過復制權重來復制知識，這就意味著當特定的硬件「死去」時，其學習到的知識也會一并消失。

Hinton 說解決該問題的最好方法是在硬件「死去」之前，將知識傳遞給學生。這類方法被稱為知識蒸餾（knowledge distillation），這一概念是 Hinton 在 2015 年與 Oriol Vinyals 和 Jeff Dean 合著的論文《Distilling the Knowledge in a Neural Network》中最早提出的。

這一概念的基本思路很簡單，就類似于教師教授學生知識：教師向學生展示不同輸入的正確響應，學生嘗試模仿教師的響應。

Hinton 使用了美國前總統特朗普發推文為例來進行直觀的說明：特朗普發推時常常會對各種事件做出非常情緒化的回應，這會促使其追隨者改變自己的「神經網絡」，從而產生同樣的情緒反應；這樣一來，特朗普就將偏見蒸餾到了其追隨者的頭腦中，就像——Hinton 很顯然并不喜歡特朗普。

知識蒸餾方法的效果如何呢？考慮到特朗普擁躉眾多，效果應該不會差。Hinton 使用了一個例子進行解釋：假設一個智能體需要將圖像歸類到 1024 個互不重疊的類別。

要指認出正確答案，我們只需要 10 比特信息。因此，要訓練該智能體正確識別一個特定樣本，只需要提供 10 比特信息來約束其權重即可。

但假如我們訓練一個智能體使之與一個教師在這 1024 個類別上的概率大致保持一致呢？也就是說，使該智能體的概率分布與該教師一樣。這個概率分布有 1023 個實數，如果這些概率都不是很小，那么其提供的約束就增多了幾百倍。

為了確保這些概率不是太小，可以「高溫」運行教師，在訓練學生時也以「高溫」運行學生。比如說，如果采用的是 logit，那就是輸入 softmax 的東西。對于教師來說，可以基于溫度參數對其進行縮放，進而得到一個更 soft 的分布；然后在訓練學生時使用同樣的溫度。

下面來看一個具體的例子。下圖是來自 MNIST 訓練集的字符 2 的一些圖像，對應的右側是當運行教師的溫度高時，教師為每張圖像分配的概率。

對于第一行，教師確信它是 2；教師對第二行也有信心是 2，但它也認為可能是 3 或 8。第三行則有些像 0。對于這個樣本，教師應該說這是一個 2，但也應該留點可能性給 0。這樣一來，比起直接告訴學生這是 2，學生能從中學到更多。

對于第四行，可以看到教師有信心它是 2，但它也認為有點可能是 1，畢竟有時候我們寫的 1 就類似于圖左側畫的那樣。

對于第五行，教師出錯了，認為它是 5（但根據 MNIST 標簽應該是 2）。學生也能從教師的錯誤中學到很多。

蒸餾有一個很特殊的性質，那就是當使用教師給出的概率來訓練學生時，那就在訓練學生以老師那樣的方式來進行泛化。如果教師為錯誤答案分配了一定的小概率，那么也會訓練學生泛化到錯誤答案。

通常來說，我們訓練模型是為了讓模型在訓練數據上得到正確答案，并能將這種能力泛化到測試數據上。但使用教師 - 學生訓練模式時，我們是直接訓練學生的泛化能力，因為學生的訓練目標是能與老師一樣地進行泛化。

很顯然，我們可以創建更豐富的輸出以供蒸餾。比如說我們可以為每張圖像賦予一個描述，而不僅僅是單個標簽，然后再訓練學生來預測這些描述中的詞。

接下來，Hinton 談到了在智能體群中共享知識的研究。這也是一種傳承知識的方式。

當多個智能體構成的社群互相共享知識時，共享知識的方式能在很大程度上決定計算執行的方式。

對于數字模型，我們可以通過復制創建大量使用相同權重的智能體。我們可以讓這些智能體查看訓練數據集的不同部分，讓它們各自基于不同部分的數據計算權重的梯度，然后再對這些梯度進行平均。這樣一來，每個模型都學到了其它每個模型學到的知識。這種訓練策略的好處是能高效處理大量數據；如果模型很大，就可以在每次共享中共享大量比特。

同時，由于這種方法需要各個智能體的工作方式完全一樣，因此就只能是數字模型才行。

權重共享的成本也很高。要讓不同的硬件以同樣的方式工作，就需要以極高的精準率生產計算機，使得它們在執行相同的指令時總是會得到相同的結果。另外，晶體管的功耗也不低。

蒸餾也能夠替代權重共享。尤其是當你的模型用到了特定硬件的模擬屬性時，那就不能使用權重共享了，而是必須使用蒸餾來共享知識。

用蒸餾共享知識的效率并不高，帶寬很低。就像在學校里，教師都想把自己知道的知識灌進學生腦袋，但這是不可能的，因為我們是生物智能，你的權重對我沒用。

這里先簡單總結一下，上面提到了兩種截然不同的執行計算的方式（數字計算和生物計算），并且智能體之間共享知識的方式也大相徑庭。

那么現在發展正盛的大型語言模型（LLM）是哪種形式呢？它們是數字計算方式，能使用權重共享。

但是 LLM 的每個副本智能體都只能以非常低效的蒸餾方式學習文檔中的知識。LLM 的做法是預測文檔的下一個詞，但是并沒有教師對于下一個詞的概率分布，它有的只是一個隨機選擇，即該文檔作者在下一個詞位置選用的詞。LLM 實際上學習的是我們人類，但傳遞知識的帶寬非常低。

話又說回來，雖然 LLM 的每個副本通過蒸餾學習的效率非常低，但它們數量多呀，可以多達幾千個，也因此它們能學到比我們多數千倍的東西。也就是說現在的 LLM 比我們任何人都更加博學。

超級智能會終結人類文明嗎？

接下來 Hinton 提出了一個問題：「如果這些數字智能并不通過蒸餾非常緩慢地學習我們，而是開始直接從現實世界學習，那么會發生什么呢？」

實際上，LLM 在學習文檔時就已經在學習人類數千年所積累的知識了。因為人類會通過語言描述我們對世界的認識，那么數字智能就能直接通過文本學習來獲得人類積累的知識。盡管蒸餾的速度很慢，但它們也確實學到了非常抽象的知識。

如果數字智能可以通過圖像和視頻建模來進行無監督學習呢？現在的互聯網上已有大量影像數據可供使用，未來我們也許能夠找到讓 AI 有效學習這些數據的方法。另外，如果 AI 有機器臂等可以操控現實的方法，也能進一步幫助它們學習。

Hinton 相信，如果數字智能體能做到這些，那么它們的學習能力將遠遠勝過人類，學習速度也會很快。

現在就回到了 Hinton 在開始時提出的問題：如果 AI 的智能水平超過我們，我們還能控制住它們嗎？

Hinton 表示，他做這場演講主要是想表達出他的擔憂。他說：「我認為超級智能出現的時間可能會遠遠快于我之前所想。」他給出了超級智能掌控人類的幾種可能方式。

比如不良行為者可能會利用超級智能來操控選舉或贏得戰爭（實際上現在已經有人在用已有 AI 做這些事情了）。

在這種情況下，如果你想要超級智能更高效，你可能會允許它自行創建子目標。而掌控更多權力是一個顯而易見的子目標，畢竟權力越大，控制的資源越多，就更能幫助智能體實現其最終目標。然后超級智能可能會發現，通過操控運用權力的人就能輕松獲得更多權力。

我們很難想象比我們聰明的存在以及我們與它們互動的方式。但 Hinton 認為比我們聰明的超級智能肯定能學會欺騙人類，畢竟人類有那么多小說和政治文獻可供學習。

一旦超級智能學會了欺騙人類，它就能讓人類去進行它想要的行為。這和人騙人其實沒有本質區別。Hinton 舉例說，如果某人想要入侵華盛頓的某棟大樓，他其實無需親自前去，他只需要欺騙人們，讓他們相信入侵這棟大樓是為了拯救民主。

「我覺得這非常可怕?！笻inton 的悲觀溢于言表，「現在，我看不到該怎么防止這種情況發生，但我已經老了?！顾Ｍ嗄瓴趴兡軌蛘业椒椒ㄗ尦壷悄軒椭祟惿畹酶?，而不是讓人類落入它們的控制之中。

但他也表示我們有一個優勢，盡管是相當小的優勢，即 AI 不是進化而來的，而是人類創造的。這樣一來，AI 就不具備原始人類那樣的競爭性和目標。也許我們能夠在創造 AI 的過程中為它們設定道德倫理原則。

不過，如果是智能水平遠超人類的超級智能，這樣做也不見得有效。Hinton 說他從沒見過更高智能水平的東西被遠遠更低智能水平的東西控制的案例。就假設說如果是青蛙創造了人類，但現在的青蛙和人類又是誰控制誰呢？

最后，Hinton 悲觀地放出了這次演講的最后一頁幻燈片：

這既標志著演講的結束，也是對全體人類的警示：超級智能可能導致人類文明的終結。

責任編輯：張燕妮來源：機器之心

智能演講

75歲Hinton中國大會最新演講「通往智能的兩種道路」，最后感慨：我已經老了，未來交給年輕人

可朽計算是什么？

可朽計算面臨的問題：反向傳播不可用

可朽計算面臨的問題：知識的傳承

超級智能會終結人類文明嗎？

75歲Hinton中國大會最新演講「通往智能的兩種道路」，最后感慨：我已經老了，未來交給年輕人

可朽計算是什么？