田淵棟給OpenAI神秘Q*項(xiàng)目潑冷水:合成數(shù)據(jù)不是AGI救星,能力僅限簡(jiǎn)單數(shù)學(xué)題
Q*猜想,持續(xù)在AI社區(qū)火爆。
大家都在猜測(cè),Q*是否就是「Q-learning + A*」。
AI大牛田淵棟也詳細(xì)分析了一番,「Q*=Q-learning+A*」的假設(shè),究竟有多大可能性。
與此同時(shí),越來(lái)越多人給出判斷:合成數(shù)據(jù),就是LLM的未來(lái)。
不過(guò),田淵棟對(duì)這種說(shuō)法潑了冷水。
我部分不同意「AGI只需通過(guò)放大合成數(shù)據(jù)就能解決」的說(shuō)法。
搜索之所以強(qiáng)大,是因?yàn)槿绻h(huán)境設(shè)計(jì)得當(dāng),它將創(chuàng)造出無(wú)限多的新模式供模型學(xué)習(xí)和適應(yīng)。
然而,學(xué)習(xí)這樣的新模式是否需要數(shù)十億的數(shù)據(jù),仍是一個(gè)未決問(wèn)題,這可能表明,我們的架構(gòu)/學(xué)習(xí)范式存在一些根本性缺陷。
相比之下,人類往往更容易通過(guò)「啊哈」時(shí)刻,來(lái)發(fā)現(xiàn)新的范式。

而英偉達(dá)高級(jí)科學(xué)家Jim Fan也對(duì)此表示同意:合成數(shù)據(jù)將發(fā)揮重要作用,但僅僅是通過(guò)盲目擴(kuò)展,并不足以達(dá)到 AGI。

Q*=Q-learning+A,有多大可能
田淵棟表示,根據(jù)自己過(guò)去在 OpenGo(AlphaZero 的再現(xiàn))上的經(jīng)驗(yàn),A* 可被視為只帶有值(即啟發(fā)式)函數(shù)Q的確定性MCTS版本。

A*很適用于這樣的任務(wù):給定行動(dòng)后,狀態(tài)很容易評(píng)估;但給定狀態(tài)后,行動(dòng)卻很難預(yù)測(cè)。符合這種情況的一個(gè)典型例子,就是數(shù)學(xué)問(wèn)題。
相比之下,圍棋卻是另一番景象:下一步候選棋相對(duì)容易預(yù)測(cè)(只需通過(guò)檢查局部形狀),但要評(píng)估棋盤形勢(shì),就棘手得多。
這就是為什么我們也有相當(dāng)強(qiáng)大的圍棋機(jī)器人,但它們只利用了策略網(wǎng)絡(luò)。

對(duì)于LLM,使用 Q(s,a)可能會(huì)有額外的優(yōu)勢(shì),因?yàn)樵u(píng)估 Q(s,a) 可能只需要預(yù)填充,而預(yù)測(cè)策略a = pi(s) ,則需要自回歸采樣,這就要慢得多。另外,在只使用解碼器的情況下,s的KV緩存可以在多個(gè)操作中共享。
傳說(shuō)中的Q*,已經(jīng)在解決數(shù)學(xué)問(wèn)題上有了重大飛躍,這種可能性又有多大呢?
田淵棟表示,自己是這樣猜測(cè)的:因?yàn)榻鉀Q的入門級(jí)數(shù)學(xué)問(wèn)題,所以值函數(shù)設(shè)置起來(lái)應(yīng)該相對(duì)容易一些(例如,可以從自然語(yǔ)言形式的目標(biāo)規(guī)范中預(yù)測(cè))。
如果想要解決困難的數(shù)學(xué)問(wèn)題,卻不知道如何該怎么做,那么這種方法可能還不夠。

LeCun轉(zhuǎn)發(fā)了田淵棟的討論,對(duì)他的觀點(diǎn)表示贊同——「他解釋了A*(在圖形中搜索最短路徑)和MCTS(在指數(shù)增長(zhǎng)的樹(shù)中搜索)之間適用性的差異?!?/span>

對(duì)于LeCun的轉(zhuǎn)發(fā),田淵棟表示,自己一直在做許多不同的事情,包括規(guī)劃、理解Transformers/LLM和高效的優(yōu)化技術(shù),希望能把這些技術(shù)都結(jié)合起來(lái)。
有網(wǎng)友表示懷疑稱,「要使A*有效,就需要一個(gè)可證明的、可接受且一致的啟發(fā)式函數(shù)。但我非常懷疑能有人想出這樣的函數(shù),因?yàn)榇_定子序列的值并不容易。」


即使做出的是小學(xué)數(shù)學(xué)題,Q*也被寄予厚望
對(duì)大模型稍微有些了解的人都知道,如果擁有解決基本數(shù)學(xué)問(wèn)題的能力,就意味著模型的能力取得了重大飛躍。
這是因?yàn)?,大模型很難在訓(xùn)練的數(shù)據(jù)之外進(jìn)行泛化。
AI訓(xùn)練初創(chuàng)公司Tromero的聯(lián)合創(chuàng)始人Charles Higgins表示,現(xiàn)在困擾大模型的關(guān)鍵按難題,就是怎樣對(duì)抽象概念進(jìn)行邏輯推理,如果實(shí)現(xiàn)了這一步,就是毫無(wú)疑問(wèn)的重大飛躍。
數(shù)學(xué)是關(guān)于符號(hào)推理的學(xué)問(wèn),比如,如果X比Y大,Y比Z大,那么X就比Z大。

如果Q*的確就是Q-learning+A*,這就表明,OpenAI的全新模型可以將支持ChatGPT的深度學(xué)習(xí)技術(shù)與人類編程的規(guī)則相結(jié)合。而這種方法,可以幫助解決LLM的幻覺(jué)難題。
Tromero聯(lián)創(chuàng)Sophia Kalanovska表示,這具有非常重要的象征意義,但在實(shí)踐層面上,它不太可能會(huì)終結(jié)世界。
那為什么坊間會(huì)有「Q*已現(xiàn)AGI雛形」的說(shuō)法傳出呢?
Kalanovska認(rèn)為,從目前傳出的說(shuō)法看來(lái),Q*能夠結(jié)合大腦的兩側(cè),既能從經(jīng)驗(yàn)中了解一些事情,還能同時(shí)推理事實(shí)。
顯然,這就離我們公認(rèn)的智能又近了一步,因?yàn)镼*很可能讓大模型有了新的想法,而這是ChatGPT做不到的。
現(xiàn)有模型的最大限制,就是僅能從訓(xùn)練數(shù)據(jù)中反芻信息,而不能推理和發(fā)展新的想法。
解決看不見(jiàn)的問(wèn)題,就是創(chuàng)建AGI的關(guān)鍵一步。
薩里人類中心AI研究所的所長(zhǎng)Andrew Rogoyski表示,現(xiàn)在已有的大模型,都可以做本科水平的數(shù)學(xué)題,但一旦遇到更高級(jí)的數(shù)學(xué)題,它們就全部折戟了。
但如果LLM真的能夠解決全新的、看不見(jiàn)的問(wèn)題,這就是一件大事,即使做出的數(shù)學(xué)題是相對(duì)簡(jiǎn)單的。
合成數(shù)據(jù)是未來(lái)LLM的關(guān)鍵?
所以,合成數(shù)據(jù)是王道嗎?
Q*的爆火引起一眾大佬的猜想,而對(duì)于傳聞中「巨大的計(jì)算資源,使新模型能夠解決某些數(shù)學(xué)問(wèn)題」,大佬們猜測(cè)這重要的一步有可能是RLAIF(來(lái)自 AI 反饋的強(qiáng)化學(xué)習(xí))。
RLAIF是一種由現(xiàn)成的 LLM 代替人類標(biāo)記偏好的技術(shù),通過(guò)自動(dòng)化人工反饋,使針對(duì)LLM的對(duì)齊操作更具可擴(kuò)展性。

之前在LLM訓(xùn)練中大放異彩的RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)) 可以有效地將大型語(yǔ)言模型與人類偏好對(duì)齊,但收集高質(zhì)量的人類偏好標(biāo)簽是一個(gè)關(guān)鍵瓶頸。

于是Anthropic、Google等公司已經(jīng)嘗試轉(zhuǎn)向RLAIF,使用AI來(lái)代替人類完成反饋訓(xùn)練的過(guò)程。
這也就意味著,合成數(shù)據(jù)才是王道,并且使用樹(shù)形結(jié)構(gòu)為以后提供越來(lái)越多的選擇,以得出正確的答案。
不久前Jim Fan就在推特上表示,合成數(shù)據(jù)將提供下一萬(wàn)億個(gè)高質(zhì)量的訓(xùn)練數(shù)據(jù)。

「我敢打賭,大多數(shù)嚴(yán)肅的LLM小組都知道這一點(diǎn)。關(guān)鍵問(wèn)題是如何保持質(zhì)量并避免過(guò)早停滯不前?!?/span>
Jim Fan還引用了Richard S. Sutton的文章《The Bitter Lesson》,來(lái)說(shuō)明,人工智能的發(fā)展只有兩種范式可以通過(guò)計(jì)算無(wú)限擴(kuò)展:學(xué)習(xí)和搜索。
「在撰寫這篇文章的2019 年是正確的,而今天也是如此,我敢打賭,直到我們解決 AGI 的那一天?!?/span>
Richard S. Sutton是加拿大皇家學(xué)會(huì)和英國(guó)皇家學(xué)會(huì)的院士,他被認(rèn)為是現(xiàn)代計(jì)算強(qiáng)化學(xué)習(xí)的創(chuàng)始人之一,對(duì)該領(lǐng)域做出了多項(xiàng)重大貢獻(xiàn),包括時(shí)間差異學(xué)習(xí)和策略梯度方法。

在這篇文章中,Sutton主要表達(dá)了這樣幾個(gè)觀點(diǎn):
利用計(jì)算的通用方法最終是最有效的,而且效率很高。但有效的原因在于摩爾定律,更確切地說(shuō)是由于每單位計(jì)算成本持續(xù)呈指數(shù)下降。
最初,研究人員努力通過(guò)利用人類知識(shí)或游戲的特殊功能來(lái)避免搜索,而一旦搜索得到大規(guī)模有效應(yīng)用,所有這些努力都會(huì)顯得無(wú)關(guān)緊要。
統(tǒng)計(jì)方法再次戰(zhàn)勝了基于人類知識(shí)的方法,這導(dǎo)致了整個(gè)自然語(yǔ)言處理領(lǐng)域的重大變化,幾十年來(lái),統(tǒng)計(jì)和計(jì)算逐漸成為了主導(dǎo)。
人工智能研究人員經(jīng)常試圖將知識(shí)構(gòu)建到系統(tǒng)中,這在短期內(nèi)是有幫助的,但從長(zhǎng)遠(yuǎn)來(lái)看,有可能會(huì)阻礙進(jìn)一步的進(jìn)展。
突破性的進(jìn)展最終將通過(guò)基于搜索和學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)。
心靈的實(shí)際內(nèi)容是極其復(fù)雜的,我們應(yīng)該停止嘗試尋找簡(jiǎn)單的方法來(lái)表示思想,相反,我們應(yīng)該只構(gòu)建可以找到并捕獲這種任意復(fù)雜性的元方法。
——所以,看起來(lái)Q*似乎抓住了問(wèn)題的關(guān)鍵(搜索和學(xué)習(xí)),而合成數(shù)據(jù)將進(jìn)一步使它突破以往的限制,達(dá)成自己的飛躍。
對(duì)于合成數(shù)據(jù),馬斯克也表示人類確實(shí)打不過(guò)機(jī)器。

「你可以把人類寫的每本書(shū)的文字都放在一個(gè)硬盤上(嘆氣),而合成數(shù)據(jù)將遠(yuǎn)遠(yuǎn)超過(guò)這些?!?/span>
對(duì)此,Jim Fan與馬斯克互動(dòng)說(shuō),

「如果我們能大規(guī)模模擬它們,大量的合成數(shù)據(jù)將來(lái)自具身智能體,例如Tesla Optimus。」
Jim Fan認(rèn)為 RLAIF 或者來(lái)自 groundtruth 反饋的 RLAIF 如果正確擴(kuò)展將有很長(zhǎng)的路要走。此外,合成數(shù)據(jù)還包括模擬器,原則上可以幫助LLM開(kāi)發(fā)世界模型。

「理想情況下是無(wú)限的。但令人擔(dān)憂的是,如果自我提升循環(huán)不夠有效,就有可能會(huì)停滯不前?!?/span>
對(duì)于兩人的一唱一和,LeCun表示有話要說(shuō):

LeCun認(rèn)為,動(dòng)物和人類在訓(xùn)練數(shù)據(jù)量極少的情況下,很快就變得非常聰明。
所以,使用更多的數(shù)據(jù)(合成或非合成)是一種暫時(shí)的權(quán)宜之計(jì),只是因?yàn)槲覀兡壳暗姆椒ㄓ芯窒扌浴?/span>
對(duì)此,支持「大數(shù)據(jù)派」的網(wǎng)友表示不服:

「難道不應(yīng)該是數(shù)百萬(wàn)年的進(jìn)化適應(yīng)類似于預(yù)訓(xùn)練,而我們一生的經(jīng)驗(yàn)類似于持續(xù)的微調(diào)嗎?」
LeCun于是給出一個(gè)例子作為解釋,人類用于承接幾百萬(wàn)年進(jìn)化成果的手段只有基因,而人類基因組中的數(shù)據(jù)量很小,只有800MB。

連一個(gè)小型的 7B LLM 都需要 14GB的存儲(chǔ)空間,相比之下,人類基因中確實(shí)沒(méi)有太多的數(shù)據(jù)。
另外,黑猩猩和人類基因組之間的差異約為1%(8MB)。這一點(diǎn)點(diǎn)差別完全不足以解釋人與黑猩猩之間能力的差異。
而說(shuō)到后天學(xué)習(xí)的數(shù)據(jù)量,一個(gè) 2 歲的孩子看到的視覺(jué)數(shù)據(jù)總量是非常小的, 他所有的學(xué)習(xí)時(shí)間約 3200 萬(wàn)秒(2x365x12x3600)。
人類有 200 萬(wàn)根光神經(jīng)纖維,每根神經(jīng)纖維每秒傳輸大約 10 個(gè)字節(jié)?!@樣算下來(lái)總共有 6E14 個(gè)字節(jié)。
相比之下,LLM 訓(xùn)練的數(shù)據(jù)量通常為 1E13 個(gè)token,約為 2E13 個(gè)字節(jié)。——所以2歲孩子獲得的數(shù)據(jù)量只相當(dāng)于LLM的 30 倍。
不論大佬們的爭(zhēng)論如何,大型科技公司如Google、Anthropic、Cohere 等正在通過(guò)過(guò)程監(jiān)督或類似 RLAIF 的方法創(chuàng)建預(yù)訓(xùn)練大小的數(shù)據(jù)集,為此耗費(fèi)了巨大的資源。
所以大家都清楚,合成數(shù)據(jù)是擴(kuò)大數(shù)據(jù)集的捷徑。在短期內(nèi),我們顯然可以利用它創(chuàng)建一些有用的數(shù)據(jù)。
只是這是否就是通往未來(lái)的道路?只能等待時(shí)間來(lái)告訴我們答案。

































