計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變,那么 LLMs 對(duì)于語(yǔ)言來說呢? 原創(chuàng) 精華
編者按:當(dāng)前,大語(yǔ)言模型已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的熱點(diǎn)。LLMs 是否真的“智能”?它們又為我們帶來了哪些啟發(fā)?針對(duì)這些問題,Darveen Vijayan 為我們帶來了這篇引人深思的文章。
作者主要闡釋了兩個(gè)觀點(diǎn):第一,LLMs應(yīng)被視為一種文字計(jì)算器,它通過預(yù)測(cè)下一個(gè)詞來工作,當(dāng)前階段還不應(yīng)被歸為“智能”。第二,盡管LLMs 目前存在局限,但它們?yōu)槲覀兲峁┝朔此既祟愔悄鼙举|(zhì)的契機(jī)。我們應(yīng)保持開放的思維,不斷追逐新的知識(shí)和對(duì)知識(shí)的新理解,積極與他人交流溝通,從而拓展我們的認(rèn)知邊界。
LLMs是否智能,恐怕仍存在爭(zhēng)議。但有一點(diǎn)確定無疑,它們?yōu)樽匀徽Z(yǔ)言處理領(lǐng)域帶來了革新,也為人類智能的本質(zhì)提供了新的思考維度。這篇文章值得每一位大模型工具使用者和 AI 從業(yè)者細(xì)細(xì)品讀、反復(fù)咀嚼。
作者 | Darveen Vijayan
編譯 | 岳揚(yáng)
17 世紀(jì)初,一位名叫埃德蒙·岡特的數(shù)學(xué)家和天文學(xué)家面臨了一個(gè)前所未有的天文挑戰(zhàn)——要計(jì)算行星的復(fù)雜運(yùn)動(dòng)軌跡并預(yù)測(cè)日食,天文學(xué)家不僅需要依靠直覺,還需要掌握復(fù)雜的對(duì)數(shù)運(yùn)算和三角方程。因此,像其他優(yōu)秀的創(chuàng)新者一樣,岡特決定發(fā)明一種模擬計(jì)算裝置!他創(chuàng)建的這種裝置,最終成為了我們熟知的計(jì)算尺[1]。
計(jì)算尺是一個(gè)長(zhǎng)30厘米的長(zhǎng)方形木塊,由固定框架和滑動(dòng)部分兩部分組成。固定框架中裝有固定的對(duì)數(shù)刻度,而滑動(dòng)部分則裝有可移動(dòng)的刻度。要使用計(jì)算尺,需要理解對(duì)數(shù)的基本原理,以及如何對(duì)準(zhǔn)刻度進(jìn)行乘法、除法和其他數(shù)學(xué)運(yùn)算。需要滑動(dòng)可移動(dòng)部分,使數(shù)字對(duì)齊,讀出結(jié)果,并注意小數(shù)點(diǎn)的位置。哎呀,真的太復(fù)雜啦!

計(jì)算尺
大約在 300 年后,貝爾龐克公司(Bell Punch Company)于 1961 年推出了第一臺(tái)臺(tái)式電子計(jì)算器 "ANITA Mk VII"。在隨后的幾十年里,電子計(jì)算器變得越來越復(fù)雜,功能也越來越多。以前需要大量人工計(jì)算的工作所花費(fèi)的時(shí)間越來越少,使員工能夠?qū)W⒂诟叻治鲂院蛣?chuàng)造性的工作。因此,現(xiàn)代電子計(jì)算器不僅使工作更加高效,還使人們能夠更好地解決問題。
計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變,那么對(duì)于語(yǔ)言呢?
想想你是如何構(gòu)造句子的。首先,你需要有一個(gè)想法(這句話要表達(dá)什么意思)。接下來,你需要掌握一堆詞匯(擁有足夠的詞匯量)。然后,你需要能夠正確地將這些詞匯組成句子(需要掌握語(yǔ)法)。哎呀,還是那么復(fù)雜!

早在 5 萬年前,也就是現(xiàn)代智人第一次創(chuàng)造語(yǔ)言的時(shí)候,我們產(chǎn)生語(yǔ)言詞匯的方式就基本保持不變了。
可以說,在構(gòu)造句子這方面,我們?nèi)匀幌駥厥褂糜?jì)算尺一樣!
It’s fair to say we’re still in Gunther’s era of using a slide rule when it comes to generating sentences!
仔細(xì)思考一下,使用恰當(dāng)?shù)脑~匯和正確的語(yǔ)法就是在遵守語(yǔ)言規(guī)則。
這與數(shù)學(xué)類似,數(shù)學(xué)充滿了規(guī)則,因此我才能確定1+1=2以及計(jì)算器的工作原理!
我們需要一種用于文字的計(jì)算器!
What we need is a calculator but for words!
是的,不同的語(yǔ)言需要遵循不同的規(guī)則,但只有遵守語(yǔ)言規(guī)則,語(yǔ)言才能被人理解。語(yǔ)言和數(shù)學(xué)的一個(gè)明顯區(qū)別是,數(shù)學(xué)有固定且確定的答案,而適合放入句子中的合理單詞可能很多。
試著填充下面這個(gè)句子:I ate a _________.(我吃了一個(gè) _________。)想象一下接下來可能出現(xiàn)的單詞。英語(yǔ)中大約有 100 萬個(gè)單詞。很多單詞可以在這里使用,但肯定不是全部。
回答“黑洞(black hole)”相當(dāng)于說 2+2=5。此外,回答“apple”也不準(zhǔn)確。為什么呢?因?yàn)檎Z(yǔ)法的限制!

在過去的幾個(gè)月里,大語(yǔ)言模型(LLM)[2]風(fēng)靡全球。有人將其稱為自然語(yǔ)言處理領(lǐng)域的重大突破,也有人將其視為人工智能(AI)新時(shí)代的曙光。
事實(shí)證明,LLM 非常善于生成類人文本(human-like text),這提高了基于語(yǔ)言的人工智能應(yīng)用的標(biāo)準(zhǔn)。憑借龐大的知識(shí)庫(kù)和優(yōu)秀的語(yǔ)境理解能力,LLM 可以應(yīng)用于各個(gè)領(lǐng)域,從語(yǔ)言翻譯和內(nèi)容生成到虛擬助理和用于客戶支持的chatbots。
我們現(xiàn)在是否正處于與上世紀(jì)60年代的電子計(jì)算器類似的轉(zhuǎn)折點(diǎn)?
在回答這個(gè)問題之前,讓我們先了解一下 LLM 是如何工作的?LLM 基于 Transformer 神經(jīng)網(wǎng)絡(luò),用于計(jì)算和預(yù)測(cè)句子中下一個(gè)最合適的單詞。要構(gòu)建一個(gè)強(qiáng)大的 Transformer 神經(jīng)網(wǎng)絡(luò),需要在大量文本數(shù)據(jù)的基礎(chǔ)上進(jìn)行訓(xùn)練。這就是為什么“預(yù)測(cè)下一個(gè)單詞或token”的方法效果如此好:因?yàn)橛写罅咳菀撰@得的訓(xùn)練數(shù)據(jù)。LLM 將整個(gè)單詞序列(sequence of words)作為輸入,并預(yù)測(cè)下一個(gè)最有可能出現(xiàn)的單詞。為了學(xué)習(xí)最有可能出現(xiàn)的下一個(gè)詞,他們先吞下所有維基百科數(shù)據(jù)作為熱身,然后再吞下成堆的書籍,最后吞下整個(gè)互聯(lián)網(wǎng)。
我們?cè)谇懊嬉呀?jīng)確定,語(yǔ)言包含各種規(guī)則和模式。模型會(huì)通過所有這些句子來隱式地學(xué)習(xí)這些規(guī)則,用來完成預(yù)測(cè)下一個(gè)單詞的任務(wù)。

深度神經(jīng)網(wǎng)絡(luò)
在單數(shù)名詞之后,下一個(gè)詞出現(xiàn)以 "s "結(jié)尾的動(dòng)詞的概率就會(huì)增加。同樣,在閱讀莎士比亞的作品時(shí),出現(xiàn) "doth "和 "wherefore "等詞的概率也會(huì)增加。
在訓(xùn)練過程中,模型會(huì)學(xué)習(xí)這些語(yǔ)言模式,最終成為一位語(yǔ)言專家!
但這就夠了嗎??jī)H僅學(xué)習(xí)語(yǔ)言規(guī)則就足夠了嗎?
But is that enough? Is learning linguistic rules enough?

語(yǔ)言是復(fù)雜的,根據(jù)語(yǔ)境,一個(gè)詞可能有多重含義。
因此,需要自注意力(self-attention)。簡(jiǎn)單來說,自注意力是語(yǔ)言學(xué)習(xí)者用來理解句子或文章中不同單詞之間關(guān)系的一種技巧。就像你會(huì)關(guān)注故事的不同部分來理解故事一樣,自注意力可以讓 LLM 在處理信息時(shí)更加重視句子中的某些單詞。 這樣,模型就能更好地理解文本的整體含義和上下文,而不是僅僅根據(jù)語(yǔ)言規(guī)則盲目地預(yù)測(cè)下一個(gè)單詞。
在這里插入圖片描述
自注意力機(jī)制
如果將大語(yǔ)言模型視為一種單詞的計(jì)算器,只會(huì)單純地預(yù)測(cè)下一個(gè)單詞,那么它如何能回答我所有的問題呢?
If LLMs are calculators for words, just predicting the next word, how can it answer all my questions?
當(dāng)你讓大語(yǔ)言模型處理一些需要思考的任務(wù)時(shí),而它也能夠成功完成,這很可能是因?yàn)槟憬o它的任務(wù)它已經(jīng)在成千上萬個(gè)例子中見過了。即使你提出了一些非常獨(dú)特的需求,比如:
“寫一首關(guān)于虎鯨吃雞的詩(shī)”
Write me a poem about an orca eating a chicken
大語(yǔ)言模型也能夠成功完成你交待的任務(wù):
Amidst the waves, a sight unseen, An orca hunts, swift and keen, In ocean’s realm, the dance begins, As a chicken’s fate, the orca wins.
With mighty jaws, it strikes the prey, Feathers float, adrift away, In nature’s way, a tale is spun, Where life and death become as one.
~ ChatGPT
很不錯(cuò),對(duì)吧?這多虧了它的自注意力機(jī)制,使其能夠有效地融合和匹配相關(guān)信息,從而構(gòu)建出一個(gè)合理而連貫的回答。
在訓(xùn)練過程中,大語(yǔ)言模型(LLM)學(xué)會(huì)了識(shí)別數(shù)據(jù)中單詞(and 短語(yǔ))之間的模式、關(guān)聯(lián)和關(guān)系。經(jīng)過大量的訓(xùn)練和微調(diào),LLM 可以表現(xiàn)出一些新的特性,例如進(jìn)行語(yǔ)言翻譯、摘要生成、問題解答,甚至是創(chuàng)意寫作。盡管模型沒有直接接受某些任務(wù)或技能的教授,但通過對(duì)大量數(shù)據(jù)的學(xué)習(xí)和訓(xùn)練,模型可以展現(xiàn)出超出預(yù)期的能力,并且表現(xiàn)得非常出色
那么,大語(yǔ)言模型是否具備智能(intelligent)呢?
Are Large Language Models intelligent?
電子計(jì)算器(electronic calculator)已經(jīng)存在了六十多年。這種工具在技術(shù)上取得了“飛躍式”的進(jìn)步,但從來沒有被認(rèn)為是智能的。為什么呢?
圖靈測(cè)試(Turing Test)是一種判斷機(jī)器是否具有人的智能(human intelligence)的簡(jiǎn)單方法:如果一臺(tái)機(jī)器能以讓人類無法區(qū)分的方式與人類進(jìn)行對(duì)話,那么它被認(rèn)為具有人的智能。
計(jì)算器從未經(jīng)歷過圖靈測(cè)試[3],因?yàn)樗皇褂门c人類相同的語(yǔ)言進(jìn)行交流,只能使用數(shù)學(xué)語(yǔ)言。然而,大語(yǔ)言模型生成的是人類語(yǔ)言。它的整個(gè)訓(xùn)練過程都圍繞著模仿人類語(yǔ)言展開。因此,它能夠“以讓人類無法區(qū)分的方式與人類進(jìn)行對(duì)話”并不令人意外。
因此,用“智能(intelligent)”一詞來描述大語(yǔ)言模型有些棘手,因?yàn)閷?duì)于智能的真正定義并沒有明確的共識(shí)。判斷某物是否智能的一種方式是,它是否能夠做出有趣、有用且有一定程度的復(fù)雜性或創(chuàng)造性的事情。大語(yǔ)言模型確實(shí)符合這個(gè)定義。不過,我并不完全同意這種解釋。
我將智能定義為拓展知識(shí)邊界的能力。
I define intelligence as the ability to expand the frontiers of knowledge.
截至本文撰寫之時(shí),通過預(yù)測(cè)下一個(gè)token/單詞方式進(jìn)行工作的機(jī)器仍然無法拓展知識(shí)的邊界。
不過,它可以根據(jù)已有的數(shù)據(jù)進(jìn)行推斷和填補(bǔ)。它既無法明確理解詞語(yǔ)背后的邏輯,也無法理解現(xiàn)有的知識(shí)體系。它無法產(chǎn)生創(chuàng)新的想法或深入的洞察力。它只能提供相對(duì)一般的回答,而無法產(chǎn)生突破性的想法。
在這里插入圖片描述
在面對(duì)機(jī)器無法產(chǎn)生創(chuàng)新思維和深入洞察力的情況下,對(duì)于我們?nèi)祟悂碚f有什么影響或啟示呢?
So, what does this mean for us humans?
我們應(yīng)該將大語(yǔ)言模型(LLMs)更多地視為一種對(duì)詞語(yǔ)的計(jì)算器。 不應(yīng)該讓我們的思考過程完全依賴于大模型,而應(yīng)將其視為我們思考和表達(dá)的輔助工具而非替代品。
同時(shí),隨著這些大模型的參數(shù)量呈指數(shù)級(jí)增長(zhǎng),我們可能會(huì)感到越來越不知所措和力不從心。對(duì)此,我的建議是始終保持對(duì)看似不相關(guān)的想法的好奇心。有時(shí)候我們會(huì)遇到一些看似不相關(guān)的或矛盾的想法,但通過我們的觀察、感知、經(jīng)驗(yàn)、學(xué)習(xí)和與他人的交流,我們可以發(fā)現(xiàn)這些想法之間可能存在某種聯(lián)系,或這些想法可能是合理的。(譯者注:這種聯(lián)系可能來自于我們對(duì)事物的觀察、理解和解釋,或者是通過將不同領(lǐng)域的知識(shí)和概念相互關(guān)聯(lián)而得出的新的想法。我們應(yīng)該保持開放的思維,不僅僅局限于表面上的直覺,而是觀察、感知、經(jīng)驗(yàn)、學(xué)習(xí)和與他人的交流,來發(fā)現(xiàn)更深層次的意義和聯(lián)系。)我們不應(yīng)滿足于僅停留在已知領(lǐng)域,而是應(yīng)該積極探索新的領(lǐng)域,不斷擴(kuò)展我們的認(rèn)知邊界。 我們也應(yīng)該不斷追求新的知識(shí)或?qū)σ颜莆罩R(shí)的新理解,并將它們與已有的知識(shí)相結(jié)合,去創(chuàng)造新的見解和想法。
如果你能夠以前文所描述的思維方式和行為方式行動(dòng),那么,無論是計(jì)算器還是大語(yǔ)言模型,所有形式的技術(shù)都將成為你可以利用的工具,而不是你需要擔(dān)心的生存威脅。
END
參考資料
[3]??https://en.wikipedia.org/wiki/Turing_test??
本文經(jīng)原作者授權(quán),由Baihai IDP編譯。如需轉(zhuǎn)載譯文,請(qǐng)聯(lián)系獲取授權(quán)。
原文鏈接:
??https://medium.com/the-modern-scientist/large-language-models-a-calculator-for-words-7ab4099d0cc9??

















