計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變，那么 LLMs 對(duì)于語(yǔ)言來說呢？原創(chuàng) 精華

發(fā)布于 2024-5-11 11:22

瀏覽

0收藏

編者按：當(dāng)前，大語(yǔ)言模型已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的熱點(diǎn)。LLMs 是否真的“智能”？它們又為我們帶來了哪些啟發(fā)？針對(duì)這些問題，Darveen Vijayan 為我們帶來了這篇引人深思的文章。
作者主要闡釋了兩個(gè)觀點(diǎn)：第一，LLMs應(yīng)被視為一種文字計(jì)算器，它通過預(yù)測(cè)下一個(gè)詞來工作，當(dāng)前階段還不應(yīng)被歸為“智能”。第二，盡管LLMs 目前存在局限，但它們?yōu)槲覀兲峁┝朔此既祟愔悄鼙举|(zhì)的契機(jī)。我們應(yīng)保持開放的思維，不斷追逐新的知識(shí)和對(duì)知識(shí)的新理解，積極與他人交流溝通，從而拓展我們的認(rèn)知邊界。
LLMs是否智能，恐怕仍存在爭(zhēng)議。但有一點(diǎn)確定無疑，它們?yōu)樽匀徽Z(yǔ)言處理領(lǐng)域帶來了革新，也為人類智能的本質(zhì)提供了新的思考維度。這篇文章值得每一位大模型工具使用者和 AI 從業(yè)者細(xì)細(xì)品讀、反復(fù)咀嚼。

作者 | Darveen Vijayan

編譯 | 岳揚(yáng)

17 世紀(jì)初，一位名叫埃德蒙·岡特的數(shù)學(xué)家和天文學(xué)家面臨了一個(gè)前所未有的天文挑戰(zhàn)——要計(jì)算行星的復(fù)雜運(yùn)動(dòng)軌跡并預(yù)測(cè)日食，天文學(xué)家不僅需要依靠直覺，還需要掌握復(fù)雜的對(duì)數(shù)運(yùn)算和三角方程。因此，像其他優(yōu)秀的創(chuàng)新者一樣，岡特決定發(fā)明一種模擬計(jì)算裝置！他創(chuàng)建的這種裝置，最終成為了我們熟知的計(jì)算尺[1]。

計(jì)算尺是一個(gè)長(zhǎng)30厘米的長(zhǎng)方形木塊，由固定框架和滑動(dòng)部分兩部分組成。固定框架中裝有固定的對(duì)數(shù)刻度，而滑動(dòng)部分則裝有可移動(dòng)的刻度。要使用計(jì)算尺，需要理解對(duì)數(shù)的基本原理，以及如何對(duì)準(zhǔn)刻度進(jìn)行乘法、除法和其他數(shù)學(xué)運(yùn)算。需要滑動(dòng)可移動(dòng)部分，使數(shù)字對(duì)齊，讀出結(jié)果，并注意小數(shù)點(diǎn)的位置。哎呀，真的太復(fù)雜啦！

計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變，那么 LLMs 對(duì)于語(yǔ)言來說呢？-AI.x社區(qū)

計(jì)算尺

大約在 300 年后，貝爾龐克公司（Bell Punch Company）于 1961 年推出了第一臺(tái)臺(tái)式電子計(jì)算器 "ANITA Mk VII"。在隨后的幾十年里，電子計(jì)算器變得越來越復(fù)雜，功能也越來越多。以前需要大量人工計(jì)算的工作所花費(fèi)的時(shí)間越來越少，使員工能夠?qū)Ｗ⒂诟叻治鲂院蛣?chuàng)造性的工作。因此，現(xiàn)代電子計(jì)算器不僅使工作更加高效，還使人們能夠更好地解決問題。

計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變，那么對(duì)于語(yǔ)言呢？

想想你是如何構(gòu)造句子的。首先，你需要有一個(gè)想法（這句話要表達(dá)什么意思）。接下來，你需要掌握一堆詞匯（擁有足夠的詞匯量）。然后，你需要能夠正確地將這些詞匯組成句子（需要掌握語(yǔ)法）。哎呀，還是那么復(fù)雜！

計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變，那么 LLMs 對(duì)于語(yǔ)言來說呢？-AI.x社區(qū)

早在 5 萬年前，也就是現(xiàn)代智人第一次創(chuàng)造語(yǔ)言的時(shí)候，我們產(chǎn)生語(yǔ)言詞匯的方式就基本保持不變了。

可以說，在構(gòu)造句子這方面，我們?nèi)匀幌駥厥褂糜?jì)算尺一樣！
It’s fair to say we’re still in Gunther’s era of using a slide rule when it comes to generating sentences!

仔細(xì)思考一下，使用恰當(dāng)?shù)脑~匯和正確的語(yǔ)法就是在遵守語(yǔ)言規(guī)則。

這與數(shù)學(xué)類似，數(shù)學(xué)充滿了規(guī)則，因此我才能確定1+1=2以及計(jì)算器的工作原理！

我們需要一種用于文字的計(jì)算器！
What we need is a calculator but for words!

是的，不同的語(yǔ)言需要遵循不同的規(guī)則，但只有遵守語(yǔ)言規(guī)則，語(yǔ)言才能被人理解。語(yǔ)言和數(shù)學(xué)的一個(gè)明顯區(qū)別是，數(shù)學(xué)有固定且確定的答案，而適合放入句子中的合理單詞可能很多。

試著填充下面這個(gè)句子：I ate a _________.（我吃了一個(gè) _________。）想象一下接下來可能出現(xiàn)的單詞。英語(yǔ)中大約有 100 萬個(gè)單詞。很多單詞可以在這里使用，但肯定不是全部。

回答“黑洞（black hole）”相當(dāng)于說 2+2=5。此外，回答“apple”也不準(zhǔn)確。為什么呢？因?yàn)檎Z(yǔ)法的限制！

計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變，那么 LLMs 對(duì)于語(yǔ)言來說呢？-AI.x社區(qū)

在過去的幾個(gè)月里，大語(yǔ)言模型（LLM）[2]風(fēng)靡全球。有人將其稱為自然語(yǔ)言處理領(lǐng)域的重大突破，也有人將其視為人工智能（AI）新時(shí)代的曙光。

事實(shí)證明，LLM 非常善于生成類人文本（human-like text），這提高了基于語(yǔ)言的人工智能應(yīng)用的標(biāo)準(zhǔn)。憑借龐大的知識(shí)庫(kù)和優(yōu)秀的語(yǔ)境理解能力，LLM 可以應(yīng)用于各個(gè)領(lǐng)域，從語(yǔ)言翻譯和內(nèi)容生成到虛擬助理和用于客戶支持的chatbots。

我們現(xiàn)在是否正處于與上世紀(jì)60年代的電子計(jì)算器類似的轉(zhuǎn)折點(diǎn)？

在回答這個(gè)問題之前，讓我們先了解一下 LLM 是如何工作的？LLM 基于 Transformer 神經(jīng)網(wǎng)絡(luò)，用于計(jì)算和預(yù)測(cè)句子中下一個(gè)最合適的單詞。要構(gòu)建一個(gè)強(qiáng)大的 Transformer 神經(jīng)網(wǎng)絡(luò)，需要在大量文本數(shù)據(jù)的基礎(chǔ)上進(jìn)行訓(xùn)練。這就是為什么“預(yù)測(cè)下一個(gè)單詞或token”的方法效果如此好：因?yàn)橛写罅咳菀撰@得的訓(xùn)練數(shù)據(jù)。LLM 將整個(gè)單詞序列（sequence of words）作為輸入，并預(yù)測(cè)下一個(gè)最有可能出現(xiàn)的單詞。為了學(xué)習(xí)最有可能出現(xiàn)的下一個(gè)詞，他們先吞下所有維基百科數(shù)據(jù)作為熱身，然后再吞下成堆的書籍，最后吞下整個(gè)互聯(lián)網(wǎng)。

我們?cè)谇懊嬉呀?jīng)確定，語(yǔ)言包含各種規(guī)則和模式。模型會(huì)通過所有這些句子來隱式地學(xué)習(xí)這些規(guī)則，用來完成預(yù)測(cè)下一個(gè)單詞的任務(wù)。

計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變，那么 LLMs 對(duì)于語(yǔ)言來說呢？-AI.x社區(qū)

深度神經(jīng)網(wǎng)絡(luò)

在單數(shù)名詞之后，下一個(gè)詞出現(xiàn)以 "s "結(jié)尾的動(dòng)詞的概率就會(huì)增加。同樣，在閱讀莎士比亞的作品時(shí)，出現(xiàn) "doth "和 "wherefore "等詞的概率也會(huì)增加。

在訓(xùn)練過程中，模型會(huì)學(xué)習(xí)這些語(yǔ)言模式，最終成為一位語(yǔ)言專家！

但這就夠了嗎？?jī)H僅學(xué)習(xí)語(yǔ)言規(guī)則就足夠了嗎？
But is that enough? Is learning linguistic rules enough?

計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變，那么 LLMs 對(duì)于語(yǔ)言來說呢？-AI.x社區(qū)

語(yǔ)言是復(fù)雜的，根據(jù)語(yǔ)境，一個(gè)詞可能有多重含義。

因此，需要自注意力（self-attention）。簡(jiǎn)單來說，自注意力是語(yǔ)言學(xué)習(xí)者用來理解句子或文章中不同單詞之間關(guān)系的一種技巧。就像你會(huì)關(guān)注故事的不同部分來理解故事一樣，自注意力可以讓 LLM 在處理信息時(shí)更加重視句子中的某些單詞。 這樣，模型就能更好地理解文本的整體含義和上下文，而不是僅僅根據(jù)語(yǔ)言規(guī)則盲目地預(yù)測(cè)下一個(gè)單詞。

計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變，那么 LLMs 對(duì)于語(yǔ)言來說呢？-AI.x社區(qū) 在這里插入圖片描述

自注意力機(jī)制

如果將大語(yǔ)言模型視為一種單詞的計(jì)算器，只會(huì)單純地預(yù)測(cè)下一個(gè)單詞，那么它如何能回答我所有的問題呢？
If LLMs are calculators for words, just predicting the next word, how can it answer all my questions?

當(dāng)你讓大語(yǔ)言模型處理一些需要思考的任務(wù)時(shí)，而它也能夠成功完成，這很可能是因?yàn)槟憬o它的任務(wù)它已經(jīng)在成千上萬個(gè)例子中見過了。即使你提出了一些非常獨(dú)特的需求，比如：

“寫一首關(guān)于虎鯨吃雞的詩(shī)”
Write me a poem about an orca eating a chicken

大語(yǔ)言模型也能夠成功完成你交待的任務(wù)：

Amidst the waves, a sight unseen, An orca hunts, swift and keen, In ocean’s realm, the dance begins, As a chicken’s fate, the orca wins.
With mighty jaws, it strikes the prey, Feathers float, adrift away, In nature’s way, a tale is spun, Where life and death become as one.
~ ChatGPT

很不錯(cuò)，對(duì)吧？這多虧了它的自注意力機(jī)制，使其能夠有效地融合和匹配相關(guān)信息，從而構(gòu)建出一個(gè)合理而連貫的回答。

在訓(xùn)練過程中，大語(yǔ)言模型（LLM）學(xué)會(huì)了識(shí)別數(shù)據(jù)中單詞（and 短語(yǔ)）之間的模式、關(guān)聯(lián)和關(guān)系。經(jīng)過大量的訓(xùn)練和微調(diào)，LLM 可以表現(xiàn)出一些新的特性，例如進(jìn)行語(yǔ)言翻譯、摘要生成、問題解答，甚至是創(chuàng)意寫作。盡管模型沒有直接接受某些任務(wù)或技能的教授，但通過對(duì)大量數(shù)據(jù)的學(xué)習(xí)和訓(xùn)練，模型可以展現(xiàn)出超出預(yù)期的能力，并且表現(xiàn)得非常出色

那么，大語(yǔ)言模型是否具備智能（intelligent）呢？
Are Large Language Models intelligent?

電子計(jì)算器（electronic calculator）已經(jīng)存在了六十多年。這種工具在技術(shù)上取得了“飛躍式”的進(jìn)步，但從來沒有被認(rèn)為是智能的。為什么呢？

圖靈測(cè)試（Turing Test）是一種判斷機(jī)器是否具有人的智能（human intelligence）的簡(jiǎn)單方法：如果一臺(tái)機(jī)器能以讓人類無法區(qū)分的方式與人類進(jìn)行對(duì)話，那么它被認(rèn)為具有人的智能。

計(jì)算器從未經(jīng)歷過圖靈測(cè)試[3]，因?yàn)樗皇褂门c人類相同的語(yǔ)言進(jìn)行交流，只能使用數(shù)學(xué)語(yǔ)言。然而，大語(yǔ)言模型生成的是人類語(yǔ)言。它的整個(gè)訓(xùn)練過程都圍繞著模仿人類語(yǔ)言展開。因此，它能夠“以讓人類無法區(qū)分的方式與人類進(jìn)行對(duì)話”并不令人意外。

因此，用“智能（intelligent）”一詞來描述大語(yǔ)言模型有些棘手，因?yàn)閷?duì)于智能的真正定義并沒有明確的共識(shí)。判斷某物是否智能的一種方式是，它是否能夠做出有趣、有用且有一定程度的復(fù)雜性或創(chuàng)造性的事情。大語(yǔ)言模型確實(shí)符合這個(gè)定義。不過，我并不完全同意這種解釋。

我將智能定義為拓展知識(shí)邊界的能力。
I define intelligence as the ability to expand the frontiers of knowledge.

截至本文撰寫之時(shí)，通過預(yù)測(cè)下一個(gè)token/單詞方式進(jìn)行工作的機(jī)器仍然無法拓展知識(shí)的邊界。

不過，它可以根據(jù)已有的數(shù)據(jù)進(jìn)行推斷和填補(bǔ)。它既無法明確理解詞語(yǔ)背后的邏輯，也無法理解現(xiàn)有的知識(shí)體系。它無法產(chǎn)生創(chuàng)新的想法或深入的洞察力。它只能提供相對(duì)一般的回答，而無法產(chǎn)生突破性的想法。

計(jì)算器對(duì)于數(shù)學(xué)的處理方式來說是一次重大的改變，那么 LLMs 對(duì)于語(yǔ)言來說呢？-AI.x社區(qū) 在這里插入圖片描述

在面對(duì)機(jī)器無法產(chǎn)生創(chuàng)新思維和深入洞察力的情況下，對(duì)于我們?nèi)祟悂碚f有什么影響或啟示呢？
So, what does this mean for us humans?

我們應(yīng)該將大語(yǔ)言模型（LLMs）更多地視為一種對(duì)詞語(yǔ)的計(jì)算器。 不應(yīng)該讓我們的思考過程完全依賴于大模型，而應(yīng)將其視為我們思考和表達(dá)的輔助工具而非替代品。

同時(shí)，隨著這些大模型的參數(shù)量呈指數(shù)級(jí)增長(zhǎng)，我們可能會(huì)感到越來越不知所措和力不從心。對(duì)此，我的建議是始終保持對(duì)看似不相關(guān)的想法的好奇心。有時(shí)候我們會(huì)遇到一些看似不相關(guān)的或矛盾的想法，但通過我們的觀察、感知、經(jīng)驗(yàn)、學(xué)習(xí)和與他人的交流，我們可以發(fā)現(xiàn)這些想法之間可能存在某種聯(lián)系，或這些想法可能是合理的。（譯者注：這種聯(lián)系可能來自于我們對(duì)事物的觀察、理解和解釋，或者是通過將不同領(lǐng)域的知識(shí)和概念相互關(guān)聯(lián)而得出的新的想法。我們應(yīng)該保持開放的思維，不僅僅局限于表面上的直覺，而是觀察、感知、經(jīng)驗(yàn)、學(xué)習(xí)和與他人的交流，來發(fā)現(xiàn)更深層次的意義和聯(lián)系。）我們不應(yīng)滿足于僅停留在已知領(lǐng)域，而是應(yīng)該積極探索新的領(lǐng)域，不斷擴(kuò)展我們的認(rèn)知邊界。 我們也應(yīng)該不斷追求新的知識(shí)或?qū)σ颜莆罩R(shí)的新理解，并將它們與已有的知識(shí)相結(jié)合，去創(chuàng)造新的見解和想法。

如果你能夠以前文所描述的思維方式和行為方式行動(dòng)，那么，無論是計(jì)算器還是大語(yǔ)言模型，所有形式的技術(shù)都將成為你可以利用的工具，而不是你需要擔(dān)心的生存威脅。

END

參考資料

[1]??https://www.whipplemuseum.cam.ac.uk/explore-whipple-collections/calculating-devices/slide-rules#:~:text=The slide rule's origins can,logarithmic scales for physical instruments??.

[2]??https://en.wikipedia.org/wiki/Large_language_model#:~:text=Large language models (LLMs) are,MassiveText%2C Wikipedia%2C and GitHub??.

[3]??https://en.wikipedia.org/wiki/Turing_test??

本文經(jīng)原作者授權(quán)，由Baihai IDP編譯。如需轉(zhuǎn)載譯文，請(qǐng)聯(lián)系獲取授權(quán)。

原文鏈接：

??https://medium.com/the-modern-scientist/large-language-models-a-calculator-for-words-7ab4099d0cc9??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

LLMs