精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

機(jī)械鸚鵡與真正的智能:大語言模型推理能力的迷思 原創(chuàng) 精華

發(fā)布于 2024-12-19 10:32
瀏覽
0收藏

編者按: 大語言模型真的具備推理能力嗎?我們是否誤解了"智能"的本質(zhì),將模式匹配誤認(rèn)為是真正的推理?

本文深入探討了大語言模型(LLMs)是否真正具備推理能力這一前沿科學(xué)問題,作者的核心觀點(diǎn)是:LLMs 本質(zhì)上是高級(jí)的模式識(shí)別機(jī)器,而非真正具備邏輯推理能力。

首先,作者指出,盡管大語言模型在各類推理能力基準(zhǔn)測(cè)試中表現(xiàn)出色,但其性能實(shí)際上高度依賴于訓(xùn)練數(shù)據(jù)中的模式識(shí)別,而非真正的邏輯推理。其次,文章質(zhì)疑了目前廣泛使用的思維鏈(Chain-of-Thought)提示詞技術(shù)。再者,通過對(duì)數(shù)學(xué)推理的深入分析,作者指出 LLMs 實(shí)際上并不理解數(shù)學(xué)概念,而是在尋找和匹配模式。即便在復(fù)雜的數(shù)學(xué)問題中,模型也常常表現(xiàn)出對(duì)無關(guān)信息的過度敏感性。

本文作者并未貶低大語言模型的價(jià)值,而是客觀地將其定位為擁有非凡記憶能力的系統(tǒng),期待未來能夠開發(fā)出真正具備推理能力的人工智能架構(gòu)。

作者 | Salvatore Raieli

編譯 | 岳揚(yáng)

機(jī)械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區(qū)

image generated by the author using DALL-E

我很少遇到能夠進(jìn)行推理的數(shù)學(xué)家?!?柏拉圖

推理能夠引導(dǎo)出結(jié)論,但這些結(jié)論是否確鑿,還需通過經(jīng)驗(yàn)的驗(yàn)證才能確定?!?羅杰·培根

大語言模型(LLMs)[1]展現(xiàn)出的性能驚人,特別是在自然語言處理[2]的傳統(tǒng)領(lǐng)域(比如回答問題)方面表現(xiàn)突出。更令人驚訝的是,它們?cè)谀切┬枰壿嬐评淼膹?fù)雜任務(wù)(如編程和數(shù)學(xué)問題解決)上也取得了進(jìn)步。長(zhǎng)期以來,這些能力一直被認(rèn)為是人類獨(dú)有的。因此,當(dāng)人們提出大語言模型(LLMs)能夠解決那些需要推理的任務(wù)時(shí),這個(gè)觀點(diǎn)引發(fā)了激烈的討論。

大語言模型(LLMs)真的能夠進(jìn)行推理嗎?還是它們僅僅是比較高級(jí)的模式匹配器(pattern matchers)?

推理能力對(duì)于人工智能系統(tǒng)與人類的有效互動(dòng)以及在執(zhí)行關(guān)鍵任務(wù)時(shí)的應(yīng)用具有決定性意義。這種能力要求系統(tǒng)能夠邏輯性地推理(reason logically)、進(jìn)行推斷(conduct inference)、解決問題,并基于現(xiàn)有信息作出決策。在科學(xué)探索、醫(yī)療健康、金融領(lǐng)域以及教育行業(yè)中,能夠?yàn)槲覀兲峁?shí)質(zhì)性幫助的模型,同樣需要具備這些技能。

新模型的問世使得這場(chǎng)討論愈發(fā)激烈。隨著 OpenAI GPT-4o1[3] 的發(fā)布,人們對(duì)使用思維鏈(COT)訓(xùn)練模型來提高推理能力產(chǎn)生了濃厚的興趣。經(jīng)過這種訓(xùn)練的大語言模型(LLMs)所取得的成果讓一些公司宣稱,現(xiàn)在的 LLMs 已經(jīng)具備了推理能力,AGI 離我們?cè)絹碓浇恕?/p>

因此,當(dāng)前的我們正處于一場(chǎng)深刻的大辯論之中:一方面,有公司和研究人員堅(jiān)稱這些模型已經(jīng)擁有了推理能力[4];而另一方面,也有人將 LLMs 貶稱為“隨機(jī)鸚鵡(stochastic parrots)”。

本文將著重探討以下問題的答案:

  • 何謂推理?
  • 大語言模型(LLMs)是否具備真正的推理能力,還是僅僅在做鸚鵡學(xué)舌?
  • 我們對(duì)于推理能力的評(píng)估方法是否準(zhǔn)確無誤?

01 何謂推理(reasoning)?

推理是根據(jù)現(xiàn)有信息、邏輯和分析內(nèi)容得出結(jié)論或做出決定的基本認(rèn)知過程。根據(jù)亞里士多德的觀點(diǎn),推理可分為兩種類型:

  • 演繹推理(Deductive reasoning):從普遍原理中得出具體結(jié)論。
  • 歸納推理(Inductive reasoning):通過觀察現(xiàn)象來形成一般性結(jié)論。

傳統(tǒng)觀念認(rèn)為,推理是人類獨(dú)有的能力。但現(xiàn)在我們發(fā)現(xiàn),靈長(zhǎng)類、章魚甚至鳥類也展現(xiàn)出了一定的推理能力,它們能夠進(jìn)行決策和解決問題。

一般來說,推理被視為解決復(fù)雜問題或做出明智選擇的過程。這要求識(shí)別問題、將其拆分為小問題、發(fā)現(xiàn)其中的規(guī)律,然后選擇最佳解決方案。決策過程也相似,需要識(shí)別問題、尋找規(guī)律,并在做出選擇前對(duì)備選方案進(jìn)行評(píng)估。

然而,這些定義存在不明確之處。按照這些標(biāo)準(zhǔn),LLM 也可以被視為具有推理能力。

02 LLM 能夠推理嗎?

在一系列評(píng)估推理能力的基準(zhǔn)測(cè)試中(如 GLUE[5]、SuperGLUE[6] 和 Hellaswag[7]),大語言模型(LLMs)的表現(xiàn)甚至超越了人類。有人據(jù)此認(rèn)為,LLMs 可以進(jìn)行推理并得出合乎邏輯的結(jié)論。

LLMs 推理能力的提升主要得益于兩個(gè)方面:

  • LLMs 在所有針對(duì)推理能力評(píng)估設(shè)計(jì)的基準(zhǔn)測(cè)試中都表現(xiàn)出了推理能力。
  • 隨著模型參數(shù)、token 數(shù)量和計(jì)算資源的增加,模型的新特性不斷涌現(xiàn)。

采用思維鏈(CoT)等技巧,可以讓模型發(fā)揮其潛力。如果我們認(rèn)為 LLMs 不具備推理能力,那么我們就需要對(duì)上述觀點(diǎn)提出質(zhì)疑。

2.1 LLMs 在推理能力基準(zhǔn)測(cè)試中的驚艷表現(xiàn)

當(dāng)有人聲稱 LLM 不會(huì)推理時(shí),AGI 的支持者會(huì)回應(yīng)說:“看看推理能力基準(zhǔn)測(cè)試[8]的結(jié)果。”這就像是“鴨子測(cè)試(duck test)”:如果它能像人一樣解決問題,做出決策,甚至在推理能力基準(zhǔn)測(cè)試中勝出,那么它很可能就具有人類擁有的推理能力。

然而,也有學(xué)者對(duì)此表示懷疑1。模型看似能夠進(jìn)行復(fù)雜的推理,但實(shí)際上它們依賴的是概率模式匹配,而非嚴(yán)謹(jǐn)?shù)男问酵评恚╢ormal reasoning)。

模型對(duì)特定 tokens 的過度依賴表明,它更多的是在利用輸入數(shù)據(jù)的表面特征,而非深入理解背后推理任務(wù)的本質(zhì)?!?source[9]

換言之,這些脆弱的表現(xiàn)揭示了 LLMs 在遇到與訓(xùn)練過程中所見模式不同的新案例時(shí),缺乏泛化能力。一旦改變例子中的 tokens,就會(huì)導(dǎo)致邏輯錯(cuò)誤(因?yàn)槟P蜔o法將新例子與訓(xùn)練數(shù)據(jù)中的模式相對(duì)應(yīng))。因此,模型對(duì)于測(cè)試案例極為敏感,容易受其影響(這也解釋了為何模型有時(shí)看似推理能力驚人,有時(shí)卻會(huì)以失敗告終)。

通過擾動(dòng)例子中的 tokens,我們可以看到模型的脆弱性,擾動(dòng)導(dǎo)致 LLM 無法解決問題(說明其“推理”過于依賴特定的 tokens,并將它們與訓(xùn)練集中的內(nèi)容相匹配)。這一點(diǎn)通過訓(xùn)練數(shù)據(jù)中例子的出現(xiàn)頻率與測(cè)試表現(xiàn)之間的相關(guān)性得到了驗(yàn)證8。

機(jī)械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區(qū)

“圖論中經(jīng)典的‘二十五匹馬’問題。上面兩幅子圖由 GPT-4o 生成,僅供參考,通過將‘馬’改為‘兔子’來演示這一概念,這與問題的基本邏輯無關(guān)。下面兩幅子圖顯示的是 GPT-4 和 Claude 的實(shí)驗(yàn)結(jié)果,其中動(dòng)物名稱和數(shù)量的擾動(dòng)導(dǎo)致性能顯著下降”。圖片來源:??https://arxiv.org/pdf/2406.11050??

這種現(xiàn)象被稱為“提示詞敏感性”(即模型對(duì)于語義上等價(jià)的不同提示詞會(huì)有不同的反應(yīng))11-12。這意味著模型對(duì)于與訓(xùn)練文本更為貼近的提示詞會(huì)有更好的響應(yīng)。

大語言模型(Large Language Models,LLM)同樣對(duì)噪聲敏感2。實(shí)際上,這些模型很容易受到無關(guān)上下文的影響,導(dǎo)致其在進(jìn)行推理時(shí)的表現(xiàn)大打折扣。此外,即便是那些專門用于提升推理能力的提示詞技巧[10],也無法完全消除噪聲的影響。這表明,噪聲對(duì)模型記憶中模式識(shí)別能力的干擾是顯著的。

2.2 智力被視為一種“涌現(xiàn)屬性”

許多人認(rèn)為,智力是隨著生物系統(tǒng)自然趨向于復(fù)雜化和能力提升而逐漸涌現(xiàn)的[11]。如果生物不能適應(yīng)這種變化,就會(huì)在進(jìn)化壓力下被淘汰。因此,進(jìn)化過程會(huì)導(dǎo)致生物變得越來越聰明或越來越特化。智力就是在這樣的壓力下逐步進(jìn)化而來的。智力的發(fā)展顯然需要資源,因此大腦發(fā)展到了支持智力發(fā)展的水平。有些人認(rèn)為,在模式訓(xùn)練(pattern training function)中的損失函數(shù)就如同一種進(jìn)化壓力。因此,一旦模型擁有了足夠的“神經(jīng)元”,它們就能夠發(fā)展出推理能力(用專業(yè)術(shù)語來說,就是隨著模型規(guī)模的擴(kuò)大,推理能力逐漸顯現(xiàn))。

如前所述,這種推理能力的增強(qiáng)被認(rèn)為是模型規(guī)模增加的結(jié)果(無論是參數(shù)的數(shù)量還是訓(xùn)練 tokens 的數(shù)量)。但是,在一些學(xué)者看來,推理能力是一種需要達(dá)到一定參數(shù)閾值才能顯現(xiàn)的涌現(xiàn)屬性。然而,后續(xù)的研究表明,大語言模型(Large Language Models,LLMs)中的涌現(xiàn)屬性[12]可能是一種測(cè)量誤差,因此,整個(gè)理論就與推理能力的突然出現(xiàn)3, 13有關(guān)了。

2.3 CoT is not all you need

其他學(xué)者認(rèn)為,大語言模型(Large Language Models,LLMs)本身具備推理能力,但這種能力需要通過特定方式來激活。思維鏈(Chain-of-thought,CoT)提示詞就是這樣一種方法,它通過中間推理過程幫助模型釋放其潛力,進(jìn)而引導(dǎo)模型在解決算術(shù)問題時(shí)得出正確答案4。然而,幾周前的一篇文章對(duì) CoT 的實(shí)際效用提出了質(zhì)疑5:

在 MMLU 基準(zhǔn)測(cè)試中,CoT 帶來的性能提升,多達(dá) 95% 是因?yàn)閱栴}或生成的輸出中包含了“=”符號(hào)。對(duì)于非數(shù)學(xué)問題,我們并未發(fā)現(xiàn)任何跡象表明 CoT 在什么情況下會(huì)有幫助?!?source[13]

由此可見,CoT 在解決數(shù)學(xué)問題上的確有所幫助,但它并不能真正激活 LLM 的推理潛力。盡管如此,CoT 仍被吹噓為靈丹妙藥,并被認(rèn)為是最新一代 LLMs 推理能力的基礎(chǔ)[14]。

機(jī)械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區(qū)

通過對(duì)思維鏈(Chain-of-thought,CoT)相關(guān)文獻(xiàn)的元分析發(fā)現(xiàn),無論是在數(shù)學(xué)領(lǐng)域還是其他類型的符號(hào)推理領(lǐng)域,CoT 都能帶來顯著的性能提升(紅色虛線所示為不同實(shí)驗(yàn)中 CoT 帶來的平均改進(jìn)效果)。圖片來源:??https://arxiv.org/pdf/2409.12183??

這些發(fā)現(xiàn)似乎表明,LLMs 并不具備常識(shí)推理能力,但這并不意味著它們完全不具備其他類型的推理能力。

LLMs 真的能夠進(jìn)行數(shù)學(xué)推理嗎?

盡管數(shù)學(xué)推理似乎是 LLMs 在推理方面的優(yōu)勢(shì),但有研究表明,LLMs 可能只是在識(shí)別模式(patterns)。也就是說,它們?cè)趯ふ夷J剑╬atterns)時(shí),并不真正理解這些數(shù)學(xué)符號(hào)的含義。

一些研究者指出6,LLMs 在數(shù)學(xué)上無法進(jìn)行形式推理(formal reasoning),因?yàn)樗鼈儾荒苤贫ǔ鲂袆?dòng)計(jì)劃(這里所說的計(jì)劃是指一系列行動(dòng)策略,通過執(zhí)行這些策略,可以從初始狀態(tài)達(dá)到期望的最終狀態(tài))。沒有這樣的計(jì)劃,模型就只能簡(jiǎn)單復(fù)現(xiàn)訓(xùn)練中遇到的模式(patterns)[15],而無法真正解決問題。在某些情況下,甚至可能是用戶無意中引導(dǎo) LLM 找到了答案7:

這就是所謂的“聰明的漢斯效應(yīng)(The Clever Hans Effect)”,LLM 只是在進(jìn)行猜測(cè),而真正引導(dǎo)它的是處于環(huán)路中的人類,他們憑借對(duì)正確與錯(cuò)誤解決方案的了解,無意中操控了 LLM 的輸出 —— 即便他們并非有意為之。因此,確保準(zhǔn)確性(如果有的話)的功過都應(yīng)該歸咎于這個(gè)環(huán)路中的人類。source:??https://arxiv.org/pdf/2403.04121??

機(jī)械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區(qū)

LLMs 所聲稱的推理能力,有時(shí)實(shí)際上是由于參與其中的人類在不自覺中提供了有益的、連續(xù)的提示詞。圖片來源:??https://arxiv.org/pdf/2403.04121??

綜上所述,支持大語言模型(LLM)存在推理能力的人們認(rèn)為,我們之所以看到模型的這些行為,有多方面的原因。但是有幾項(xiàng)研究表明,它們與這些觀點(diǎn)存在沖突。

盡管那些研究堅(jiān)稱大語言模型(LLM)不具備推理能力,但它們?cè)谒谢鶞?zhǔn)測(cè)試中都取得了驚人的成績(jī),甚至在一些復(fù)雜的測(cè)試中超越了人類的表現(xiàn)[16]。因此,我們提供的證據(jù)似乎更多是基于理論,而不是基于大語言模型(LLM)解決數(shù)學(xué)和復(fù)雜問題能力的實(shí)證研究。

是否是因?yàn)槿祟悓?duì)于被大語言模型(LLM)超越而感到不滿,還是其中確實(shí)存在問題呢?

2.4 發(fā)現(xiàn)一名學(xué)生在抄襲

無疑,看到有人聲稱大語言模型(LLM)的表現(xiàn)堪比博士生,這讓人感到不悅:

o1-preview 模型的設(shè)計(jì)初衷是處理具有挑戰(zhàn)性的任務(wù),它通過像人一樣花更多時(shí)間思考和優(yōu)化回答來應(yīng)對(duì)復(fù)雜問題。在測(cè)試中,這種方法使得模型在物理、化學(xué)和生物等領(lǐng)域的表現(xiàn)接近博士生水平。source:??https://venturebeat.com/ai/forget-gpt-5-openai-launches-new-ai-model-family-o1-claiming-phd-level-performance/??

暫且不提這種不快,問題在于我們?nèi)绾魏饬窟@些模型的能力。我們可能并沒有用正確的方法來測(cè)試它們的推理能力,是時(shí)候采用新的評(píng)測(cè)體系了。

這些模型都在 GSM8K(Grade School Math 8K)[17]數(shù)據(jù)集上進(jìn)行測(cè)試,這個(gè)數(shù)據(jù)集提供了復(fù)雜的算術(shù)問題,但由于訓(xùn)練 LLM 時(shí)使用了數(shù)十億個(gè)數(shù)據(jù) tokens,存在答案泄露的風(fēng)險(xiǎn)。此外,這個(gè)數(shù)據(jù)集只提供了一個(gè)固定問題集上的單一度量標(biāo)準(zhǔn),對(duì)我們了解 LLM 的推理能力幫助有限(有趣的是,LLM 可能在推理完全錯(cuò)誤的情況下仍然給出正確答案)。而且,這個(gè)數(shù)據(jù)集是靜態(tài)的,不允許我們改變測(cè)試條件。

在這項(xiàng)研究中,研究者提出了一個(gè)新的基準(zhǔn)測(cè)試數(shù)據(jù)集 GSM-Symbolic[18] 9,它通過使用符號(hào)模板生成不同的問題。通過該數(shù)據(jù)集,我們可以調(diào)整問題的難度,并在測(cè)試時(shí)提供更精確的控制。這個(gè)數(shù)據(jù)集實(shí)際上與之前用于推理測(cè)試的數(shù)據(jù)集相同,只是對(duì)問題進(jìn)行了修改,使得簡(jiǎn)單的統(tǒng)計(jì)模式匹配(statistical pattern matching)變得困難。如果 LLM 真的具備推理能力,它應(yīng)該能夠輕松解決這些問題;但如果它無法進(jìn)行泛化,那么它將無法完成任務(wù)。

機(jī)械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區(qū)

GSM-Symbolic 模板創(chuàng)建過程示意圖。圖片來源:??https://arxiv.org/pdf/2410.05229??

在對(duì)最先進(jìn)的 LLMs 進(jìn)行測(cè)試時(shí),研究者并未發(fā)現(xiàn)模型具備形式推理的能力。這些模型并不穩(wěn)健,當(dāng)數(shù)值發(fā)生變化時(shí),性能就會(huì)下降,且在問題復(fù)雜性提升時(shí),其處理能力會(huì)迅速衰退。

如果向問題中插入看似相關(guān)卻實(shí)際上對(duì)推理和結(jié)論無影響的語句,模型便容易被誤導(dǎo)。模型會(huì)將這些語句考慮在內(nèi),從而誘發(fā)錯(cuò)誤。研究指出,模型并沒有真正理解數(shù)學(xué)概念,而是試圖將這些語句轉(zhuǎn)化為數(shù)學(xué)操作。作者們推測(cè),這可能是由于訓(xùn)練數(shù)據(jù)集中包含了類似需要轉(zhuǎn)化為數(shù)學(xué)操作的例子。

比如,我們觀察到的一種常見情況是,無論上下文如何,模型會(huì)將涉及“折扣”的語句理解為“乘法”。這不禁讓人質(zhì)疑,這些模型是否真正掌握了數(shù)學(xué)概念。來源:??https://arxiv.org/pdf/2410.05229??

機(jī)械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區(qū)

圖片來源:??https://arxiv.org/pdf/2410.05229??

這再次證明,模型甚至在模式(patterns)僅僅是背景噪聲的情況下,也會(huì)試圖尋找這些模式(patterns)。當(dāng)噪聲增強(qiáng),尋找模式(patterns)的難度加大(或者難以一致性地將這些模式(patterns)映射到解決方案上),模型的性能就會(huì)大幅下滑10。這一點(diǎn)同樣適用于那些經(jīng)過 CoT 訓(xùn)練的 LLMs(比如 ChatGPT4-O1[3])。這進(jìn)一步說明,CoT 并未真正提升模型的推理能力。

機(jī)械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區(qū)

圖片來源:??https://www.arxiv.org/pdf/2409.13373??

03 結(jié)束語

本文探討了一個(gè)熱門話題:LLMs 是否具備推理能力?或者至少是某種形式的推理能力?

我們所展示的研究成果給出了不同的觀點(diǎn),認(rèn)為 LLMs 實(shí)質(zhì)上是高級(jí)的模式匹配機(jī)器。 總結(jié)來說,這些研究指出:

  • LLMs 通過海量 tokens 進(jìn)行訓(xùn)練,因此存在主要基準(zhǔn)測(cè)試數(shù)據(jù)集發(fā)生數(shù)據(jù)污染的風(fēng)險(xiǎn)。即便模型未曾直接見過某個(gè)數(shù)學(xué)問題,它也可能接觸過眾多類似的案例。
  • 憑借其龐大的知識(shí)庫和與生俱來的模式識(shí)別能力(歸功于注意力機(jī)制和上下文學(xué)習(xí)[19]),它們能夠解決大部分問題。
  • 它們?cè)趹?yīng)對(duì)問題變化、tokens 偏差以及噪聲影響方面的脆弱性,強(qiáng)烈表明 LLMs 并不具備形式推理的能力。最新研究結(jié)果顯示,即便采用先進(jìn)的提示詞技術(shù),模型仍然容易受到噪聲和不相關(guān)(甚至可能誤導(dǎo))信息的影響。
  • 這些模型能夠進(jìn)行模式匹配,但似乎并不理解解決問題所依據(jù)的任何數(shù)學(xué)概念。

這些發(fā)現(xiàn)并未否定 LLMs 的實(shí)用性,而是對(duì) LLMs 具備推理能力的觀點(diǎn)提出了質(zhì)疑。 這些結(jié)果表明,可以將 LLM 視為擁有非凡記憶力的機(jī)器,卻無法進(jìn)行推理(或者可以說是迄今為止最精巧的“機(jī)械鸚鵡”)。這并非貶低創(chuàng)造它們所需的卓越技術(shù),而是對(duì)人類智慧結(jié)晶的贊嘆。 為了更深入地理解 LLMs 的能力,以及開發(fā)能夠進(jìn)行推理的新模型架構(gòu),可能還需要進(jìn)一步的研究。

Reference

  1. Jiang, 2024, A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners, ??https://arxiv.org/abs/2406.11050??
  2. Shi, 2023, Large Language Models Can Be Easily Distracted by Irrelevant Context, ??https://proceedings.mlr.press/v202/shi23a.html??
  3. Schaeffer, 2023, Are emergent abilities of large language models a mirage? ??https://arxiv.org/pdf/2304.15004??
  4. Wei, 2022, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, ??https://arxiv.org/abs/2201.11903??
  5. Sprague, 2024, To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning, ??https://arxiv.org/abs/2409.12183??
  6. Valmeekam, 2023, PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change
  7. Kambhampati, 2024, Can Large Language Models Reason and Plan? ??https://arxiv.org/abs/2403.04121??
  8. Razeghi, 2022, Impact of Pretraining Term Frequencies on Few-Shot Reasoning, ??https://arxiv.org/abs/2202.07206??
  9. Mirzadeh, 2024, GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, ??https://arxiv.org/abs/2410.05229??
  10. Valmeekam, 2024, LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench, ??https://www.arxiv.org/abs/2409.13373??
  11. Lu, 2022, Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity, ??https://aclanthology.org/2022.acl-long.556/??
  12. Zhao, 2021, Calibrate Before Use: Improving Few-shot Performance of Language Models, ??https://proceedings.mlr.press/v139/zhao21c.html??
  13. Rogers, 2024, Position: Key Claims in LLM Research Have a Long Tail of Footnotes, ??https://openreview.net/forum?id=M2cwkGleRL??

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Salvatore Raieli

Senior data scientist | about science, machine learning, and AI. Top writer in Artificial Intelligence

END

本期互動(dòng)內(nèi)容 ??

?您對(duì)未來可能出現(xiàn)的、真正具備推理能力的 AI 系統(tǒng)有什么期待和想象?

??文中鏈接??

[1]??https://github.com/SalvatoreRa/tutorial/blob/main/artificial intelligence/FAQ.md#large-language-models:~:text=Large Language Models,-What is a??

[2]??https://en.wikipedia.org/wiki/Natural_language_processing??

[3]??https://openai.com/index/introducing-openai-o1-preview/??

[4]??https://aibusiness.com/nlp/chatgpt-update-claims-reasoning-capabilities-industry-reacts??

[5]??https://gluebenchmark.com/??

[6]??https://super.gluebenchmark.com/??

[7]??https://deepgram.com/learn/hellaswag-llm-benchmark-guide??

[8]??https://paperswithcode.com/area/reasoning??

[9]??https://arxiv.org/pdf/2406.11050??

[10]??https://www.promptingguide.ai/techniques??

[11]??https://ngsf.in/2021/09/19/intelligence-as-an-emergent-property-in-biological-systems/??

[12]??https://github.com/SalvatoreRa/tutorial/blob/main/artificial intelligence/FAQ.md#large-language-models:~:text=What does it mean emergent properties%3F what it is the scaling law%3F??

[13]??https://arxiv.org/pdf/2409.12183??

[14]??https://openai.com/index/learning-to-reason-with-llms/??

[15]??https://www.lakera.ai/blog/what-is-in-context-learning??

[16]??https://www.technologyreview.com/2023/08/30/1078670/large-language-models-arent-people-lets-stop-testing-them-like-they-were/??

[17]??https://paperswithcode.com/dataset/gsm8k??

[18]??https://machinelearning.apple.com/research/gsm-symbolic??

[19]??http://ai.stanford.edu/blog/understanding-incontext/??

原文鏈接:

??https://towardsdatascience.com/the-savant-syndrome-is-pattern-recognition-equivalent-to-intelligence-242aab928152??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
日本免费一区视频| 黄色香蕉视频在线观看| 国产探花视频在线观看| av一区二区久久| 国产精品18久久久久久首页狼| 国产精品av久久久久久无| 麻豆一区在线| 精品久久久在线观看| 亚洲精品二区| 内射后入在线观看一区| 奇米888四色在线精品| 久久99久久亚洲国产| 色婷婷在线影院| 国产三级一区| 精品久久久久人成| 在线观看日韩片| 你懂的在线播放| 国产麻豆日韩欧美久久| 国产精品xxxxx| 国产黄色网址在线观看| 蜜桃精品一区二区三区| 91福利精品第一导航| 99国产精品白浆在线观看免费| 国产一区二区影视| 成人va在线观看| 91在线看www| 少妇一级淫片日本| 国产精品亚洲综合久久| 欧美高清自拍一区| 亚洲少妇xxx| 日韩欧美高清在线播放| 亚洲美女动态图120秒| 国产a级片视频| 青娱乐极品盛宴一区二区| 欧美日韩国产影院| a级黄色小视频| 福利在线视频网站| 国产精品国产三级国产aⅴ入口| 精品国产一区二区三区麻豆小说| 精品国产一级片| 精品系列免费在线观看| 国产精品美女免费视频| 伊人手机在线视频| 在线亚洲欧美| 97在线视频一区| 国产成人无码精品亚洲| 亚洲韩日在线| 久久免费视频在线| 国产精品16p| 在线精品福利| 久久久久久久久久久免费| 国产精品 欧美激情| 久久亚洲国产| 中文字幕国产精品久久| 懂色av粉嫩av浪潮av| 欧美理论视频| 亚洲性无码av在线| 久久午夜福利电影| 日韩中文在线电影| 精品国产一区二区三区久久狼黑人 | 欧美va亚洲va国产综合| 日本女人性视频| 一区二区三区视频免费视频观看网站| 91精品在线观看入口| 午夜影院免费版| 伊人久久大香线蕉av超碰| 欧美va天堂va视频va在线| 亚洲啪av永久无码精品放毛片 | 麻豆精品视频| 国产精品99999| 国产精品久久久久久久久久久免费看 | 欧美系列在线观看| 久久久久久久久久一区| 免费观看亚洲视频大全| 亚洲成人黄色网| 37p粉嫩大胆色噜噜噜| 台湾亚洲精品一区二区tv| 亚洲欧美成人网| 午夜精品久久久久99蜜桃最新版| 91精品久久久久久久久久不卡| 欧美日韩成人在线视频| 日韩av一区二区在线播放| 日一区二区三区| 91久久精品国产91性色| 手机av在线免费观看| 国产亚洲欧洲997久久综合| 一区二区在线观看网站| ririsao久久精品一区| 欧美制服丝袜第一页| 毛片毛片毛片毛片毛| 任你弄精品视频免费观看| 在线中文字幕日韩| 国产精品18p| 蜜桃av一区二区在线观看| 亚洲精品女av网站| 女人偷人在线视频| 夜夜爽夜夜爽精品视频| 50路60路老熟妇啪啪| 国产一区 二区| 亚洲精品有码在线| 久久免费看少妇高潮v片特黄 | 成人影视亚洲图片在线| 欧美国产在线视频| 自拍偷拍第八页| 成人污污视频在线观看| 日韩欧美在线一区二区| 24小时免费看片在线观看| 欧美中文字幕不卡| 7788色淫网站小说| 亚洲欧洲中文字幕| 国产成人精品一区| 色欲av伊人久久大香线蕉影院| 国产精品久久免费看| 欧美一区二区中文字幕| 日韩一区二区三区色| 在线观看日韩欧美| 日本韩国欧美中文字幕| 国产jizzjizz一区二区| 中文字幕日韩一区二区三区不卡| 亚洲风情在线资源| 精品国产乱码久久久久久闺蜜 | 成人激情春色网| 欧美香蕉爽爽人人爽| 亚洲一二三区不卡| 亚洲综合123| 日韩理论电影院| 国产999精品| 天堂av网在线| 欧美日韩另类在线| 国产白袜脚足j棉袜在线观看| 久久久久蜜桃| 91精品久久久久久久久久久久久久| 日本在线一二三| 精品福利视频导航| 国产伦精品一区三区精东| 欧美激情视频一区二区三区在线播放| 国产精品亚洲精品| jizz在线观看中文| 欧美三级电影网站| 国产黄色录像视频| 老司机午夜精品| 亚洲一二区在线| 成人看片毛片免费播放器| 亚洲一级片在线看| 凹凸精品一区二区三区| 国产午夜精品一区二区三区视频 | 青青青在线视频| 国内精品伊人久久久久影院对白| 一区二区三区av| 亚洲日本免费电影| 久久久国产视频91| 精品久久久久成人码免费动漫| 亚洲欧美在线aaa| 91网址在线观看精品| 欧美日韩影院| 99在线热播| 999福利在线视频| 日韩精品视频免费| 波多野结衣在线观看视频| 日本一区二区在线不卡| а 天堂 在线| 欧美激情五月| 久久精品国产一区二区三区日韩| 中文在线资源| 色av中文字幕一区| 99热这里只有精品1| 亚洲一级二级在线| 一级特黄a大片免费| 日韩精品欧美成人高清一区二区| 五月天亚洲综合情| 麻豆国产一区二区三区四区| 久久琪琪电影院| 黄色网址在线播放| 欧美蜜桃一区二区三区| 国产在线观看99| 91蜜桃传媒精品久久久一区二区| 成人性生生活性生交12| 91av精品| 久久国产一区二区| 激情小说亚洲| 91精品国产91久久| h视频网站在线观看| 日韩一区二区免费高清| 精品91久久久| 国产精品对白交换视频 | 日本成人黄色网| 88国产精品视频一区二区三区| 国产精品一区二区a| 姬川优奈av一区二区在线电影| 久久国产一区二区三区| 天天干,夜夜操| 欧美丰满美乳xxx高潮www| 日韩精品成人在线| 国产精品欧美精品| 国产三级视频网站| 国产老女人精品毛片久久| 久久精品免费一区二区| 欧美一区精品| 日本免费一区二区三区| 亚洲精品一区在线| 国产精品成人品| segui88久久综合| 久久不射热爱视频精品| 成人在线免费视频| 亚洲黄色在线看| 国产日韩欧美一区二区东京热| 欧美性生活大片免费观看网址| 又色又爽的视频| www激情久久| 波多野结衣三级视频| 日韩电影免费在线看| 国产精品宾馆在线精品酒店| 一区二区三区在线电影| 色噜噜狠狠色综合网| 久久久久观看| 成人免费视频网站入口| 亚洲欧洲二区| 国产精品激情自拍| 中文在线а√天堂| 久久久亚洲影院| 在线观看av免费| 久久精品99久久香蕉国产色戒| 国产69久久| 亚洲欧美精品在线| 亚洲av片一区二区三区| 精品国产三级a在线观看| 国产喷水福利在线视频| 欧美午夜一区二区| 波多野结衣高清在线| 欧美日在线观看| 国产污污视频在线观看| 五月天丁香久久| xxxxxx国产| 亚洲电影在线播放| 国产亚洲精久久久久久无码77777| 国产精品福利一区| 一级片一级片一级片| 国产精品国产成人国产三级| 精品人体无码一区二区三区| 久久久国产精品麻豆| 国产传媒国产传媒| 国产欧美1区2区3区| 一级黄色录像毛片| 国产欧美日韩在线看| 色哟哟精品观看| 国产丝袜美腿一区二区三区| caopeng视频| 欧美国产欧美综合| 亚洲精品自拍视频在线观看| 136国产福利精品导航| 久久精品亚洲a| 亚洲激情校园春色| 国产无套内射又大又猛又粗又爽 | 欧美另类高清videos的特点| 日本精品一区二区三区四区的功能| 国产精品自拍99| 色狠狠色狠狠综合| 在线观看免费观看在线| 777午夜精品免费视频| www.久久伊人| 精品国产a毛片| 无码国产色欲xxxx视频| 亚洲欧美中文字幕| 日韩欧美小视频| 欧美激情久久久久| 小草在线视频免费播放| 国产精品美女午夜av| 亚洲热av色在线播放| 粉嫩av免费一区二区三区| 牲欧美videos精品| 日韩视频精品| 欧美日本不卡| 黑人糟蹋人妻hd中文字幕| 久久久久国产精品一区三寸| 自拍偷拍一区二区三区四区| 国产成人综合在线播放| 日韩人妻一区二区三区| 国产精品电影一区二区| 国产在线视频在线观看| 欧美性生交大片免网| 91久久久久国产一区二区| 欧美变态口味重另类| 高清中文字幕一区二区三区| 成年无码av片在线| 中文在线最新版地址| 成人做爽爽免费视频| 任你弄精品视频免费观看| 在线视频91| 亚洲久久一区| 8x8x成人免费视频| 91亚洲国产成人精品一区二区三 | 国产一区二区三区四区三区四| 国产精品动漫网站| 国产精品自拍毛片| 男人操女人动态图| 亚洲永久精品大片| 日韩久久久久久久久久| 亚洲国产精品视频在线观看| 免费av网站在线看| 奇米四色中文综合久久| 精品一区二区三区中文字幕在线 | 精品国产一区在线| 亚洲视频一区二区免费在线观看| 91国产丝袜播放在线| 欧美精品xxxxbbbb| 九九热视频在线观看| 欧美极品欧美精品欧美视频| 欧美日韩va| 日本免费高清一区二区| 99亚洲精品| 男人女人拔萝卜视频| 国产精品视频一二| 亚洲日本视频在线观看| 精品久久久久久久久久久久久久久久久 | 一区二区三区视频播放| 伊人久久青草| 久久天堂精品| jlzzjizz在线播放观看| 夜夜操天天操亚洲| 国产免费不卡av| 日韩性生活视频| 成人福利一区二区| 五月婷婷一区| 日韩极品在线观看| av电影网站在线观看| 欧美日韩亚洲网| 老牛影视av牛牛影视av| 欧美激情成人在线视频| 国产成人免费av一区二区午夜| 午夜一区二区三区| 日日夜夜精品视频天天综合网| 国产视频久久久久久| 午夜电影网一区| 视频二区在线观看| 538国产精品一区二区免费视频 | www.av麻豆| 亚洲第一页自拍| 超碰在线99| 久精品国产欧美| 99亚洲一区二区| 熟妇高潮精品一区二区三区| 天天综合色天天| 视频三区在线观看| 欧美在线观看网址综合| 欧美**vk| 日本xxxx黄色| 国产精品久久二区二区| 国产精品久久久久久久久久久久久久久久 | 日韩亚洲精品电影| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 亚洲人成网站777色婷婷| 成人性生活视频| 日韩国产欧美一区| 美女视频黄 久久| 希岛爱理中文字幕| 精品国产伦一区二区三区免费| 国产美女福利在线观看| 精品欧美国产| 日韩黄色在线观看| 免费黄色国产视频| 欧美一激情一区二区三区| 精灵使的剑舞无删减版在线观看| 国产精品污www一区二区三区| 国产欧美欧美| 日本美女bbw| 日韩一级视频免费观看在线| 嗯啊主人调教在线播放视频| 日本免费高清一区| 国产一区91精品张津瑜| 日本一二三区视频| 在线亚洲欧美视频| 4438全国亚洲精品观看视频| 欧美视频在线播放一区| 国产精品免费视频网站| 午夜精品一二三区| 欧美一区二区三区图| 久久成人综合| 亚洲高清无码久久| 欧美日韩美女一区二区| 天堂av中文在线| 免费在线观看一区二区| 国模少妇一区二区三区| 亚洲精品77777| 色婷婷久久一区二区| 成人另类视频| 色婷婷成人在线| 午夜日韩在线观看| 日本在线www| 久久国产精品一区二区三区| 精品一区二区三区的国产在线播放| 精品亚洲永久免费| 中文字幕日韩在线播放| 9l视频自拍九色9l视频成人| 91在线视频观看免费| 亚洲午夜精品网| 日本三级在线播放完整版| 久久精品美女| 国产精品18久久久久久久久久久久| 欧美精品一二三四区| 欧美高清自拍一区|