撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案原創(chuàng)

發(fā)布于 2024-10-17 14:40

瀏覽

0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

前沿的AI獨(dú)角獸公司們正在花費(fèi)所有精力使 LLM 更擅長(zhǎng)推理。然而蘋(píng)果最近卻給他們潑了盆冷水。

近期，蘋(píng)果公司的一個(gè)六人研究團(tuán)隊(duì)最近發(fā)表了一篇題為《了解大型語(yǔ)言模型中數(shù)學(xué)推理的局限性》的論文，論文中各種基準(zhǔn)測(cè)試，十分詳實(shí)。不過(guò)最后的結(jié)論基本上就是想證明：當(dāng)前的 LLM 無(wú)法推理。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

“當(dāng)前的 LLM 無(wú)法執(zhí)行真正的邏輯推理;他們從訓(xùn)練數(shù)據(jù)中復(fù)制推理步驟，“該論文中寫(xiě)道，其中還包括 OpenAI 的 GPT-4o 等 LLM，甚至是備受吹捧的”思考和推理“LLM，o1。該研究還對(duì)一系列其他模型進(jìn)行了研究，例如 Llama、Phi、Gemma 和 Mistral。

該論文的資深作者 Mehrdad Farajtabar 在 X 上發(fā)帖解釋了該團(tuán)隊(duì)是如何得出結(jié)論的。據(jù)他介紹，LLM 只是遵循復(fù)雜的模式，即使是小于 30 億個(gè)參數(shù)的模型也達(dá)到了只有更大的模型才能更早達(dá)到的基準(zhǔn)，特別是 OpenAI 三年前發(fā)布的 GSM8K 分?jǐn)?shù)。

Mehrdad10月10日在帖子中表示：

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

大型語(yǔ)言模型（LLM）真的能推理嗎？或者它們只是復(fù)雜的模式匹配器？

研究人員引入了 GSM-Symbolic，這是一種在 LLM 中測(cè)試數(shù)學(xué)推理的新工具，因?yàn)?GSM8K 不夠準(zhǔn)確，因此對(duì)于測(cè)試 LLM 的推理能力不可靠。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

一、4大證據(jù)，證明大模型不具備形式推理能力

三年前，OpenAI 發(fā)布了 GSM8K 數(shù)據(jù)集（目前常用的一種小學(xué)數(shù)學(xué)推理基準(zhǔn)數(shù)據(jù)集），測(cè)試 GPT-3（175B參數(shù)）在數(shù)學(xué)題上的表現(xiàn)，那時(shí) GPT-3 的得分僅為 35%。如今，擁有約 30 億參數(shù)的模型已能夠在 GSM8K 測(cè)試中取得超過(guò) 85% 的得分，參數(shù)更大的模型甚至超過(guò) 95%。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

然而，隨著準(zhǔn)確率的提升，疑問(wèn)也隨之而來(lái)：這些模型的推理能力是否真的進(jìn)步了？它們的表現(xiàn)是否真的體現(xiàn)了邏輯或符號(hào)推理能力，抑或是簡(jiǎn)單的模式識(shí)別，數(shù)據(jù)污染，甚至過(guò)擬合的結(jié)果？

為進(jìn)一步探索這一問(wèn)題，研究團(tuán)隊(duì)此發(fā)了 GSM-Symbolic，用于測(cè)試大語(yǔ)言模型在數(shù)學(xué)推理中的極限。GSM-Symbolic 基于 GSM8K 數(shù)據(jù)集，通過(guò)符號(hào)模板生成多樣化的問(wèn)題實(shí)例，允許更可控的實(shí)驗(yàn)設(shè)計(jì)。

為了更清晰地觀察模型在面對(duì)這些變體問(wèn)題時(shí)的表現(xiàn)，他們生成了 50 個(gè)獨(dú)特的 GSM-Symbolic 集合，這些問(wèn)題與 GSM8K 問(wèn)題類(lèi)似，但更改了其中的數(shù)值和名稱(chēng)。

基于 GSM-Symbolic，他們從 5 個(gè)方面說(shuō)明了為何他們認(rèn)為大語(yǔ)言模型不具備形式推理能力。

1.GSM8K 的測(cè)試結(jié)果并不可靠

通過(guò)對(duì)多個(gè)開(kāi)源模型（如 Llama 8B、Phi-3）和閉源模型（如 GPT-4o 和 o1 系列）的大規(guī)模評(píng)估，他們發(fā)現(xiàn)模型在 GSM8K 上的表現(xiàn)存在顯著波動(dòng)。

例如，Llama 8B 的準(zhǔn)確率在 70%-80% 之間波動(dòng)，而 Phi-3 的表現(xiàn)則在 75%-90% 之間浮動(dòng)。這也表明，模型在處理相似問(wèn)題時(shí)表現(xiàn)并不穩(wěn)定，GSM8K 上的高分并不能證明它們具備真正的推理能力。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

圖｜由 GSM-Symbolic 模板生成的 50 套 8-shot 思想鏈（CoT）性能分布，顯示了所有 SOTA 模型之間準(zhǔn)確性的顯著差異性。對(duì)于大多數(shù)模型來(lái)說(shuō)，GSM-Symbolic 的平均性能低于 GSM8K（圖中由虛線(xiàn)表示）。有趣的是，GSM8K 的性能落在分布的右側(cè)，從統(tǒng)計(jì)學(xué)上講，這僅有非常低的可能性，因?yàn)?GSM8K 基本上只是 GSM-Symbolic 的一次單一抽樣。

2.大模型的數(shù)學(xué)推理能力相當(dāng)脆弱敏感

團(tuán)隊(duì)觀察到由相同模板生成的不同集合之間存在較大的性能差異，并且與原始GSM8K準(zhǔn)確率相比性能有所下降。這表明語(yǔ)言模型所展現(xiàn)的推理過(guò)程可能并不正式，因此容易受到變化的影響。一種解釋是，這些模型試圖進(jìn)行一種分布內(nèi)模式匹配，將給定的問(wèn)題和解題步驟與訓(xùn)練數(shù)據(jù)中看到的類(lèi)似問(wèn)題和步驟進(jìn)行對(duì)齊。由于此過(guò)程不涉及正式推理，因此可能導(dǎo)致同一問(wèn)題的不同實(shí)例之間存在較大差異。

具體測(cè)試表現(xiàn)為：對(duì)名稱(chēng)和數(shù)字變動(dòng)的敏感性研究還發(fā)現(xiàn)，當(dāng)前的大語(yǔ)言模型對(duì)問(wèn)題中的專(zhuān)有名稱(chēng)（如人名、食物、物品）的變化仍然很敏感，當(dāng)數(shù)字發(fā)生變化時(shí)，大語(yǔ)言模型就會(huì)更加敏感。例如，僅僅改變問(wèn)題中的名字，就可能導(dǎo)致模型的準(zhǔn)確率變化高達(dá) 10%。如果將這種情況類(lèi)比到小學(xué)數(shù)學(xué)測(cè)試中，僅僅因?yàn)楦淖兞巳嗣鴮?dǎo)致分?jǐn)?shù)下降 10% ，是非常不可思議的。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

圖｜當(dāng)只更改名稱(chēng)、專(zhuān)有編號(hào)或同時(shí)更改名稱(chēng)和編號(hào)時(shí)，大語(yǔ)言模型的敏感性如何？總體而言，即使只更改名稱(chēng)，模型也有明顯的性能變化，但當(dāng)更改編號(hào)或合并這些變化時(shí)，性能差異更大。問(wèn)題難度的增加導(dǎo)致表現(xiàn)急劇下降。

3.擴(kuò)展問(wèn)題難度，性能分布波動(dòng)劇烈

研究團(tuán)隊(duì)通過(guò)引入三種新的 GSM-Symbolic 變體（GSM-M1、GSM-P1、GSM-P2），通過(guò)刪除一個(gè)分句（GSM-M1）、增加一個(gè)分句（GSM-P1）或增加兩個(gè)分句（GSM-P2），來(lái)調(diào)整問(wèn)題難度。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖｜通過(guò)修改條款數(shù)量來(lái)修改 GSM-Symbolic 的難度級(jí)別

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū)

圖｜增加條款數(shù)量對(duì)性能的影響：隨著GSM-M1→GSM-Symb→GSM-P1→GSM-P2的難度增加，性能分布向左移動(dòng)（即準(zhǔn)確性下降），方差增加。

結(jié)果發(fā)現(xiàn)，隨著問(wèn)題難度的增加（GSM-M1 → GSM-Symb → GSM-P1 → GSM-P2），模型的表現(xiàn)不僅下降顯著，且表現(xiàn)波動(dòng)也變得更加劇烈。面對(duì)更復(fù)雜的問(wèn)題時(shí)，模型的推理能力變得更加不可靠。

4.大模型沒(méi)有真正理解數(shù)學(xué)概念

研究中還添加無(wú)關(guān)子句，實(shí)驗(yàn)表明對(duì)LLM推理性能的巨大影響，研究團(tuán)隊(duì)設(shè)計(jì)了 GSM_NoOp 實(shí)驗(yàn)，在原有問(wèn)題中添加一個(gè)似乎相關(guān)但實(shí)際無(wú)關(guān)的子句 (hence "no-op")。

結(jié)果顯示，所有模型的表現(xiàn)都顯著下降，包括性能較好的 o1 模型在內(nèi)。這種現(xiàn)象進(jìn)一步說(shuō)明，模型并沒(méi)有真正理解數(shù)學(xué)概念，而是通過(guò)模式匹配來(lái)得出答案。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖｜在 GSM-NoOp 上，模型的性能明顯下降，較新的模型比舊的模型下降更大。

(a) 在GSM-NoOp上，模型的性能顯著下降，其中較新的模型比舊模型下降得更多。(b) GSM-Symbolic上的性能與GSM8K非常接近。然而，在GSM-NoOp上，即使使用完全相同問(wèn)題的變體作為示例（NoOp-Symb），或者使用包含No-Op操作的不同GSM-NoOp問(wèn)題的不同問(wèn)題作為示例（NoOp-NoOp），性能顯著下降的情況也無(wú)法恢復(fù)。(c) 值得注意的是，一些在GSM8K和GSM-Symbolic上表現(xiàn)明顯差于(b)中模型的，在NoOp-Symb上卻表現(xiàn)出了更好的性能。

5.擴(kuò)展規(guī)模和計(jì)算能力并不能解決根本問(wèn)題

此外，他們還探討了通過(guò)擴(kuò)大數(shù)據(jù)、模型規(guī)模或計(jì)算能力是否能夠解決推理能力不足的問(wèn)題。Mehrdad Farajtabar 表示，盡管 OpenAI 的 o1 系列在性能上有一定改善，但它們也會(huì)出現(xiàn)這樣的愚蠢錯(cuò)誤，要么是它不明白“現(xiàn)在”是什么意思，要么是它不明白“去年”是什么意思，還有一種更可能的解釋是，更大的訓(xùn)練數(shù)據(jù)具有這種模式，所以它又沿用了這種模式。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

圖｜o1-mini 和 o1-preview 的結(jié)果：這兩個(gè)模型大多遵循我們?cè)谡闹薪榻B的相同趨勢(shì)。然而，o1-preview 在所有難度級(jí)別上都顯示出非常強(qiáng)大的結(jié)果，因?yàn)樗蟹植级急舜私咏?/p>

作者認(rèn)為，理解大語(yǔ)言模型的真正推理能力對(duì)于在現(xiàn)實(shí)世界中的應(yīng)用至關(guān)重要，尤其是在 AI 安全、教育、醫(yī)療保健和決策系統(tǒng)等對(duì)準(zhǔn)確性和一致性要求極高的領(lǐng)域。

研究結(jié)果表明，當(dāng)前大語(yǔ)言模型的表現(xiàn)，更像是高級(jí)的模式匹配器，而非具備形式推理能力的系統(tǒng)。為了在這些領(lǐng)域安全、可靠地部署大語(yǔ)言模型，開(kāi)發(fā)更為魯棒和適應(yīng)性強(qiáng)的評(píng)估方法顯得尤為重要。

二、不過(guò)，OpenAI 的o1模型的推理的確強(qiáng)勁

令人驚訝的是，根據(jù)研究人員的說(shuō)法，在這個(gè)基準(zhǔn)測(cè)試中，OpenAI 的 o1 表現(xiàn)出“在各種推理和基于知識(shí)的基準(zhǔn)測(cè)試中的強(qiáng)勁表現(xiàn)”，但當(dāng)研究人員引入 GSM-NoOp 實(shí)驗(yàn)時(shí)，能力下降了 30%，該實(shí)驗(yàn)涉及向問(wèn)題添加不相關(guān)的信息。PS:上個(gè)月OpenAI推出o1模型時(shí)也曾表示，提示詞宜簡(jiǎn)單而非復(fù)雜。

這證明 OpenAI 這一系列新發(fā)布的模型的“推理”能力是越來(lái)越好的，也許 GPT-5 會(huì)好很多。

然而，可能是 Apple 的 LLM 在推理方面不太拿得出手，該團(tuán)隊(duì)沒(méi)有測(cè)試 Apple 的模型。

三、科技圈又亂了：大模型壓根不會(huì)推理，o1也不行

此外，并不是每個(gè)人都對(duì)這篇研究論文感到滿(mǎn)意，因?yàn)樗踔翛](méi)有解釋 “推理 ”的真正含義，而只是引入了一個(gè)評(píng)估 LLM 的新基準(zhǔn)。

“總體而言，我們?cè)谡Z(yǔ)言模型中沒(méi)有發(fā)現(xiàn)形式推理的證據(jù)……它們的行為更好地解釋為復(fù)雜的模式匹配——實(shí)際上非常脆弱，以至于改變名稱(chēng)可能會(huì)使結(jié)果變化約10%！”Mehrdad 進(jìn)一步補(bǔ)充道，擴(kuò)展這些模型只會(huì)得到“更好的模式機(jī)器”，而不是“更好的推理器”。

首先，LLM更多是根據(jù)分散注意力的材料來(lái)進(jìn)行“推理”，所以這種失敗，并不是什么新鮮事。斯坦福大學(xué)的 Robin Jia Percy Liang 早在 2017 年進(jìn)行了一項(xiàng)類(lèi)似的研究，結(jié)果相似。

其次，LLM 中缺乏足夠抽象、正式的推理的另一個(gè)表現(xiàn)是，大模型往往在解決小問(wèn)題上的性能還可以，但隨著問(wèn)題變大，性能很快就會(huì)下降，甚至分崩離析，正如7月 Subbarao Kambhapati 的團(tuán)隊(duì)最近對(duì) GPT o1 的分析：

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

在整數(shù)算術(shù)上也能看到同樣的問(wèn)題。在較舊的模型和較新的模型中，都反復(fù)觀察到，在越來(lái)越大的乘法問(wèn)題上，答案準(zhǔn)確度的衰減。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

一些人一直聲稱(chēng)大型語(yǔ)言模型（LLMs）無(wú)法進(jìn)行推理，并且它們是通往通用人工智能（AGI）的歧途。可能蘋(píng)果在嘗試將大型語(yǔ)言模型應(yīng)用于其產(chǎn)品后終于接受了這一事實(shí)，這也可能是它退出對(duì)OpenAI投資的原因之一。

即便是目前最先進(jìn)的o1模型，也不能解決這個(gè)問(wèn)題。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

再有，Gary Marcus 還指出，大模型不遵守國(guó)際象棋規(guī)則。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

大多數(shù)研究人員都在贊揚(yáng)蘋(píng)果的這篇論文，并認(rèn)為其他人接受大型語(yǔ)言模型無(wú)法進(jìn)行推理這一點(diǎn)也很重要。大型語(yǔ)言模型的長(zhǎng)期批評(píng)者加里·馬庫(kù)斯也分享了多個(gè)大型語(yǔ)言模型無(wú)法執(zhí)行推理任務(wù)（如計(jì)算和象棋）的例子。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

四、反對(duì)者：這是真的嗎？論文作者混淆了概念

但這是真的嗎？大型語(yǔ)言模型真的不會(huì)推理嗎？

不過(guò)，反對(duì)這一論文結(jié)果的也大有人在。

有人認(rèn)為，蘋(píng)果論文的一個(gè)問(wèn)題是它將推理與計(jì)算混淆了。“推理是知道用算法來(lái)解決問(wèn)題，而不是全部在腦海中解決，”人工智能研究者Paras Chopra解釋道，同時(shí)他也指出，盡管大多數(shù)大型語(yǔ)言模型（LLMs）最終得出了錯(cuò)誤的答案，但它們確實(shí)知道解決問(wèn)題的方法。他認(rèn)為，即使答案錯(cuò)誤，知道解決問(wèn)題的方法也足以檢查大型語(yǔ)言模型是否在進(jìn)行推理。

一篇在Hacker News上的討論強(qiáng)調(diào)，蘋(píng)果公司的研究人員向大型語(yǔ)言模型（LLMs）提出的一些問(wèn)題試圖“捉弄”它們，因?yàn)檫@些問(wèn)題中包含了不相關(guān)的信息，而大型語(yǔ)言模型無(wú)法主動(dòng)過(guò)濾掉這些信息。

撤出OpenAI后，蘋(píng)果繼續(xù)潑冷水：大模型不會(huì)推理。科技界炸鍋：大模型只會(huì)檢索拼湊答案-AI.x社區(qū) 圖片

推理是在知識(shí)領(lǐng)域中逐步、迭代地減少信息熵的過(guò)程。OpenAI的o1-preview通過(guò)引入迭代更好地實(shí)現(xiàn)了這一點(diǎn)。它并不完美，但確實(shí)做到了。

亞利桑那州立大學(xué)（ASU）計(jì)算機(jī)科學(xué)和人工智能教授 Subbarao Kambhampati同意，關(guān)于大型語(yǔ)言模型具備推理能力的一些說(shuō)法是夸大其詞的。然而，他表示，大型語(yǔ)言模型需要更多的工具來(lái)處理系統(tǒng)2任務(wù)（即推理），而“微調(diào)”或“思維鏈”等技術(shù)并不足以滿(mǎn)足這一需求。

當(dāng)OpenAI發(fā)布o(jì)1模型，并宣稱(chēng)該模型能夠思考和推理時(shí)，Hugging Face的首席執(zhí)行官Clem Delangue并不買(mǎi)賬。“又一次，一個(gè)AI系統(tǒng)并不是在‘思考’，而是在‘處理’、‘運(yùn)行預(yù)測(cè)’……就像谷歌或電腦所做的那樣，”Clem 在談到OpenAI如何錯(cuò)誤地描繪其最新模型所能實(shí)現(xiàn)的功能時(shí)說(shuō)道。

雖然一些人表示贊同，但另一些人則認(rèn)為這正是人類(lèi)大腦的工作方式。“又一次，人類(lèi)的大腦并不是在‘思考’，而只是在執(zhí)行一系列復(fù)雜的大規(guī)模生物化學(xué)/生物電計(jì)算操作，”P(pán)hillip Rhodes回復(fù)德朗格道。

為了測(cè)試推理能力，有些人還會(huì)問(wèn)大型語(yǔ)言模型（LLMs）單詞“Strawberry”中有多少個(gè)“r”，這完全沒(méi)有意義。大型語(yǔ)言模型無(wú)法直接計(jì)算字母數(shù)量，因?yàn)樗鼈兪且苑Q(chēng)為“標(biāo)記”的文本塊來(lái)處理文本的。自大型語(yǔ)言模型誕生以來(lái)，對(duì)它們的推理測(cè)試就一直存在問(wèn)題。

五、寫(xiě)在最后

每個(gè)人對(duì)大型語(yǔ)言模型似乎都有強(qiáng)烈的看法。一些人基于Yann LeCun或弗朗索瓦·肖萊（Francois Chollet）等專(zhuān)家的研究，認(rèn)為應(yīng)該更認(rèn)真地對(duì)待大型語(yǔ)言模型的研究；而另一些人則跟風(fēng)批評(píng)。有人說(shuō)它們是我們通往通用人工智能（AGI）的門(mén)票，而另一些人則認(rèn)為它們只是被美化的、有著花哨名字的文本生成算法。

相比之下，AI大神Andrej Karpathy最近表示，這些大型語(yǔ)言模型或Transformer所使用的預(yù)測(cè)下一個(gè)token的技術(shù)，或許能夠解決其他領(lǐng)域之外的許多問(wèn)題。

雖然在某種程度上，大型語(yǔ)言模型確實(shí)能夠進(jìn)行推理，但一旦將它們付諸實(shí)踐進(jìn)行測(cè)試，最終還是會(huì)失敗。這并不是什么新鮮事，反而是一種機(jī)會(huì)：機(jī)器還取代不了人類(lèi)！

??本文轉(zhuǎn)載自???51CTO技術(shù)棧??，作者：言征

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

OpenAI

大模型

AGI

贊

回復(fù)