小型推理模型的崛起：緊湊型人工智能能否匹敵GPT級(jí)推理能力？

作者：涂承燁 2025-04-10 08:23:11

業(yè)界對(duì)開(kāi)發(fā)更小、更高效模型的興趣日益增長(zhǎng)-這些模型能以更低的成本和資源需求提供相似的推理能力。本文探討了這些小型推理模型的崛起、潛力、挑戰(zhàn)以及對(duì)人工智能未來(lái)的影響。

譯者 | 涂承燁

審校 | 重樓

近年來(lái)，人工智能領(lǐng)域一直沉迷于大型語(yǔ)言模型（LLMs）的成功。這些模型最初設(shè)計(jì)用于自然語(yǔ)言處理，如今已演變?yōu)閺?qiáng)大的推理工具，能夠通過(guò)類人類的逐步思考過(guò)程解決復(fù)雜問(wèn)題。然而，盡管LLMs具備卓越的推理能力，它們?nèi)源嬖陲@著缺陷，包括高昂的計(jì)算成本和緩慢的部署速度，這使得它們?cè)谝苿?dòng)設(shè)備或邊緣計(jì)算等資源受限的實(shí)際場(chǎng)景中難以應(yīng)用。因此，業(yè)界對(duì)開(kāi)發(fā)更小、更高效模型的興趣日益增長(zhǎng)-這些模型能以更低的成本和資源需求提供相似的推理能力。本文探討了這些小型推理模型的崛起、潛力、挑戰(zhàn)以及對(duì)人工智能未來(lái)的影響。

視角的轉(zhuǎn)變

在人工智能近期的歷史中，該領(lǐng)域長(zhǎng)期遵循“規(guī)模法則”，即模型性能會(huì)隨著數(shù)據(jù)量、計(jì)算能力和模型規(guī)模的擴(kuò)大而可預(yù)測(cè)地提升。盡管這種方法催生了強(qiáng)大的模型，但也帶來(lái)了顯著的權(quán)衡，包括高昂的基礎(chǔ)設(shè)施成本、環(huán)境影響和延遲問(wèn)題。并非所有應(yīng)用都需要具備千億參數(shù)規(guī)模的大型模型的全部功能。在許多實(shí)際場(chǎng)景中（如設(shè)備端助手、醫(yī)療保健和教育），小型模型若能有效推理，同樣可以取得類似的效果。

理解人工智能中的推理能力

人工智能中的推理能力指模型遵循邏輯鏈條、理解因果關(guān)系、推導(dǎo)隱含信息、規(guī)劃步驟流程以及識(shí)別矛盾的能力。對(duì)于語(yǔ)言模型而言，這通常意味著不僅要檢索信息，還要通過(guò)結(jié)構(gòu)化的逐步方法對(duì)信息進(jìn)行操縱和推斷。這種層級(jí)的推理能力通常通過(guò)微調(diào)LLMs來(lái)實(shí)現(xiàn)，使其在得出答案前執(zhí)行多步推理。盡管有效，但這些方法需要大量計(jì)算資源，且部署速度慢、成本高，引發(fā)了關(guān)于其可訪問(wèn)性和環(huán)境影響的擔(dān)憂。

理解小型推理模型

小型推理模型旨在以更高的計(jì)算效率、內(nèi)存利用率和更低的延遲復(fù)現(xiàn)大型模型的推理能力。這些模型通常采用一種名為知識(shí)蒸餾的技術(shù)，即讓較小的模型（“學(xué)生”）從更大的預(yù)訓(xùn)練模型（“教師”）中學(xué)習(xí)。蒸餾過(guò)程涉及使用大型模型生成的數(shù)據(jù)訓(xùn)練小型模型，目標(biāo)是遷移推理能力。隨后，“學(xué)生”模型會(huì)通過(guò)微調(diào)進(jìn)一步提升性能。在某些情況下，應(yīng)用具有特定領(lǐng)域獎(jiǎng)勵(lì)函數(shù)的強(qiáng)化學(xué)習(xí)，可以進(jìn)一步增強(qiáng)模型在特定任務(wù)中的推理能力。

小型推理模型的崛起與技術(shù)進(jìn)步

小型推理模型發(fā)展的一個(gè)里程碑是DeepSeek-R1的發(fā)布。盡管該模型僅在一個(gè)規(guī)模相對(duì)較小、使用舊款GPU的集群上完成訓(xùn)練，但其在MMLU和GSM-8K等基準(zhǔn)測(cè)試中的表現(xiàn)已與OpenAI的o1等大型模型相當(dāng)。這一成就促使業(yè)界重新審視傳統(tǒng)的“規(guī)模至上”假設(shè)-即更大的模型必然更優(yōu)。

DeepSeek-R1的成功源于其創(chuàng)新的訓(xùn)練流程。該模型在早期階段未依賴監(jiān)督微調(diào)，而是結(jié)合了大規(guī)模強(qiáng)化學(xué)習(xí)。這一創(chuàng)新催生了DeepSeek-R1-Zero，一個(gè)在推理能力上與大型模型相媲美的模型。通過(guò)冷啟動(dòng)數(shù)據(jù)等改進(jìn)，該模型在數(shù)學(xué)和代碼等領(lǐng)域的連貫性和任務(wù)執(zhí)行能力得到顯著提升。

此外，蒸餾技術(shù)已被證明在從大型模型開(kāi)發(fā)更小、更高效的模型方面至關(guān)重要。例如，DeepSeek已發(fā)布參數(shù)規(guī)模從15億到700億不等的蒸餾版本模型。研究人員通過(guò)蒸餾訓(xùn)練出更小規(guī)模的模型DeepSeek-R1-Distill-Qwen-32B，其在多項(xiàng)基準(zhǔn)測(cè)試中均超越了OpenAI的o1-mini。這些模型現(xiàn)可通過(guò)標(biāo)準(zhǔn)硬件部署，成為更廣泛應(yīng)用的可行選擇。

小型模型能否匹敵GPT級(jí)推理能力？

為了評(píng)估小型推理模型（SRMs）是否能匹配GPT等大型模型（LRMs）的推理能力，需考察它們?cè)跇?biāo)準(zhǔn)基準(zhǔn)測(cè)試中的表現(xiàn)。例如，DeepSeek-R1在MMLU測(cè)試中得分約為0.844，與o1等大型模型相當(dāng)。在專注于小學(xué)數(shù)學(xué)的GSM-8K數(shù)據(jù)集上，DeepSeek-R1的蒸餾模型表現(xiàn)達(dá)到頂尖水平，超越了o1和o1-mini。

在編程任務(wù)中（如LiveCodeBench和CodeForces），DeepSeek-R1的蒸餾模型表現(xiàn)與o1-mini和GPT-4o相當(dāng)，顯示出強(qiáng)大的代碼推理能力。然而，在需要更廣泛語(yǔ)言理解或長(zhǎng)上下文窗口的任務(wù)中，大型模型仍占據(jù)優(yōu)勢(shì)，因?yàn)樾⌒湍Ｐ屯ǔ８鼘Ｗ⒂谔囟ㄈ蝿?wù)。

盡管表現(xiàn)出色，小型模型在處理擴(kuò)展推理任務(wù)（長(zhǎng)時(shí)推理任務(wù)）或面對(duì)分布外數(shù)據(jù)時(shí)仍存在短板。例如，在LLM國(guó)際象棋模擬中，DeepSeek-R1的失誤率高于大型模型，表明其在長(zhǎng)時(shí)間保持專注和準(zhǔn)確性方面存在局限。

權(quán)衡與實(shí)際應(yīng)用

模型規(guī)模與性能的權(quán)衡是SRMs與GPT級(jí)LRMs對(duì)比的關(guān)鍵。小型模型對(duì)內(nèi)存和計(jì)算能力的需求更低，適合邊緣設(shè)備、移動(dòng)應(yīng)用或需要離線推理的場(chǎng)景。這種高效性降低了運(yùn)營(yíng)成本，例如DeepSeek-R1的運(yùn)行成本比o1等大型模型低96%。

然而，效率提升也伴隨著妥協(xié)。小型模型通常針對(duì)特定任務(wù)微調(diào)，這限制了其通用性。例如，盡管DeepSeek-R1在數(shù)學(xué)和代碼領(lǐng)域表現(xiàn)出色，但其缺乏GPT-4o等大型模型的多模態(tài)能力（例如解析圖像的能力，而GPT-4o等大型模型可以處理這些功能）。

盡管存在局限，小型推理模型的實(shí)際應(yīng)用前景廣闊。在醫(yī)療領(lǐng)域，它們可為基于醫(yī)院標(biāo)準(zhǔn)服務(wù)器的診斷工具提供支持；在教育領(lǐng)域，可開(kāi)發(fā)個(gè)性化輔導(dǎo)系統(tǒng)，為學(xué)生提供逐步反饋；在科研領(lǐng)域，可輔助數(shù)學(xué)和物理等學(xué)科的數(shù)據(jù)分析與假設(shè)檢驗(yàn)。DeepSeek-R1等模型的開(kāi)源特性也促進(jìn)了協(xié)作，使中小組織能夠受益于先進(jìn)技術(shù)。

核心結(jié)論

語(yǔ)言模型向小型推理模型的演進(jìn)是人工智能領(lǐng)域的重要進(jìn)展。盡管這些模型尚未完全匹配大型語(yǔ)言模型的廣泛能力，但其在效率、成本效益和可訪問(wèn)性方面具有關(guān)鍵優(yōu)勢(shì)。通過(guò)在推理能力與資源效率之間取得平衡，小型模型將在各類應(yīng)用中發(fā)揮關(guān)鍵作用，使人工智能更實(shí)用、更可持續(xù)地服務(wù)于現(xiàn)實(shí)世界。

譯者介紹

涂承燁，51CTO社區(qū)編輯，具有15年以上的開(kāi)發(fā)、項(xiàng)目管理、咨詢?cè)O(shè)計(jì)等經(jīng)驗(yàn)，獲得信息系統(tǒng)項(xiàng)目管理師、信息系統(tǒng)監(jiān)理師、PMP，CSPM-2等認(rèn)證。

原文標(biāo)題：The Rise of Small Reasoning Models: Can Compact AI Match GPT-Level Reasoning?，作者：Dr. Tehseen Zia

責(zé)任編輯：姜華來(lái)源： 51CTO

人工智能大型語(yǔ)言模型 LLMs