大廠燒錢也要追捧 AI 大模型的迷與思

作者：陳彩嫻、王玥 2022-08-19 15:02:38

在未來(lái)，AI 將成為賦能各行各業(yè)的「電力」。那么，從 AI 大規(guī)模落地的維度看，大模型與小模型哪一個(gè)更好？業(yè)界真的想好了嗎？

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

電風(fēng)扇與空皂盒的故事，大家都聽過(guò)吧？

傳聞某國(guó)際知名快消大廠曾引進(jìn)一條香皂包裝生產(chǎn)線，結(jié)果發(fā)現(xiàn)這條生產(chǎn)線在包裝香皂的過(guò)程中出現(xiàn)了一個(gè)缺陷，就是常常有盒子沒(méi)裝入香皂。總不能把空盒子賣給顧客，于是，他們就請(qǐng)了一個(gè)學(xué)自動(dòng)化的博士后來(lái)設(shè)計(jì)分揀空香皂盒的方案。

該博士后立即召集了一個(gè)十幾人的技術(shù)團(tuán)隊(duì)，綜合采用機(jī)械、自動(dòng)化、微電子、X射線探測(cè)等等技術(shù)，花費(fèi) 90 萬(wàn)，最后成功地研究出了一個(gè)方案，就是在生產(chǎn)線的兩旁安裝兩個(gè)集成探測(cè)器，每當(dāng)檢測(cè)到有空香皂盒經(jīng)過(guò)，就會(huì)驅(qū)動(dòng)一只機(jī)械手將空皂盒推走。

可以說(shuō)，這是一次技術(shù)落地解決實(shí)際產(chǎn)業(yè)問(wèn)題的重要突破。

巧合的是，與此同時(shí)，中國(guó)南方某鄉(xiāng)鎮(zhèn)企業(yè)也購(gòu)買了同樣的生產(chǎn)線。老板發(fā)現(xiàn)這個(gè)問(wèn)題后，十分火大，叫來(lái)工廠的一名小工說(shuō)：「你來(lái)想想辦法解決這個(gè)問(wèn)題。」迫于壓力，小工很快就想出了一個(gè)妙計(jì)：他花 190 元買了一臺(tái)大功率電風(fēng)扇放在香皂包裝生產(chǎn)線的旁邊，產(chǎn)線一轉(zhuǎn)就開始猛吹，空的香皂盒一出現(xiàn)，就被吹走了。

小工一人，憑借機(jī)智的創(chuàng)意，迅速解決了這個(gè)問(wèn)題，實(shí)現(xiàn)了業(yè)界常吹說(shuō)的一個(gè)大目標(biāo)：降本增效。

科技革新，智能在產(chǎn)業(yè)中的涵義無(wú)非就是這兩個(gè)口號(hào)：一是省錢，二是增效。然而，在近幾年的 AI 發(fā)展中，卻出現(xiàn)了這樣一個(gè)貌似違背資本規(guī)律的「怪異」現(xiàn)象：不管是學(xué)術(shù)界還是工業(yè)界，不管是大公司還是小公司，不管是私企還是國(guó)家資助的研究院，都在花大價(jià)錢「煉」大模型。

導(dǎo)致圈內(nèi)有兩種聲音：

一種聲音說(shuō)，大模型已在多種任務(wù)基準(zhǔn)上展現(xiàn)出強(qiáng)大的性能與潛力，未來(lái)一定是人工智能的發(fā)展方向，此時(shí)的投入是為將來(lái)不錯(cuò)過(guò)時(shí)代大機(jī)遇做準(zhǔn)備，投入成百上千萬(wàn)（或更多）訓(xùn)練是值得的。換言之，搶占大模型高地是主要矛盾，高成本投入是次要矛盾。

另一種聲音則說(shuō)，在 AI 技術(shù)落地的實(shí)際過(guò)程中，當(dāng)前對(duì)大模型的全面吹捧不僅搶奪了小模型與其他 AI 方向的研究資源，而且由于投入成本高，在解決實(shí)際的產(chǎn)業(yè)問(wèn)題中性價(jià)比低，也無(wú)法在數(shù)字化轉(zhuǎn)型的大背景中造福更多的中小企業(yè)。

也就是說(shuō)，「經(jīng)濟(jì)可不可用」與「能力強(qiáng)不強(qiáng)大」構(gòu)成了 AI 算法解決實(shí)際問(wèn)題中的兩大焦點(diǎn)。如今，業(yè)界已達(dá)成一個(gè)共識(shí)：在未來(lái)，AI 將成為賦能各行各業(yè)的「電力」。那么，從 AI 大規(guī)模落地的維度看，大模型與小模型哪一個(gè)更好？業(yè)界真的想好了嗎？

1?「大」模型到來(lái)

近年來(lái)，國(guó)內(nèi)外的科技大廠在對(duì)外宣傳 AI 研發(fā)實(shí)力的聲音中，總有一個(gè)高頻的詞匯出現(xiàn)：大模型（Big Model）。

這場(chǎng)競(jìng)爭(zhēng)開始于國(guó)外的科技巨頭。2018 年谷歌推出大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型 BERT 拉開大模型的帷幕后，OpenAI相繼于 2019 年與 2020 年推出 GPT-2、GPT-3；2021 年，谷歌又不甘落后，推出在參數(shù)量上壓倒前者的 Switch Transformer……

所謂模型的大小，主要的衡量指標(biāo)就是模型參數(shù)量的規(guī)模。模型的「大」，指的就是龐大的參數(shù)量。

例如，BERT 的參數(shù)量在2018年首次達(dá)到 3 億參數(shù)量，在機(jī)器閱讀理解頂級(jí)水平測(cè)試 SQuAD1.1 的兩個(gè)衡量指標(biāo)上全面超越人類，并在 11 種不同的 NLP 測(cè)試中達(dá)到 SOTA 表現(xiàn)，包括將 GLUE 基準(zhǔn)推高至80.4% (絕對(duì)改進(jìn)7.6%)，MultiNLI準(zhǔn)確度達(dá)到86.7% (絕對(duì)改進(jìn)5.6%)，展示出了參數(shù)量增大對(duì) AI 算法性能提升的威力。

OpenAI 先后推出的 GPT-2 參數(shù)量達(dá)到 15 億，GPT-3 的參數(shù)量首次突破千億，達(dá)到 1750 億。而谷歌在 2021 年 1 月發(fā)布的 Switch Transformer，更是首次達(dá)到萬(wàn)億，參數(shù)量為 1.6 萬(wàn)億。

面對(duì)這如火如荼的局面，國(guó)內(nèi)大廠、甚至政府資助成立的研究機(jī)構(gòu)也紛紛不甘落后，先后推出他們?cè)跓挻竽Ｐ蜕系某晒?021年4月，阿里達(dá)摩院發(fā)布中文預(yù)訓(xùn)練語(yǔ)言模型「PLUG」，參數(shù)量 270 億；4月，華為與鵬城實(shí)驗(yàn)室聯(lián)合發(fā)布「盤古α」，參數(shù)量 2000 億；6月，北京智源人工智能研究院發(fā)布「悟道2.0」，參數(shù)量 1.75 萬(wàn)億；9月，百度發(fā)布中英雙語(yǔ)模型 PLATO-X，參數(shù)量百億。

到去年 10 月，阿里達(dá)摩院發(fā)布「M6-10T」，參數(shù)量已經(jīng)達(dá)到 10 萬(wàn)億，是中國(guó)目前規(guī)模最大的 AI 大模型。雖然比不上阿里，但百度在追求模型的參數(shù)量上也不甘落后，聯(lián)合鵬城實(shí)驗(yàn)室發(fā)布了「百度·文心」，參數(shù)量 2600 億，比 PLATO-X 大了 10 倍。

此外，騰訊也稱他們研發(fā)了大模型「派大星」，但參數(shù)量級(jí)不明。除了普遍受大家關(guān)注的 AI 研發(fā)大廠，國(guó)內(nèi)的大模型研發(fā)主力中還包括了算力提供商浪潮，他們?cè)谌ツ?10 月發(fā)布了大模型「源1.0」，參數(shù)量達(dá)到 2457 億。總而言之，2021 年可以稱為中國(guó)的「大模型元年」。

到今年，大模型繼續(xù)火熱。最開始，大模型是集中在計(jì)算語(yǔ)言領(lǐng)域，但如今也已逐漸拓展到視覺(jué)、決策，應(yīng)用甚至覆蓋蛋白質(zhì)預(yù)測(cè)、航天等等重大科學(xué)問(wèn)題，谷歌、Meta、百度等等大廠都有相應(yīng)的成果。一時(shí)間，參數(shù)量低于 1 億的 AI 模型已經(jīng)沒(méi)有聲量。

毫無(wú)疑問(wèn)，無(wú)論是性能超越還是任務(wù)拓展，AI 大模型都展示出了內(nèi)在的潛力，給學(xué)術(shù)界與工業(yè)界帶來(lái)無(wú)限的想象空間。

有研究實(shí)驗(yàn)表明，數(shù)據(jù)量與參數(shù)量的增大能夠有效提升模型解決問(wèn)題的精確度。以谷歌2021年發(fā)布的視覺(jué)遷移模型 Big Transfer 為例，分別使用 1000 個(gè)類別的 128 萬(wàn)張圖片和 18291 個(gè)類別的 3 億張圖片兩個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練，模型的精度能夠從 77% 提升到 79%。

再拿今年谷歌推出的 5400 億參數(shù)單向語(yǔ)言模型 PaLM 來(lái)說(shuō)，它基于谷歌今年發(fā)布的新一代 AI 框架 Pathways，不僅在微調(diào)方面超越了 1750 億參數(shù)的 GPT-3，而且推理能力大幅提升，在 7 個(gè)算術(shù)應(yīng)用題/常識(shí)推理數(shù)據(jù)集上，有 4 個(gè)超越了當(dāng)前的 SOTA（如下表），而且只用了 8 個(gè)樣本（即采集的數(shù)據(jù)）。

視覺(jué)即感知，語(yǔ)言即智能，但兩者在「因果推理」的攻克上一直沒(méi)有太耀眼的突破，而因果推理這一項(xiàng)能力對(duì) AI 系統(tǒng)的進(jìn)化又十分重要。可以這樣理解：小孩子能夠根據(jù) 1+1=2 來(lái)得出 100+100=200 的簡(jiǎn)單能力，對(duì)機(jī)器系統(tǒng)來(lái)說(shuō)卻十分復(fù)雜，就是因?yàn)橄到y(tǒng)缺少因果推理的想象力。如果機(jī)器連合理的推理能力/想象力都沒(méi)有，那么我們距離研發(fā)出科幻電影里智能超群的機(jī)器人將遙不可及。而大模型的出現(xiàn)，使通用人工智能（AGI）的實(shí)現(xiàn)成為可能。

所以，我們可以看到，大公司宣傳一個(gè)大模型，往往強(qiáng)調(diào)它能夠同時(shí)解決多項(xiàng)任務(wù)，在多個(gè)任務(wù)基準(zhǔn)上達(dá)到 SOTA（當(dāng)前最高水平）。比如，谷歌今年推出的 5400 億參數(shù)語(yǔ)言大模型 PaLM 可以解讀笑話，還可以通過(guò)emoji表情猜電影，智源推出的「悟道2.0」可以孵化出琴棋書畫、樣樣精通的虛擬學(xué)生華智冰。

簡(jiǎn)而言之，大模型往往具備一個(gè)特征：多才多藝，身兼多職。這對(duì)解決復(fù)雜場(chǎng)景的挑戰(zhàn)至關(guān)重要。

「小模型的參數(shù)量少，局限于單一任務(wù)；而大模型（的優(yōu)勢(shì)）就像是，人在學(xué)習(xí)打乒乓球時(shí)所學(xué)到的知識(shí)對(duì)打羽毛球是有輔助效應(yīng)的。大模型的任務(wù)與任務(wù)之間有泛化性。面對(duì)新任務(wù)時(shí)，小模型可能需要幾千個(gè)、幾萬(wàn)個(gè)訓(xùn)練數(shù)據(jù)，而大模型需要只可能一個(gè)訓(xùn)練數(shù)據(jù)，甚至完全不需要訓(xùn)練數(shù)據(jù)。」西湖大學(xué)深度學(xué)習(xí)實(shí)驗(yàn)室的負(fù)責(zé)人藍(lán)振忠向雷峰網(wǎng)-AI 科技評(píng)論解釋。

以對(duì)話系統(tǒng)的研究為例。對(duì)話系統(tǒng)主要分為兩大類：一類是任務(wù)型對(duì)話，用戶下達(dá)任務(wù)、AI 系統(tǒng)自動(dòng)執(zhí)行，快速訂機(jī)票、買電影票等等；一類是開放型對(duì)話，如電影《她》（Her）中虛構(gòu)的機(jī)器人，能夠與人類交流任何話題，甚至讓用戶感覺(jué)到情感上的陪伴。這其中，后者的能力等級(jí)顯然更高，研發(fā)難度也更大。前面迷霧重重，你不清楚將會(huì)面臨怎樣的挑戰(zhàn)，這時(shí)，大模型本身具備的豐富「能力包」和在新任務(wù)上超常的出色表現(xiàn)，戰(zhàn)斗力顯然要優(yōu)于小模型。

藍(lán)振忠指出，目前學(xué)術(shù)界與工業(yè)界的 AI 研究者們對(duì)于大模型的許多特性還未完全掌握。舉個(gè)例子，從上一代的 GPT-3 到這一代的 instruct GPT，我們可以看到它有一個(gè)質(zhì)的飛躍，同樣是大模型，但是 instruct GPT 在接受命令時(shí)效果卻好很多，這是他們?cè)谘芯看竽Ｐ蜁r(shí)才能體驗(yàn)到的。

參數(shù)量越來(lái)越大，AI 模型的性能究竟會(huì)發(fā)生什么變化？這是一個(gè)需要深入探索的科學(xué)問(wèn)題，因此，繼續(xù)投入研究大模型是有必要的。

2 理想很遠(yuǎn)，現(xiàn)實(shí)很近

人類要進(jìn)步，就總要有人勇往無(wú)人之境。

然而，在現(xiàn)實(shí)世界中，并不是每個(gè)人都能負(fù)擔(dān)得起星辰大海的理想，更多的人只想以多快好省的方式解決眼前所面臨的問(wèn)題。歸根結(jié)底，AI 算法要落地，就必須考慮技術(shù)研發(fā)的投入產(chǎn)出比。這時(shí)，大模型的弊端就開始暴露。

一個(gè)不容忽視的殘酷事實(shí)是：大模型的計(jì)算慢，訓(xùn)練成本極高。

通常來(lái)說(shuō)，模型的參數(shù)量越大，機(jī)器跑得越慢，計(jì)算成本也越高。據(jù)外媒披露，OpenAI 在訓(xùn)練包含 1750億參數(shù)的 GPT-3 時(shí)花了接近 500 萬(wàn)美元（人民幣約 3500 萬(wàn)）。谷歌在訓(xùn)練包含 5400 億參數(shù)的 PaLM 時(shí)用了 6144 塊 TPU，據(jù)熱心網(wǎng)友統(tǒng)計(jì)，普通人訓(xùn)練一個(gè) PaLM 的成本在900至1700萬(wàn)美元之間。這還僅僅是算力的費(fèi)用。

國(guó)內(nèi)各大廠沒(méi)有披露過(guò)它們訓(xùn)練大模型的經(jīng)濟(jì)成本，但根據(jù)現(xiàn)有全球共享的計(jì)算方式與資源來(lái)看，計(jì)算支出應(yīng)當(dāng)相差不遠(yuǎn)。GPT-3與PaLM都還僅是千億級(jí)數(shù)量，而參數(shù)量達(dá)到萬(wàn)億級(jí)以上的大模型，其成本投入想必驚人。如果一家大廠對(duì)研發(fā)足夠闊綽，大模型的投入成本便不是一個(gè)「攔路虎」，但在當(dāng)前資本對(duì) AI 越發(fā)謹(jǐn)慎之際，一些創(chuàng)業(yè)公司與政府投資的研究機(jī)構(gòu)還大力下注大模型，這就顯得有些魔幻了。

大模型對(duì)算力的高要求，使企業(yè)間的技術(shù)實(shí)力競(jìng)爭(zhēng)變成了金錢的競(jìng)爭(zhēng)。從長(zhǎng)遠(yuǎn)來(lái)看，一旦算法成為高消費(fèi)商品，就注定最前沿的 AI 只能為少數(shù)人享有，從而造成圍城圈地的壟斷局面。換言之，即使有一天，通用人工智能真的出現(xiàn)，也無(wú)法造福所有用戶。

同時(shí)，在這一賽道上，小企業(yè)的創(chuàng)新力將被擠壓。要煉成大模型，小企業(yè)要么與大廠合作、站在巨人的肩膀上（但這也并不是每一家小廠都能做到的事情），要么狂拉投資、備好金庫(kù)（但在資本的寒冬中，這也不切實(shí)際）。

算完投入，再算產(chǎn)出。遺憾的是，目前還沒(méi)有一家在煉大模型的企業(yè)披露過(guò)大模型創(chuàng)造了多大的經(jīng)濟(jì)效益。不過(guò)，從公開信息中可以得知，這些大模型已經(jīng)開始陸陸續(xù)續(xù)落地解決問(wèn)題，如阿里達(dá)摩院在發(fā)布萬(wàn)億參數(shù)模型 M6 后，稱其圖像生成能力已經(jīng)可以輔助汽車設(shè)計(jì)師進(jìn)行車型設(shè)計(jì)，借用 M6 的文案生成能力所創(chuàng)作的文案，也已經(jīng)在手機(jī)淘寶、支付寶和阿里小蜜上得到使用。

對(duì)于正處于探索起步階段的大模型來(lái)說(shuō)，強(qiáng)調(diào)短期回報(bào)未免苛刻。然而，我們?nèi)匀灰卮疬@樣一個(gè)問(wèn)題：無(wú)論是企業(yè)界還是學(xué)術(shù)界，在下注大模型時(shí)，是為了不錯(cuò)過(guò)一個(gè)可能在未來(lái)占據(jù)主導(dǎo)地位的技術(shù)方向，還是因?yàn)槠淠芨玫亟鉀Q眼前已知的問(wèn)題？前者有濃厚的學(xué)術(shù)探索色彩，而后者則是產(chǎn)業(yè)前鋒應(yīng)用 AI 技術(shù)落地解決問(wèn)題的群體所真正關(guān)心的問(wèn)題。

大模型由谷歌發(fā)布 BERT 拉開序幕起，是一種混沌天開的思路：在 BERT 實(shí)驗(yàn)之前，谷歌大腦的技術(shù)團(tuán)隊(duì)并不是圍繞一個(gè)已知的現(xiàn)實(shí)問(wèn)題來(lái)開發(fā)模型，也沒(méi)有想到這個(gè)當(dāng)時(shí)參數(shù)量最大（ 3 億）的 AI 模型能帶來(lái)效果的大幅提升。同理，OpenAI 在模仿谷歌開發(fā) GPT-2 與 GPT-3 時(shí)，也沒(méi)有一個(gè)特定的任務(wù)，而是成功開發(fā)出來(lái)后，大家在 GPT-3 上測(cè)任務(wù)效果，發(fā)現(xiàn)各項(xiàng)指標(biāo)都有所提升，才被驚艷到。如今的 GPT-3 就像一個(gè)平臺(tái)，已被用戶搭載了成千上萬(wàn)個(gè)應(yīng)用。

但隨著時(shí)間的推移，大模型的發(fā)展還是不可避免地回到了解決某一個(gè)實(shí)際問(wèn)題的初衷，如 Meta 今年發(fā)布的蛋白質(zhì)預(yù)測(cè)大模型 ESMFold，百度不久前發(fā)布的航天大模型。如果說(shuō)一開始的 GPT-3 等大模型主要是想探索參數(shù)量增大會(huì)對(duì)算法的性能改變帶來(lái)什么影響，是純粹的「未知指導(dǎo)未知」，那么現(xiàn)在的大模型研究則開始體現(xiàn)出一個(gè)較為清晰的目標(biāo)：就是要解決現(xiàn)實(shí)問(wèn)題，創(chuàng)業(yè)價(jià)值。

這時(shí)，大模型的發(fā)展指導(dǎo)方，就從研究者的意志轉(zhuǎn)換為了用戶的需求。在一些十分細(xì)小的需求（如車牌識(shí)別）中，大模型也能解決問(wèn)題，但由于其昂貴的訓(xùn)練成本，未免有點(diǎn)「殺豬焉用牛刀」的意味，且性能不一定出色。或者說(shuō)，若幾個(gè)點(diǎn)的精度提升是靠上千萬(wàn)的成本換來(lái)的，性價(jià)比就顯得極低。

一位業(yè)內(nèi)人士就告訴雷峰網(wǎng)-AI 科技評(píng)論，在絕大多數(shù)的情況下，我們研究一項(xiàng)技術(shù)是為了解決某一個(gè)已知的實(shí)際問(wèn)題，如情感分析、新聞概括，這時(shí)我們其實(shí)就可以設(shè)計(jì)一個(gè)專門的小任務(wù)去研究，出來(lái)的「小模型」的效果很容易就比 GPT-3 等大模型要好。甚至在一些特定的任務(wù)上，大模型「根本沒(méi)法用」。

所以，在推動(dòng) AI 發(fā)展的過(guò)程中，大模型與小模型的結(jié)合是必然的。而由于大模型的研發(fā)門檻極高，在承擔(dān) AI 大規(guī)模落地的重任上，在肉眼可見(jiàn)的未來(lái)，經(jīng)濟(jì)可用、精準(zhǔn)打擊的小模型才是主力軍。

即使是一些正在研究大模型的科學(xué)家，他們也明確地告訴雷峰網(wǎng)-AI 科技評(píng)論，雖然大模型能夠同時(shí)推行很多任務(wù)，但「現(xiàn)在談通用人工智能還太早」。大模型或許是實(shí)現(xiàn)終極目標(biāo)的一個(gè)重要途徑，但理想尚遠(yuǎn)，AI 還是要先滿足當(dāng)下。

3 AI 模型一定要越來(lái)越大嗎？

事實(shí)上，針對(duì) AI 模型越來(lái)越大的現(xiàn)象，學(xué)術(shù)界與工業(yè)界的部分研究者已經(jīng)注意到其在落地中的利與弊，并積極展開應(yīng)對(duì)之策。

如果要說(shuō)科技對(duì)社會(huì)的改變給予了人們?cè)鯓拥膯⑹荆敲雌渲幸欢〞?huì)談到的重要一條便是：如何降低科技產(chǎn)品的門檻（無(wú)論是技術(shù)上還是成本上），讓更多的人能夠享受到這項(xiàng)科技的好處，才能擴(kuò)大它的影響力。

換到大模型中，核心矛盾就是如何提升它的訓(xùn)練速度、降低訓(xùn)練的成本，或提出新的架構(gòu)。如果單從調(diào)用計(jì)算資源來(lái)看，大模型的窘境實(shí)際上并不突出。今年 6 月底開放工程聯(lián)盟 MLCommons 發(fā)布的 MLPerf 基準(zhǔn)最新訓(xùn)練結(jié)果顯示，今年機(jī)器學(xué)習(xí)系統(tǒng)的訓(xùn)練速度幾乎是去年的兩倍，已經(jīng)突破了摩爾定律（每18-24個(gè)月翻一倍）。

事實(shí)上，隨著各家服務(wù)器的更新迭代，云計(jì)算等新穎方式的出現(xiàn)，計(jì)算一直在加速，能耗也一直在降低。舉個(gè)例子，GPT-3 推出僅兩年，如今 Meta 參照它所研發(fā)的 OPT 模型的計(jì)算量已經(jīng)降低到了2020年的1/7。此外，最近還有一篇文章表明，2018 年需要幾千塊 GPU 訓(xùn)練的大模型 BERT，如今只需要單卡 24 小時(shí)就能訓(xùn)練好，一個(gè)普通的實(shí)驗(yàn)室也能輕松訓(xùn)練。

獲取算力的瓶頸已經(jīng)不存在，唯一的攔路虎只是獲取成本。

除了單純依靠算力，近年來(lái)，也有一些研究者希望另辟蹊徑，單從模型與算法本身的特性去實(shí)現(xiàn)大模型的「經(jīng)濟(jì)可用性」。

一種途徑是以數(shù)據(jù)為中心的「降維」。

最近 DeepMind 就有一項(xiàng)工作（“Training Compute-Optimal Large Language Models”）成功探索發(fā)現(xiàn)，在計(jì)算量相同的情況下，將模型的訓(xùn)練數(shù)據(jù)變大，而不是將模型的參數(shù)量放大，可以得到比僅僅放大模型更好的效果。

在 DeepMind 的這項(xiàng)研究中，一個(gè)充分利用了數(shù)據(jù)的 700 億參數(shù)模型 Chinchilla 在一系列下游任務(wù)的評(píng)估中超越了 1750 億參數(shù)的 GPT-3 和 2800 億參數(shù)的 Gopher。藍(lán)振忠解釋，Chinchilla 之所以能夠取勝，就是因?yàn)樵谟?xùn)練時(shí)將數(shù)據(jù)擴(kuò)大、翻倍，然后只計(jì)算一遍。

另一種途徑是依賴算法與架構(gòu)的創(chuàng)新，將大模型「輕量化」。

微軟亞洲研究院前副院長(zhǎng)、現(xiàn)瀾舟科技創(chuàng)始人周明是這一賽道的追隨者。

作為一名創(chuàng)業(yè)者，周明的想法很「本分」，就是要省錢。他指出，如今許多大的公司都在追求大模型，一是爭(zhēng)先恐后，二是也想體現(xiàn)自己的計(jì)算能力，尤其是云服務(wù)的能力。而瀾舟科技作為一家誕生不久的小公司，有用 AI 創(chuàng)造價(jià)值的夢(mèng)想，但沒(méi)有強(qiáng)大的云能力，錢也不夠燒，所以周明一開始想的是如何通過(guò)模型架構(gòu)的調(diào)整與知識(shí)蒸餾等等方式，將大模型變成「輕量化模型」給客戶使用。

他們?cè)谌ツ?7 月推出的輕量化模型「孟子」證明了該想法的可行性。「孟子」的參數(shù)僅 10 億，但在中文語(yǔ)言理解評(píng)測(cè)榜單 CLUE 上的表現(xiàn)卻超越參數(shù)量級(jí)為百億甚至千億的BERTSG 與盤古等等大模型（如下表）。領(lǐng)域的一個(gè)共識(shí)是：在同一個(gè)架構(gòu)下，模型一定是參數(shù)量越大、性能越好，但「孟子」的巧妙之處，就在于架構(gòu)的創(chuàng)新。

在學(xué)術(shù)界，不久前，加州大學(xué)伯克利分校的馬毅教授與沈向洋、曹穎還聯(lián)合發(fā)表了一項(xiàng)研究（“On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence”），從理論上解析了大模型為何越來(lái)越大的技術(shù)原因，即深度神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個(gè)「開環(huán)」的系統(tǒng)，即用于分類的判別模型和用于采樣或重放的生成模型的訓(xùn)練在大部分情況下是分開的，導(dǎo)致對(duì)參數(shù)的訓(xùn)練效率低下，只能依靠堆參數(shù)與堆算力來(lái)提升模型的性能。

為此，他們提出的「變革」方式更徹底，就是主張將判別模型與生成模型組合在一起，形成一個(gè)完整的「壓縮」閉環(huán)系統(tǒng)，這樣 AI 模型就能夠自主學(xué)習(xí)，并且效率更高、更穩(wěn)定，在面對(duì)一個(gè)新的環(huán)境中可能出現(xiàn)的新問(wèn)題時(shí)，適應(yīng)性與反應(yīng)能力也更強(qiáng)。換言之，如果 AI 領(lǐng)域的研究者能夠沿著這條路線去開發(fā)模型，模型的參數(shù)量級(jí)會(huì)大幅縮小，回歸到「小而美」的道路上，也能實(shí)現(xiàn)大模型「解決未知問(wèn)題」的能力。

在實(shí)現(xiàn)經(jīng)濟(jì)可用上，甚至還有一種聲音，是主張通過(guò) AutoML 或 AutoAI 的方式來(lái)解決模型訓(xùn)練的難度，降低 AI 算法的研究門檻，讓算法工程師或非 AI 從業(yè)者可以靈活根據(jù)自己的需求來(lái)打造單一功能的模型，形成無(wú)數(shù)個(gè)小模型，星星之火、可以燎原。

這種聲音是從「需求」的角度出發(fā)，反對(duì)閉門造車。

舉個(gè)例子，視覺(jué)算法用于識(shí)別、檢測(cè)與定位，其中，識(shí)別煙霧與煙火對(duì)算法的要求不同，那么他們就提供一個(gè)平臺(tái)或工具，讓需求者可以分別快速生成一個(gè)識(shí)別煙霧與識(shí)別煙火的視覺(jué)算法，精度更高，也不必追求跨場(chǎng)景的「通用性」或「泛化性」。這時(shí)，一個(gè)琴棋書畫樣樣精通的大模型，可以分為無(wú)數(shù)個(gè)分別精通琴、棋、書、畫的小模型，同樣也能解決問(wèn)題。

4 寫在最后

再回到電風(fēng)扇吹空皂盒的故事上。

在 AI 技術(shù)解決現(xiàn)實(shí)問(wèn)題上，大模型與小模型就猶如博士后的自動(dòng)化方案與小工的電風(fēng)扇，前者雖然在解決某一個(gè)小的問(wèn)題時(shí)顯得冗余、笨重，效果也沒(méi)有電風(fēng)扇快速，但幾乎沒(méi)有人會(huì)否認(rèn)博士后及其團(tuán)隊(duì)所提供的價(jià)值，更不可能「消滅」他們。相反，我們甚至可以說(shuō)出幾百個(gè)理由來(lái)強(qiáng)調(diào)技術(shù)研發(fā)的合理性。

但在許多時(shí)候，技術(shù)研究者卻常常忽略了小工在解決問(wèn)題上的智慧：從實(shí)際問(wèn)題出發(fā)，而不是囿于技術(shù)的優(yōu)勢(shì)。從這個(gè)角度看，大模型的研究固有引領(lǐng)前沿的價(jià)值，但也要考慮降本增效中的「經(jīng)濟(jì)可用」目標(biāo)。

再回到研究本身，藍(lán)振忠表示，目前大模型的成果雖然有很多，但開源極少，普通研究者的訪問(wèn)有限，這一點(diǎn)很令人惋惜。

由于大模型沒(méi)有開源，普通用戶也無(wú)法從需求的角度來(lái)評(píng)價(jià)大模型的實(shí)用性。事實(shí)上，此前在目前少數(shù)開源的大模型中，我們?cè)鲞^(guò)實(shí)驗(yàn)，發(fā)現(xiàn)語(yǔ)言大模型在理解社會(huì)倫理與情感上的表現(xiàn)存在極高的不穩(wěn)定性。

因?yàn)椴婚_放，各大廠對(duì)自家大模型的介紹也是停留在學(xué)術(shù)的各項(xiàng)指標(biāo)上，這就形成了類似薛定諤的困局：你永遠(yuǎn)不知道盒子里有什么，也無(wú)法判斷它的真假，一句話，什么都是他們說(shuō)了算。最后，希望 AI 大模型真的能夠造福更多人吧。

責(zé)任編輯：張燕妮來(lái)源：雷峰網(wǎng)

AI 模型