Google Gemma 3n:創(chuàng)新的AI邊緣計(jì)算
Gemma 3n不是傳統(tǒng)意義上的"模型優(yōu)化",而是對(duì)Transformer架構(gòu)進(jìn)行了系統(tǒng)性重構(gòu)。它解決了一個(gè)根本性問(wèn)題:如何在極度受限的邊緣設(shè)備上實(shí)現(xiàn)云端級(jí)別的AI能力。
1.MatFormer
MatFormer基于Matryoshka表示學(xué)習(xí)理論,每個(gè)Transformer塊都設(shè)計(jì)了嵌套子塊結(jié)構(gòu),小型子模型(如套娃中的層)包含在大型模型中。
MatFormer通過(guò)在標(biāo)準(zhǔn)Transformer模型中加入嵌套的前饋網(wǎng)絡(luò)(FFN)塊結(jié)構(gòu)來(lái)實(shí)現(xiàn)彈性推理。利用聯(lián)合訓(xùn)練策略,在訓(xùn)練E4B(4B有效參數(shù))模型時(shí),E2B(2B有效參數(shù))子模型同時(shí)在相同的前向傳播中被優(yōu)化。以及參數(shù)共享機(jī)制,通過(guò)參數(shù)共享的嵌套結(jié)構(gòu),能夠在運(yùn)行時(shí)選擇子模型來(lái)實(shí)現(xiàn)彈性推理。

Mix-n-Match技術(shù)的工程實(shí)現(xiàn)通過(guò)調(diào)整FFN隱藏維度(8192→16384)精確控制。同時(shí)選擇性跳過(guò)特定層來(lái)進(jìn)一步優(yōu)化性能。至于如何確認(rèn)最優(yōu)的配置,則是通過(guò)MMLU等基準(zhǔn)逆向推動(dòng)。
這項(xiàng)技術(shù)具備彈性執(zhí)行的前瞻性設(shè)計(jì),未來(lái)的實(shí)現(xiàn)將允許單個(gè)E4B模型根據(jù)任務(wù)復(fù)雜度和設(shè)備負(fù)載動(dòng)態(tài)在E4B和E2B推理路徑間切換,這種"動(dòng)態(tài)智能"是傳統(tǒng)固定架構(gòu)無(wú)法實(shí)現(xiàn)的。
2.Per-Layer Embeddings (PLE)
PLE專(zhuān)為設(shè)備端部署定制,在不增加設(shè)備加速器(GPU/TPU)高速內(nèi)存占用的前提下顯著提升模型質(zhì)量。

它進(jìn)行內(nèi)存分層管理策略,E2B模型雖有5B真實(shí)參數(shù),但GPU內(nèi)存占用相當(dāng)于2B參數(shù)模型計(jì)算資源。大部分參數(shù)(每層嵌入)在CPU上高效加載和計(jì)算,只有核心變換器權(quán)重占用珍貴的GPU/TPU內(nèi)存。
工程實(shí)現(xiàn)的精妙之處: 這種設(shè)計(jì)充分利用了現(xiàn)代設(shè)備的異構(gòu)計(jì)算架構(gòu),CPU負(fù)責(zé)大容量低頻操作,GPU/TPU專(zhuān)注高頻計(jì)算任務(wù),實(shí)現(xiàn)了硬件資源的最優(yōu)分配。
3.KV Cache Sharing
傳統(tǒng)Transformer在處理長(zhǎng)序列時(shí),每層都需要獨(dú)立計(jì)算和存儲(chǔ)鍵值對(duì),內(nèi)存和計(jì)算開(kāi)銷(xiāo)呈二次增長(zhǎng)。KV Cache Sharing通過(guò)層間共享策略徹底改變了這一模式。
Gemma 3n中間層的局部和全局注意力的鍵值直接與所有頂層共享,相比Gemma 3 4B實(shí)現(xiàn)2倍性能提升,顯著減少長(zhǎng)序列處理的內(nèi)存占用。
這種設(shè)計(jì)特別適合音頻、視頻等時(shí)序數(shù)據(jù)的實(shí)時(shí)處理,解決了邊緣設(shè)備處理長(zhǎng)上下文的根本瓶頸。
4.多模態(tài)編碼器
MobileNet-V5-300M在Google Pixel Edge TPU上量化后13倍加速(無(wú)量化6.5倍),相比基線(xiàn)SoViT減少46%參數(shù)內(nèi)存優(yōu)化,內(nèi)存占用減少75%準(zhǔn)。同時(shí)在視覺(jué)-語(yǔ)言任務(wù)上顯著提高準(zhǔn)確性。
它利用先進(jìn)的蒸餾技術(shù),從大型視覺(jué)模型中提取精華知識(shí)。專(zhuān)門(mén)針對(duì)移動(dòng)設(shè)備的約束條件,具備高達(dá)60FPS的實(shí)時(shí)視頻處理能力。
而其USM音頻編碼器突破了語(yǔ)音理解的精度。能夠做到高精度采樣,每160毫秒生成一個(gè)音頻令牌(約6個(gè)令牌/秒)。在英語(yǔ)與西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)、葡萄牙語(yǔ)間翻譯表現(xiàn)卓越。


模型在MMLU上實(shí)現(xiàn)了1300分突破,首個(gè)參數(shù)量<10B達(dá)到此成績(jī)的模型。證明了架構(gòu)創(chuàng)新勝過(guò)參數(shù)堆砌的技術(shù)路線(xiàn),在資源受限環(huán)境下實(shí)現(xiàn)頂級(jí)智能水平。
本文轉(zhuǎn)載自????魯班模錘????,作者:龐德公

















