谷歌T5Gemma重燃架構之戰!「套殼」反殺Gemma本尊,9B推理快得離譜
2023年以來,大模型的戰場由decoder-only架構一統江湖。
從GPT家族到LLaMA、Gemma、Mistral,再到Claude、Command-R、Yi系列,
能叫得出名字的主流LLM,幾乎都是清一色的「純解碼器」(decoder-only)。
但今天,Google帶著T5Gemma殺回來了——

不僅重啟了encoder-decoder的技術路線,還略施小技就讓它原地起飛,暴打原版Gemma 2。
T5Gemma本身基于decoder-only的Gemma 2框架。
神奇的是,通過簡單的「適配」轉換成encoder-decoder架構后,T5Gemma一舉實現性能飛躍。
T5Gemma 9B-9B在GSM8K(數學推理)上得分?原始Gemma 2 9B?出9分,在DROP(閱讀理解)上?出4分。
進一步縮小參數量,結果反而更驚人!
T5Gemma 2B-2B IT的MMLU得分?Gemma 2 2B提高了近12分,GSM8K準確率暴漲到70.7%。

T5Gemma主要面向文本生成任務,包括問答系統、數學推理、閱讀理解等。
并且encoder-decoder的架構支持「不平衡」配置。如9B編碼器配2B解碼器,可以在質量和效率之間游刃有余。
在相同的計算量下,T5Gemma性能優于僅解碼器模型,靈活度也更勝一籌,可以根據具體任務調整編碼器和解碼器的大小。
除了Gemma 2的技術回馬槍之外,Gemma 3系列也有重大更新!
Google這次專攻醫療多模態任務,基于Gemma 3架構,推出了MedGemma和MedSigLIP兩款多模態模型。
MedGemma支持圖文輸入,輸出是醫學自由文本;MedSigLIP則是輕量圖文編碼器。
Google把「低資源友好」貫徹到底,MedGemma僅需4B模型即可逼近SoTA,部署門檻極低,單卡、甚至移動端也能輕松跑起來。
4億參數的MedSigLIP也是全能王者,不僅擅長醫學圖像,檢索、零樣本分類等非醫學下游任務也手拿把掐。
在Med系列「開源雙子星」的轟炸下,醫療模型閉源壁壘岌岌可危,同行紛紛對Google表示祝賀和期待。

「架構+落地」雙王炸,Google的開源LLM體系戰略殺瘋了。
四兩撥千斤
重燃encoder-decoder架構之戰
T5Gemma基于Gemma 2框架,包括適配后的Gemma 2 2B和9B模型,以及?組新訓練的T5尺寸模型(Small、Base、Large 和 XL)。
Google已經將預訓練模型和指令微調模型的T5Gemma系列在huggingface上開源,助?社區在研究與開發中挖掘新的機會。

一招適配,暴打原版
不少網友在T5Gemma發布后紛紛表示,encoder-decoder其實也具有很強的輸入理解、上下文建模和推理能力。

然而,它卻因為decoder-only架構的風頭無兩而被雪藏已久。
Google四兩撥千斤,僅憑一招「適配」,把encoder-decoder架構重新帶到聚光燈下。
在技術報告中,Google所提出的「模型適配」(Model Adaptation)理念其實非常直觀:
直接利用已完成預訓練的decoder-only模型權重,初始化encoder-decoder模型的參數,然后基于UL2或PrefixLM進行進一步訓練。
具體而言,如圖所示。

Google首先使用一個已經預訓練完成的decoder-only模型,比如Gemma 2 9B或2B。
這個模型包含前饋網絡模塊(FFN)和一個因果自注意力+旋轉位置編碼(ROPE)模塊
原本decoder-only模型中的「因果自注意力」模塊會被替換為「雙頭注意力」以適配encoder。在encoder中,FFN和ROPE參數繼續沿用原模型。
原始decoder-only中的模塊中間新增一層 Cross-Attention之后,作為新架構的decoder,用于解碼器從encoder輸出中獲取信息。
在上述結構完成初始化后,模型可以使用UL2或PrefixLM來適應encoder-decoder的信息流、masking策略和解碼方式。
這種適配?法具有很?的靈活性,允許在模型尺寸之間進?創造性的組合。
想法簡單,效果驚人
實驗證明,T5Gemma的想法非常有效。
在相同的推理FLOPs下,T5Gemma的表現(星形點)始終高于或等于decoder-only模型(圓形點)。
在SuperGLUE基準上,T5Gemma的最高分超過90,顯著領先于大多數decoder-only模型。
IT(信息提取)與PT(推理任務)指標同樣展現出encoder-decoder架構的穩健性,特別是在中低FLOPs區間內性能提升尤為顯著,說明它對計算資源的利用效率更高。

在真實場景下,T5Gemma的高效計算優勢也一路狂飆,穩坐開源性能「性價比之王」。
以GSM8K(數學推理)為例,T5Gemma 9B-9B的準確率?于Gemma 2 9B,但延遲卻相近。
T5Gemma 9B-2B在準確率上遠超2B-2B模型,但其延遲卻幾乎與較?的Gemma 2 2B模型相同。
全方位碾壓!T5Gemma不止于快
T5Gemma在預訓練前后都展現出強?能?。
例如,T5Gemma 9B-9B在GSM8K(數學推理)上得分?原始Gemma 2 9B?出超過9分,在DROP(閱讀理解)上?出4分。
這些提高意味著,通過「適配」進行初始化的encoder-decoder架構潛力更大。
進行指令微調后,Gemma 2與T5Gemma的性能差距在多個任務上進一步顯著擴大。
T5Gemma 2B-2B IT的MMLU得分狂超Gemma 2 2B近12分,GSM8K準確率從58.0%躍升到70.7%。
MedGemma
擊破醫療AI開源壁壘
Google這次盯上了醫療多模態場景,一口氣發布兩款模型:MedGemma和MedSigLIP。
Med系列多模態模型延續了「低資源友好」的策略。
基于 Gemma 3 打造的MedGemma生成式多模態模型,支持圖像+文本輸入,輸出醫學自由文本。
該模型提供 4B 和 27B 兩種尺寸,4B 多模態版本可在單卡甚至移動設備上運行,一舉把醫學級模型推下了高算力「神壇」。
不管是放射報告生成,還是圖像問答和病例摘要,它都能輕松勝任。
在 MedQA 等權威評測中,MedGemma 27B拿下 87.7% 高分,精度接近DeepSeek R1,但推理成本僅為十分之一!
圖文編碼器MedSigLIP更加短小精悍。
只有 4 億參數,卻能穩穩處理胸片、皮膚病、眼底等多種醫學圖像,并輸出與文本對齊的語義嵌入。
圖像分類、零樣本識別和語義圖像檢索,統統一「模」搞定。

在開發過程中,團隊首先把MedSigLIP訓了出來,作為醫學優化圖像編碼器。
然后在醫學數據上訓練了4B和27B版本的Gemma 3模型。
通過訓練流程解耦,Gemma 3很好地保留了通用能力。MedGemma在融合醫學與非醫學信息、遵循指令、支持非英文語言等任務上依然表現良好。
單獨訓出來的MedSigLIP是一款僅 4 億參數的輕量醫學圖像編碼器,采用Sigmoid損失的SigLIP架構,如下圖所示。
它的訓練是通過胸片、病理切片、皮膚病圖像與眼底圖像等多樣醫學圖像數據調優完成的。
MedSigLIP的核心目標是,將醫學圖像與文本編碼為「同一語義空間嵌入向量」。
它在多種醫學圖像任務中的分類效果可媲美專用模型,同時通用性也不拜下風,完美勝任傳統圖像分類、零樣本分類、檢索等任務。
Gemma路線大升級
Google開源吹響反攻號角
Google這波開源一舉把「反攻號角」吹到了醫療AI最前線。
無論是圖文融合的MedSigLIP,還是醫療多語種全能選手MedGemma,全都以safetensors格式上線Hugging Face,直接拉低使用門檻。
開發者可以一鍵下載、靈活部署,還能在本地或自定義云平臺完成推理與微調,隱私合規和數據安全輕松搞定。
不少醫療機構已經驗證了Med系列醫療AI「開源雙子星」的有效性。
例如,美國DeepHealth已開始使用 MedSigLIP 優化胸片分診與結節檢測;臺灣長庚紀念醫院稱MedGemma能很好理解繁體中文醫學文獻,并有效回應醫護問題。
對于醫療機構的不同需求,Google還給出了對應的模型選擇建議。

Hugging Face上已經提供了32個版本的T5Gemma全家桶。
用戶可以根據推理速度、內存預算、精度等個性化需求,自由選擇模型型號,也可以選擇預訓練版、指令微調版、RLHF版,或基于不同目標(PrefixLM / UL2)訓練的各種變體。

不止如此,Google還貼心給出全套使用手冊、Colab示例和Vertex AI部署方案,從下載到上線一路暢通,開發效率直接拉滿。
Gemma路線已經從「架構革新」延伸到「產業落地」。
Google這波上場更新,不止打破了閉源神話,更是為整個AI社區作出了「工具+自由+性能」的表率。
從T5Gemma到MedGemma,世界級開源模型已來,接下來,是開發者的上場。





































