開源新寵！IBM Granite 4.0 Tiny來(lái)襲，對(duì)話、多語(yǔ)言、代碼生成全搞定原創(chuàng)

發(fā)布于 2025-6-23 08:38

瀏覽

0收藏

在人工智能領(lǐng)域，語(yǔ)言模型一直是研究和應(yīng)用的熱點(diǎn)。從簡(jiǎn)單的文本生成到復(fù)雜的對(duì)話系統(tǒng)，語(yǔ)言模型的性能和效率一直是開發(fā)者和研究人員關(guān)注的重點(diǎn)。最近，IBM發(fā)布了一個(gè)備受矚目的新成員——Granite 4.0 Tiny，這是其即將推出的Granite 4.0語(yǔ)言模型家族中最小的成員。今天，我們就來(lái)深入了解一下這個(gè)小巧而強(qiáng)大的模型，看看它如何在長(zhǎng)文本任務(wù)和指令跟隨場(chǎng)景中大放異彩。

開源與高效：Granite 4.0 Tiny的使命

IBM一直以來(lái)都致力于開發(fā)開放、可審計(jì)且適合企業(yè)級(jí)應(yīng)用的基礎(chǔ)模型。Granite 4.0 Tiny的發(fā)布，正是這一使命的延續(xù)。這款模型采用了Apache 2.0開源許可，這意味著開發(fā)者可以自由地使用、修改和分發(fā)模型，極大地促進(jìn)了技術(shù)的共享和創(chuàng)新。

Granite 4.0 Tiny的設(shè)計(jì)目標(biāo)非常明確：在保持高效性能的同時(shí)，提供透明性和企業(yè)級(jí)的可靠性。它專注于長(zhǎng)文本任務(wù)和指令跟隨場(chǎng)景，例如文檔理解、對(duì)話總結(jié)以及知識(shí)密集型問答。這種定位使得Granite 4.0 Tiny在資源受限的環(huán)境中表現(xiàn)尤為出色，比如邊緣計(jì)算設(shè)備和需要快速響應(yīng)的應(yīng)用場(chǎng)景。

開源新寵！IBM Granite 4.0 Tiny來(lái)襲，對(duì)話、多語(yǔ)言、代碼生成全搞定-AI.x社區(qū)

架構(gòu)創(chuàng)新：混合MoE與Mamba-2風(fēng)格動(dòng)態(tài)

Granite 4.0 Tiny的核心架構(gòu)采用了混合專家（MoE）結(jié)構(gòu)，總參數(shù)量達(dá)到70億，但在每次前向傳播中，只有10億參數(shù)被激活。這種稀疏性設(shè)計(jì)使得模型在計(jì)算資源消耗上大幅減少，同時(shí)保持了可擴(kuò)展性。換句話說(shuō)，Granite 4.0 Tiny能夠在不犧牲性能的前提下，高效地處理長(zhǎng)文本任務(wù)。

Base-Preview版本采用了純解碼器架構(gòu)，并引入了Mamba-2風(fēng)格的線性遞歸層，作為傳統(tǒng)注意力機(jī)制的替代品。這種架構(gòu)的轉(zhuǎn)變使得模型能夠更高效地處理輸入長(zhǎng)度的擴(kuò)展，非常適合長(zhǎng)文本任務(wù)。此外，Granite 4.0 Tiny還采用了NoPE（無(wú)位置編碼）設(shè)計(jì)。與傳統(tǒng)的固定或?qū)W習(xí)位置嵌入不同，該模型將位置處理直接集成到層動(dòng)態(tài)中。這種設(shè)計(jì)不僅提高了模型在不同輸入長(zhǎng)度下的泛化能力，還確保了長(zhǎng)序列生成的一致性。

性能卓越：效率與效果的雙重提升

盡管Granite 4.0 Tiny只是一個(gè)預(yù)覽版本，但其性能已經(jīng)讓人眼前一亮。在多項(xiàng)基準(zhǔn)測(cè)試中，Base-Preview版本都取得了顯著的提升。例如，在DROP（段落離散推理）基準(zhǔn)測(cè)試中，該模型的性能提升了5.6倍；在AGIEval（評(píng)估通用語(yǔ)言理解和推理能力）測(cè)試中，性能提升了3.8倍。這些提升歸功于模型的架構(gòu)設(shè)計(jì)以及其廣泛的預(yù)訓(xùn)練過(guò)程。據(jù)報(bào)道，Granite 4.0 Tiny在2.5萬(wàn)億個(gè)標(biāo)記上進(jìn)行了預(yù)訓(xùn)練，涵蓋了多種領(lǐng)域和語(yǔ)言結(jié)構(gòu)。

開源新寵！IBM Granite 4.0 Tiny來(lái)襲，對(duì)話、多語(yǔ)言、代碼生成全搞定-AI.x社區(qū)

指令調(diào)優(yōu)：對(duì)話、多語(yǔ)言與代碼生成的全能選手

除了Base-Preview版本外，Granite 4.0 Tiny還提供了Instruct（指令調(diào)優(yōu)）版本。這個(gè)版本通過(guò)監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）進(jìn)行了進(jìn)一步優(yōu)化，使用了Tülu風(fēng)格的數(shù)據(jù)集，包含開放和合成對(duì)話。Instruct版本專為指令跟隨和交互式應(yīng)用場(chǎng)景設(shè)計(jì)，支持8192個(gè)標(biāo)記的輸入窗口和8192個(gè)標(biāo)記的生成長(zhǎng)度，能夠在長(zhǎng)時(shí)間的交互中保持一致性和準(zhǔn)確性。

與常見的編碼器-解碼器混合模型不同，Granite 4.0 Tiny的純解碼器架構(gòu)能夠生成更清晰、更可追溯的輸出。這對(duì)于企業(yè)級(jí)應(yīng)用和安全關(guān)鍵場(chǎng)景來(lái)說(shuō)是一個(gè)巨大的優(yōu)勢(shì)。Instruct版本在多項(xiàng)評(píng)估中表現(xiàn)出色，例如在IFEval（指令跟隨基準(zhǔn)測(cè)試）中得分為86.1，在GSM8K（小學(xué)數(shù)學(xué)問題解決）測(cè)試中得分為70.05，在HumanEval（Python代碼生成準(zhǔn)確性）測(cè)試中得分為82.41。此外，該模型還支持12種語(yǔ)言的多語(yǔ)言交互，使其在全球范圍內(nèi)的客服、企業(yè)自動(dòng)化和教育工具等場(chǎng)景中具有廣泛的應(yīng)用潛力。

開源與生態(tài)：助力開發(fā)者探索與創(chuàng)新

IBM將Granite 4.0 Tiny的兩個(gè)版本都發(fā)布在了Hugging Face平臺(tái)上，供開發(fā)者自由使用。這些模型不僅提供了完整的模型權(quán)重和配置文件，還附帶了示例腳本，方便開發(fā)者進(jìn)行實(shí)驗(yàn)、微調(diào)和集成到下游自然語(yǔ)言處理工作流中。開源的策略不僅促進(jìn)了技術(shù)的透明度，也為開發(fā)者提供了一個(gè)強(qiáng)大的工具，幫助他們快速實(shí)現(xiàn)自己的想法。

展望未來(lái)：Granite 4.0的無(wú)限可能

Granite 4.0 Tiny預(yù)覽版只是IBM新一代語(yǔ)言模型家族的一個(gè)開端。通過(guò)結(jié)合高效的MoE架構(gòu)、長(zhǎng)文本支持和指令調(diào)優(yōu)，Granite 4.0家族有望在可控和資源高效的前提下，提供最先進(jìn)的語(yǔ)言模型能力。隨著更多Granite 4.0版本的發(fā)布，我們可以期待IBM在負(fù)責(zé)任的開放人工智能領(lǐng)域持續(xù)投入，成為推動(dòng)透明、高性能語(yǔ)言模型未來(lái)發(fā)展的重要力量。

總結(jié)

IBM的Granite 4.0 Tiny預(yù)覽版為我們展示了一個(gè)小而強(qiáng)大的語(yǔ)言模型如何在長(zhǎng)文本任務(wù)和指令跟隨場(chǎng)景中發(fā)揮巨大作用。它的開源策略、創(chuàng)新架構(gòu)和卓越性能，使其成為開發(fā)者和研究人員的有力工具。無(wú)論是在企業(yè)級(jí)應(yīng)用還是在學(xué)術(shù)研究中，Granite 4.0 Tiny都值得我們關(guān)注。未來(lái)，隨著更多版本的推出，Granite 4.0有望在人工智能領(lǐng)域掀起新的浪潮。讓我們拭目以待吧！

本文轉(zhuǎn)載自??Halo咯咯?? 作者：基咯咯

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

開源

IBM

Granite 4.0 Tiny

已于2025-6-23 08:38:40修改

贊

回復(fù)