開源新寵!IBM Granite 4.0 Tiny來(lái)襲,對(duì)話、多語(yǔ)言、代碼生成全搞定 原創(chuàng)
在人工智能領(lǐng)域,語(yǔ)言模型一直是研究和應(yīng)用的熱點(diǎn)。從簡(jiǎn)單的文本生成到復(fù)雜的對(duì)話系統(tǒng),語(yǔ)言模型的性能和效率一直是開發(fā)者和研究人員關(guān)注的重點(diǎn)。最近,IBM發(fā)布了一個(gè)備受矚目的新成員——Granite 4.0 Tiny,這是其即將推出的Granite 4.0語(yǔ)言模型家族中最小的成員。今天,我們就來(lái)深入了解一下這個(gè)小巧而強(qiáng)大的模型,看看它如何在長(zhǎng)文本任務(wù)和指令跟隨場(chǎng)景中大放異彩。
開源與高效:Granite 4.0 Tiny的使命
IBM一直以來(lái)都致力于開發(fā)開放、可審計(jì)且適合企業(yè)級(jí)應(yīng)用的基礎(chǔ)模型。Granite 4.0 Tiny的發(fā)布,正是這一使命的延續(xù)。這款模型采用了Apache 2.0開源許可,這意味著開發(fā)者可以自由地使用、修改和分發(fā)模型,極大地促進(jìn)了技術(shù)的共享和創(chuàng)新。
Granite 4.0 Tiny的設(shè)計(jì)目標(biāo)非常明確:在保持高效性能的同時(shí),提供透明性和企業(yè)級(jí)的可靠性。它專注于長(zhǎng)文本任務(wù)和指令跟隨場(chǎng)景,例如文檔理解、對(duì)話總結(jié)以及知識(shí)密集型問答。這種定位使得Granite 4.0 Tiny在資源受限的環(huán)境中表現(xiàn)尤為出色,比如邊緣計(jì)算設(shè)備和需要快速響應(yīng)的應(yīng)用場(chǎng)景。

架構(gòu)創(chuàng)新:混合MoE與Mamba-2風(fēng)格動(dòng)態(tài)
Granite 4.0 Tiny的核心架構(gòu)采用了混合專家(MoE)結(jié)構(gòu),總參數(shù)量達(dá)到70億,但在每次前向傳播中,只有10億參數(shù)被激活。這種稀疏性設(shè)計(jì)使得模型在計(jì)算資源消耗上大幅減少,同時(shí)保持了可擴(kuò)展性。換句話說(shuō),Granite 4.0 Tiny能夠在不犧牲性能的前提下,高效地處理長(zhǎng)文本任務(wù)。
Base-Preview版本采用了純解碼器架構(gòu),并引入了Mamba-2風(fēng)格的線性遞歸層,作為傳統(tǒng)注意力機(jī)制的替代品。這種架構(gòu)的轉(zhuǎn)變使得模型能夠更高效地處理輸入長(zhǎng)度的擴(kuò)展,非常適合長(zhǎng)文本任務(wù)。此外,Granite 4.0 Tiny還采用了NoPE(無(wú)位置編碼)設(shè)計(jì)。與傳統(tǒng)的固定或?qū)W習(xí)位置嵌入不同,該模型將位置處理直接集成到層動(dòng)態(tài)中。這種設(shè)計(jì)不僅提高了模型在不同輸入長(zhǎng)度下的泛化能力,還確保了長(zhǎng)序列生成的一致性。
性能卓越:效率與效果的雙重提升
盡管Granite 4.0 Tiny只是一個(gè)預(yù)覽版本,但其性能已經(jīng)讓人眼前一亮。在多項(xiàng)基準(zhǔn)測(cè)試中,Base-Preview版本都取得了顯著的提升。例如,在DROP(段落離散推理)基準(zhǔn)測(cè)試中,該模型的性能提升了5.6倍;在AGIEval(評(píng)估通用語(yǔ)言理解和推理能力)測(cè)試中,性能提升了3.8倍。這些提升歸功于模型的架構(gòu)設(shè)計(jì)以及其廣泛的預(yù)訓(xùn)練過(guò)程。據(jù)報(bào)道,Granite 4.0 Tiny在2.5萬(wàn)億個(gè)標(biāo)記上進(jìn)行了預(yù)訓(xùn)練,涵蓋了多種領(lǐng)域和語(yǔ)言結(jié)構(gòu)。

指令調(diào)優(yōu):對(duì)話、多語(yǔ)言與代碼生成的全能選手
除了Base-Preview版本外,Granite 4.0 Tiny還提供了Instruct(指令調(diào)優(yōu))版本。這個(gè)版本通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)進(jìn)行了進(jìn)一步優(yōu)化,使用了Tülu風(fēng)格的數(shù)據(jù)集,包含開放和合成對(duì)話。Instruct版本專為指令跟隨和交互式應(yīng)用場(chǎng)景設(shè)計(jì),支持8192個(gè)標(biāo)記的輸入窗口和8192個(gè)標(biāo)記的生成長(zhǎng)度,能夠在長(zhǎng)時(shí)間的交互中保持一致性和準(zhǔn)確性。
與常見的編碼器-解碼器混合模型不同,Granite 4.0 Tiny的純解碼器架構(gòu)能夠生成更清晰、更可追溯的輸出。這對(duì)于企業(yè)級(jí)應(yīng)用和安全關(guān)鍵場(chǎng)景來(lái)說(shuō)是一個(gè)巨大的優(yōu)勢(shì)。Instruct版本在多項(xiàng)評(píng)估中表現(xiàn)出色,例如在IFEval(指令跟隨基準(zhǔn)測(cè)試)中得分為86.1,在GSM8K(小學(xué)數(shù)學(xué)問題解決)測(cè)試中得分為70.05,在HumanEval(Python代碼生成準(zhǔn)確性)測(cè)試中得分為82.41。此外,該模型還支持12種語(yǔ)言的多語(yǔ)言交互,使其在全球范圍內(nèi)的客服、企業(yè)自動(dòng)化和教育工具等場(chǎng)景中具有廣泛的應(yīng)用潛力。
開源與生態(tài):助力開發(fā)者探索與創(chuàng)新
IBM將Granite 4.0 Tiny的兩個(gè)版本都發(fā)布在了Hugging Face平臺(tái)上,供開發(fā)者自由使用。這些模型不僅提供了完整的模型權(quán)重和配置文件,還附帶了示例腳本,方便開發(fā)者進(jìn)行實(shí)驗(yàn)、微調(diào)和集成到下游自然語(yǔ)言處理工作流中。開源的策略不僅促進(jìn)了技術(shù)的透明度,也為開發(fā)者提供了一個(gè)強(qiáng)大的工具,幫助他們快速實(shí)現(xiàn)自己的想法。
展望未來(lái):Granite 4.0的無(wú)限可能
Granite 4.0 Tiny預(yù)覽版只是IBM新一代語(yǔ)言模型家族的一個(gè)開端。通過(guò)結(jié)合高效的MoE架構(gòu)、長(zhǎng)文本支持和指令調(diào)優(yōu),Granite 4.0家族有望在可控和資源高效的前提下,提供最先進(jìn)的語(yǔ)言模型能力。隨著更多Granite 4.0版本的發(fā)布,我們可以期待IBM在負(fù)責(zé)任的開放人工智能領(lǐng)域持續(xù)投入,成為推動(dòng)透明、高性能語(yǔ)言模型未來(lái)發(fā)展的重要力量。
總結(jié)
IBM的Granite 4.0 Tiny預(yù)覽版為我們展示了一個(gè)小而強(qiáng)大的語(yǔ)言模型如何在長(zhǎng)文本任務(wù)和指令跟隨場(chǎng)景中發(fā)揮巨大作用。它的開源策略、創(chuàng)新架構(gòu)和卓越性能,使其成為開發(fā)者和研究人員的有力工具。無(wú)論是在企業(yè)級(jí)應(yīng)用還是在學(xué)術(shù)研究中,Granite 4.0 Tiny都值得我們關(guān)注。未來(lái),隨著更多版本的推出,Granite 4.0有望在人工智能領(lǐng)域掀起新的浪潮。讓我們拭目以待吧!
本文轉(zhuǎn)載自??Halo咯咯?? 作者:基咯咯

















