螞蟻萬(wàn)億模型震撼開(kāi)源!數(shù)學(xué)推理碾壓GPT,國(guó)產(chǎn)AI首次問(wèn)鼎奧數(shù)銀牌

92.6分 vs 94.6分——當(dāng)我看到螞蟻集團(tuán)剛發(fā)布的Ring-1T模型在A(yíng)IME25測(cè)試中的成績(jī)時(shí),第一反應(yīng)是有點(diǎn)不敢相信。一個(gè)國(guó)產(chǎn)開(kāi)源模型,居然能在數(shù)學(xué)推理上逼近GPT-5的水平?
更震撼的是,這個(gè)叫Ring-1T的模型在模擬IMO(國(guó)際數(shù)學(xué)奧林匹克)近十年真題的測(cè)試中,正確率達(dá)到了銀牌選手平均水平的93%。要知道,IMO可是被譽(yù)為"數(shù)學(xué)天才搖籃"的頂級(jí)競(jìng)賽,能在這里拿銀牌的,基本都是各國(guó)數(shù)學(xué)界的未來(lái)之星。

我特意去查了一下這個(gè)模型的技術(shù)細(xì)節(jié)。Ring-1T采用了萬(wàn)億參數(shù)規(guī)模,但實(shí)際激活的只有約51B參數(shù),這種MoE(專(zhuān)家混合)架構(gòu)讓它既有大模型的能力,又保持了相對(duì)高效的推理速度。
國(guó)產(chǎn)AI的"奧數(shù)銀牌"有多厲害?
說(shuō)實(shí)話(huà),剛開(kāi)始我對(duì)這個(gè)"銀牌水平"也沒(méi)什么概念。后來(lái)仔細(xì)了解了一下,才發(fā)現(xiàn)這個(gè)成績(jī)有多震撼。
IMO每年只有大約600名選手參賽,代表的是全球100多個(gè)國(guó)家和地區(qū)的數(shù)學(xué)尖子生。能拿到銀牌,意味著在這600人中排進(jìn)前40%左右。而Ring-1T能達(dá)到銀牌選手93%的正確率,基本上就是說(shuō)它的數(shù)學(xué)推理能力已經(jīng)超越了全球大部分的數(shù)學(xué)天才。
更有意思的是,Ring-1T在組合數(shù)學(xué)和不等式證明這兩個(gè)最難的題型上表現(xiàn)尤其突出。這些題目往往需要很強(qiáng)的邏輯推理能力和創(chuàng)新思維,不是簡(jiǎn)單的公式套用就能解決的。
開(kāi)源vs閉源:一場(chǎng)認(rèn)知的較量
這里有個(gè)很有意思的對(duì)比。OpenAI的GPT-5、Google的Gemini這些頂級(jí)模型,基本都是閉源的,你只能通過(guò)API調(diào)用,看不到內(nèi)部的技術(shù)細(xì)節(jié)。而螞蟻這次直接把Ring-1T開(kāi)源了,代碼、模型權(quán)重、訓(xùn)練數(shù)據(jù)全部公開(kāi)。
從商業(yè)角度看,這確實(shí)有點(diǎn)"反直覺(jué)"。畢竟訓(xùn)練一個(gè)萬(wàn)億參數(shù)的模型,成本少說(shuō)也得幾千萬(wàn)美元。但從技術(shù)發(fā)展的角度,這種開(kāi)源策略可能更有遠(yuǎn)見(jiàn)。
全球開(kāi)發(fā)者可以基于Ring-1T進(jìn)行二次開(kāi)發(fā),這意味著這個(gè)模型的能力會(huì)在無(wú)數(shù)人的貢獻(xiàn)下快速迭代和提升。
我想起了Linux和Android的發(fā)展歷程。正是因?yàn)殚_(kāi)源,它們才能在短時(shí)間內(nèi)聚集全球最優(yōu)秀的開(kāi)發(fā)者,最終在各自領(lǐng)域占據(jù)主導(dǎo)地位。
技術(shù)細(xì)節(jié):萬(wàn)億參數(shù)背后的巧思
Ring-1T的技術(shù)架構(gòu)挺有意思的。它采用了Ling 2.0架構(gòu),前4層是密集結(jié)構(gòu),后76層是MoE結(jié)構(gòu),總共有256個(gè)專(zhuān)家模塊。
這種設(shè)計(jì)的好處是什么呢?簡(jiǎn)單來(lái)說(shuō),就是讓模型既聰明又高效。萬(wàn)億參數(shù)聽(tīng)起來(lái)很?chē)樔耍珜?shí)際推理時(shí)只激活51B參數(shù),這樣既保證了能力,又控制了計(jì)算成本。就像一個(gè)超級(jí)圖書(shū)館,雖然有無(wú)數(shù)本書(shū),但你每次只需要找到最相關(guān)的那幾本就夠了。
更厲害的是,螞蟻還自研了一套叫"棒冰"(Icepop)的訓(xùn)練方法,結(jié)合高效強(qiáng)化學(xué)習(xí)系統(tǒng)ASystem,專(zhuān)門(mén)針對(duì)推理能力進(jìn)行了多階段訓(xùn)練。這就解釋了為什么Ring-1T在數(shù)學(xué)推理上表現(xiàn)這么突出。
實(shí)測(cè)體驗(yàn):不只是數(shù)學(xué)天才
我看到有開(kāi)發(fā)者已經(jīng)開(kāi)始測(cè)試Ring-1T了,發(fā)現(xiàn)它不只是在數(shù)學(xué)推理上厲害,在代碼生成、邏輯推理、創(chuàng)意寫(xiě)作等方面也表現(xiàn)不錯(cuò)。
比如讓它寫(xiě)一個(gè)貪吃蛇小游戲,Ring-1T不僅能生成完整的代碼,還會(huì)主動(dòng)優(yōu)化游戲邏輯,添加一些有趣的功能。在處理復(fù)雜的邏輯推理題時(shí),它的思路也很清晰,不會(huì)像有些模型那樣繞來(lái)繞去。
當(dāng)然,作為一個(gè)剛發(fā)布的模型,Ring-1T肯定還有一些不足。比如在某些需要大量背景知識(shí)的領(lǐng)域,它可能還不如GPT-4那么全面。但考慮到它是開(kāi)源的,這些問(wèn)題應(yīng)該會(huì)在社區(qū)的貢獻(xiàn)下快速改善。
這意味著什么?
Ring-1T的發(fā)布,我覺(jué)得有幾個(gè)層面的意義。
首先,它證明了國(guó)產(chǎn)AI在技術(shù)上已經(jīng)能夠與國(guó)際頂級(jí)模型正面競(jìng)爭(zhēng)。92.6分 vs 94.6分,這個(gè)差距已經(jīng)小到可以忽略不計(jì)了。
其次,開(kāi)源策略可能會(huì)改變整個(gè)AI行業(yè)的競(jìng)爭(zhēng)格局。當(dāng)一個(gè)接近GPT-5水平的模型完全免費(fèi)開(kāi)放時(shí),那些收費(fèi)的閉源模型就必須提供更大的價(jià)值才能維持競(jìng)爭(zhēng)力。
最后,對(duì)于開(kāi)發(fā)者來(lái)說(shuō),這絕對(duì)是個(gè)好消息。不用再為了使用頂級(jí)AI能力而支付高昂的API費(fèi)用,可以直接在本地部署和定制化開(kāi)發(fā)。
不過(guò)話(huà)說(shuō)回來(lái),技術(shù)突破只是第一步。Ring-1T能不能真正在應(yīng)用層面挑戰(zhàn)GPT-5,還要看它在實(shí)際使用中的表現(xiàn),以及社區(qū)的接受程度。
但至少現(xiàn)在,我們可以說(shuō):國(guó)產(chǎn)AI在數(shù)學(xué)推理這個(gè)最能體現(xiàn)"智能"的領(lǐng)域,已經(jīng)站到了世界第一梯隊(duì)。這個(gè)銀牌,拿得挺有分量的。





































