精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

國產模型指令跟隨全球第一!來自LeCun親推的「最難作弊」大模型新榜單

人工智能 新聞
圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun),聯合紐約大學等在今年6月推出。

What???

一直低調行事的國內初創公司,旗下模型悄悄地躍升成國內第一、世界第五(僅排在o1系列和Claude 3.5之后)

而且是前十名中的唯一一家國產公司

(該榜上國產第二名是阿里開源的qwen2.5-72b-instruct,總榜第13)

圖片

而且它登上的這個排行榜LiveBench,雖然現在還沒有大模型競技場(LMSYS Chatboat Arena)那么廣為人知,但資格杠杠的——

圖靈獎得主、Meta首席AI科學家楊立昆(Yann LeCun),聯合紐約大學等在今年6月推出。

號稱是“全球首個無法作弊的LLM基準測試”

圖片

而這次冷不丁殺出來的黑馬,其實比較熟悉國內大模型競爭格局的朋友們已經猜到了——

Step系列,背后是大模型六小虎之一的階躍星辰

指令跟隨高分拿下全球第一

在LiveBench榜單上,階躍星辰自研的萬億參數語言大模型Step-2-16k-202411在Global Average上拿下57.68分。

位列總榜第五、國產第一。

這個榜單之前出現頻率不高,一方面是它確實很新,今年6月才剛推出;另一方面更加現實,那就是此前國產大模型并未在這個榜單塔尖取得傲人成績。

這倒也不耽誤榜單自身的實力——

LeCun和紐約大學等機構聯手推出,專為大模型設計,目前包含6個類別的17個不同任務,每月更新新問題。

目標是確保榜單的問題不易受到污染 ,并且能夠輕松、準確、公平地進行評估。

強調不易受到污染,是因為訓練數據中包含了大量互聯網內容,許多BenchMark很容易受到污染。

比如大家比較熟悉的數學測試集GSM8K,最近被證明有好些模型已經在它這兒過擬合了。這顯然為評估模型能力帶來了困擾。

除了要小心BenchMark被污染,確保評估方式公平、無偏見也很重要。

一般來說,大家都采用的是LLM擔任評委或人類當裁判這兩種方式。而LiveBench選擇采用客觀、基本事實判斷來評估每個問題。

圖片

那么,當我們首次正視這個榜單的時候,我們還能從其中看出些什么?

先說成績出色的Step-2。

IF Average一項,也就是指令跟隨,它以最高分拿下全球第一。

這個項目的內容,是對《衛報》近期新文章進行改寫、簡化、總結或生成故事。

86.57這個成績是真的非常高——榜單上其余眾人(哪怕是OpenAI和Anthropic家的模型們)都在70-80分段,單項第二名的Meta-LLaMA-3.1-405b-instruct-turbo比它低了8分多。

這意味著,Step-2在語言生成上對細節有強控制力,理解能力max,然后更好地遵循人類指令。

更具體些可以理解為,當我們普通人輸入語句顛倒、語意不清、表意模糊的非專業·真普通·prompt時,Step-2能結合上下文、具體情境推斷使用者的具體需求,把一個模糊指令從“360p”進行“1080p”的理解,精準捕捉模糊指令背后的真實意圖。

同時意味著內容創作能力也很強,比如讓它創作一首古詩詞,它在字數、格律、押韻、意境等方面,都能有精準的把控。

完全自主研發,MoE架構,萬億參數

在這次因為LiveBench又出來炸場一波之前,Step-2留給外界的最深刻印象,一定有一個是“國內首個由初創公司推出的萬億參數大模型”。

這有點像階躍風格的具像化。在大模型六小虎中,階躍的Step系列發布最晚,但出手毫不含糊。

今年3月,Step-2在全球開發者先鋒大會開幕式預覽亮相,一下子就從前作Step-1的千億參數規模,拉升到了萬億參數規模。

吊足了胃口后,夏天的WAIC 2024期間,Step-2推出正式版。

模型采用了MoE架構。

一般而言,主流訓練MoE模型有兩種方式,不然就基于已有模型通過upcycle(向上復用)開始訓練,不然就從頭開始訓練。

Upcycle方式所需算力相對更低、訓練效率更高,但隨隨便便就到這種方式的天花板了。

比如基于拷貝復制得到的MoE模型,非常容易出現專家同質化嚴重的情況。

而選擇從頭開始訓練MoE模型的話,能夠探得更高的模型上限,但作為代價,訓練難度也會增大。

但階躍團隊還是選擇了后者,選擇完全自主研發,選擇從頭開始訓練

過程中,通過部分專家共享參數、異構化專家設計等創新MoE架構設計,Step-2這個混合專家模型中的每個專家都得到了充分訓練。

故而,Step-2總參數量達到萬億級別,每次訓練或推理所激活的參數量也超過了市面上的大部分Dense模型。

此外,Step-2的訓練過程中,階躍的系統團隊突破了6D并行、極致顯存管理、完全自動化運維等關鍵技術,支撐起了整個模型的高效訓練。

初亮相時,階躍官方表示:

Step-2在數理邏輯、編程、中文知識、英文知識、指令跟隨等方面體感全面逼近GPT-4。

結合這次LiveBench AI的成績來看,團隊對Step-2的定位、優勢所在,把握得很清晰。

基座模型技術能力強,關鍵是要讓人用起來才行。

官方消息是,Step-2已經接入了階躍星辰的C端智能生活助手「躍問」,Web端和App都可以試一把。

如果是開發者,可以在階躍星辰開放平臺通過API接入使用Step-2。

語言模型和多模態模型全都要

開篇咱們提到,Step模型是一個系列,而Step-2是其語言模型的實力代表。

在這個系列中,除了語言模型,階躍星辰的多模態模型也很有看頭

Step-1.5V是階躍星辰的多模理解大模型,這款模型在三個方面優勢突出:

一是感知能力。創新的圖文混排訓練方法,讓Step-1.5V能理解復雜圖表、流程圖、準確感知物理空間復雜的幾何位置,還能夠處理高分辨率和極限長寬比的圖像。

二是推理能力。根據圖像內容進行各類高級推理任務,如解答數學題、編寫代碼、創作詩歌等。

三是視頻理解能力。它不僅能夠準確識別視頻中的物體、人物和環境,還能夠理解視頻的整體氛圍和人物情緒。

生成方面,階躍手里有Step-1X圖像生成大模型

Step-1X采用DiT(Diffusion Models with transformer)架構,有600M、2B和8B三種不同的參數量,語意理解和圖像創意實現兩手抓。

具體而言,不管文本指令簡單還是復雜,不管是畫單一對象還是多層次、復雜內涵場景,它都能cover。

另外,該模型還支持針對中國元素的深度優化,使生成內容更適合國人的審美風格。

至于語言模型和多模態模型全都要,階躍有自己的道理。

從成立一開始,階躍星辰就明確了自身通往 AGI 的路線圖:

單模態——多模態——多模態理解和生成的統一——世界模型——AGI。

換言之,階躍的目標是開發出能夠實現AGI的多模態大模型,并利用這些自主研發的大模型,創造新一代的AI應用。

為著這個目標,這一年多來,階躍已經寫下了屬于自己的答案。

研發迭代速度很快,不到一年,無論Step-1到Step-2, 還是Step-1V到Step-1.5V,整體持續跑步前進中。

產品也有自己的想法,沒有局限在ChatBot上。Step-2登頂國內的同一天,階躍旗下的躍問還上了一個新功能:

簡單設置,就能通過iPhone 16右下方側邊的“相機控制”按鈕,一鍵調用“拍照問”功能。

沒有iPhone 16的蘋果用戶,把系統升級到iOS18也能一步調用國產AI 了。

雖然已經在六小虎中占據一席,但近日看階躍,仍然想以黑馬來形容它。

論技術和實力,Step-2能突然殺到業界權威榜單國內第一,成為全球榜單前十唯一國產玩家。

大模型浪潮奔騰至今,已經有快兩年的時間了。

兩年里,投身其中的技術從業者們都在(看似分布其實共同)打造一個愿景,一個許多人都愿意參與并與之聯系在一起的愿景。

有理由相信,階躍Step系列,以及中國的大模型們,都會因為卓越的技術實力和不懈的創新追求,越來越熠熠生輝。

One More Thing

上個月,智源研究院推出辯論平臺FlagEval Debate,旨在通過引入模型辯論這一競爭機制對大模型能力評估提供新的度量標尺

和大模型競技場玩法有點類似,就是倆模型一個正方一個反方,雙盲測試,辯論完后用戶投票。

然后才揭曉正反雙方都是誰。

圖片

模型辯論,主要靠的是信息理解、知識整合、邏輯推理、語言生成和對話能力。

當然了,同時還能測復雜語境中信息的處理深度和遷移應變能力,反映其學習與推理的進步水平。

淺玩了一下,有些議題還蠻有意思。

比如“博物館著火,只能救一個,救貓還是救《蒙娜麗莎》”這個議題。

倆模型吵到后面,“貓有九條命”的話都說出來了,笑死。

圖片

最后反復投了幾次,Step-2大勝o1。

看來它辯論能力也很強呀……

圖片

榜單官網:https://livebench.ai/#/blog

躍問鏈接:https://yuewen.cn

FlagEval Debate官網:https://flageval.baai.org/#/debate

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-09-24 09:02:42

2024-11-21 09:58:12

2024-06-19 11:45:34

2024-05-31 14:23:15

2023-09-06 09:50:29

人工智能模型

2025-05-16 10:15:06

2021-03-05 12:58:31

AISEER模型

2023-05-16 12:11:22

2025-10-20 09:30:34

2025-01-14 13:51:18

2025-02-28 12:32:42

2025-04-30 16:48:07

2025-05-13 02:00:22

2024-03-19 13:12:36

自動駕駛模型

2025-09-26 08:03:41

2023-10-11 12:32:53

AI模型

2024-10-24 14:30:00

模型數據
點贊
收藏

51CTO技術棧公眾號

亚洲精品一区av| 青春有你2免费观看完整版在线播放高清 | 国产乱淫av一区二区三区| 亚洲一级免费视频| 制服丝袜综合网| 国产1区2区3区在线| 日本欧美韩国一区三区| 亚洲午夜久久久影院| 亚洲欧洲日本精品| 里番在线观看网站| 国产91在线|亚洲| 秋霞av国产精品一区| 欧美亚洲色综久久精品国产| 成人激情久久| 午夜精品福利一区二区蜜股av | 日韩欧美国产大片| 欧美在线观看一二区| 中文字幕一区二区三区精彩视频 | 另类综合日韩欧美亚洲| www.亚洲男人天堂| 污污网站在线观看视频| 3d玉蒲团在线观看| 久久亚洲一级片| 成人h视频在线| 中文字幕第28页| 成人精品亚洲| 亚洲第一精品夜夜躁人人躁| 91蝌蚪视频在线观看| 影音先锋男人资源在线| 久久综合成人精品亚洲另类欧美 | 99色这里只有精品| 在线观看免费网站黄| 国产91精品一区二区| 国产精品福利网站| 精品无码久久久久久久久| 亚洲欧美日本伦理| 91精品视频网| 激情综合网婷婷| 成人欧美在线| 欧美国产成人精品| 久久精品人成| 精品国产亚洲AV| 日韩福利视频网| 97在线视频免费看| 婷婷国产成人精品视频| 希岛爱理av免费一区二区| 日韩情涩欧美日韩视频| 午夜视频在线瓜伦| 高清毛片在线观看| 亚洲三级在线观看| 日韩黄色影视| 四虎影视精品成人| 成人精品鲁一区一区二区| 国产一区玩具在线观看| 黄色av网站免费观看| 伊人久久大香线蕉精品组织观看| 亚洲性线免费观看视频成熟| 国产精品一区二区无码对白| 欧美午夜在线播放| 欧美欧美欧美欧美| 91激情视频在线| 中文字幕在线看片| 午夜精品一区二区三区免费视频 | 国产色视频一区二区三区qq号| 亚洲3区在线| 欧美精品少妇一区二区三区| 男操女免费网站| 3d性欧美动漫精品xxxx软件| 欧美日韩一区二区在线播放| 免费看毛片的网址| 日本在线视频中文有码| 日韩理论在线观看| 中国一级大黄大黄大色毛片| 成人日日夜夜| 亚洲视频免费在线观看| youjizz.com亚洲| 蜜芽在线免费观看| 亚洲私人影院在线观看| 熟女熟妇伦久久影院毛片一区二区| 中文字幕在线播放| 国产精品国产三级国产三级人妇| 致1999电视剧免费观看策驰影院| 最新电影电视剧在线观看免费观看| 国产丝袜在线精品| 在线观看日韩羞羞视频| 日本三级在线视频| 中文字幕永久在线不卡| 亚洲一区二区三区欧美| 国产福利视频在线观看| 一级女性全黄久久生活片免费| 91黄色在线看| 香蕉伊大人中文在线观看| 狠狠色噜噜狠狠狠狠97| 亚洲成色www.777999| 精品日本视频| 欧美久久久久免费| 不许穿内裤随时挨c调教h苏绵 | 国产激情在线免费观看| blacked蜜桃精品一区| 少妇高潮 亚洲精品| 人人澡人人澡人人看| 伊人久久大香线蕉综合热线 | 日本成人片在线| 欧美精品在线视频| 黄色国产在线视频| 国产精品一线天粉嫩av| 日韩在线观看网址| 久久国产在线视频| 亚洲欧美日韩专区| 国产精品久久久久久久久| 99精品久久久久久中文字幕 | 欧美日韩成人一区| 无套内谢丰满少妇中文字幕| 精品久久97| 中文字幕欧美日韩精品| 久草国产在线观看| 日本色综合中文字幕| www 成人av com| 亚洲欧美色视频| 中文字幕一区二区三区不卡| 18黄暴禁片在线观看| 成人深夜福利| 欧美精品一区二区蜜臀亚洲| 白白色免费视频| 欧美一区二区三区另类| 欧洲美女7788成人免费视频| 国产精品视频无码| 99re视频精品| 超碰在线免费观看97| 国产欧洲在线| 在线视频你懂得一区| 中文字幕第一页在线视频| 国产精品高潮呻吟久久久久| 中文字幕欧美精品在线| 在线观看 中文字幕| 国产一区二区三区精品欧美日韩一区二区三区 | 中文字幕不卡av| 日韩伦理在线视频| 精品在线亚洲视频| 日韩欧美三级电影| 欧美freesex黑人又粗又大| 6080日韩午夜伦伦午夜伦| 免费人成又黄又爽又色| 欧美体内she精视频在线观看| 国产精品欧美激情| 黄色片在线播放| 香蕉影视欧美成人| 国产老头和老头xxxx×| 久久精品国产68国产精品亚洲| 欧美亚洲国产成人精品| 丰满人妻一区二区三区无码av | 精品一区精品二区高清| 日本在线播放一区| 手机在线观看av| 精品国产一区二区三区久久影院| 久久久视频6r| 激情六月综合| 国产69精品久久久久9999apgf | 国产欧美精品一区二区色综合朱莉| 狠狠干 狠狠操| 亚洲精品大全| 在线播放精品一区二区三区| 日本熟女毛茸茸| 久久综合精品国产一区二区三区| 国产 日韩 亚洲 欧美| 好吊妞视频这里有精品| 久久久久久久久久亚洲| 国内毛片毛片毛片毛片| 亚洲人成精品久久久久| 亚洲av无日韩毛片久久| 亚洲色图国产| 国产成人av一区二区三区| 在线观看午夜av| 日韩欧美久久久| 久久丫精品久久丫| 国产不卡免费视频| 日韩精品一区二区三区电影| 2020国产精品极品色在线观看| 久久91亚洲人成电影网站| 精品国产无码一区二区| 亚洲动漫第一页| 在线观看av中文字幕| 亚洲乱码视频| 美乳视频一区二区| 亚洲日本在线观看视频| 色偷偷9999www| a在线观看免费| 一个色在线综合| 欧美在线一级片| 久久精品免费| youjizz.com亚洲| 这里视频有精品| 欧美性视频精品| av在线电影播放| 欧美一区二区久久| 欧美激情精品久久| 成人网男人的天堂| 国内外成人激情视频| 欧美亚洲国产激情| 亚洲已满18点击进入在线看片| 色yeye免费人成网站在线观看| 亚洲精品一区二区三区四区高清| 成年人免费高清视频| 中文字幕免费观看一区| 亚洲综合在线一区二区| 99精品热视频只有精品10| 久久久久国产精品视频| 日本国产一区| 97精品久久久| 午夜免费福利在线观看| 精品国产亚洲一区二区三区在线观看| 国产污污视频在线观看| 国产精品毛片久久久久久| 最好看的中文字幕| 久久精品一区二区三区中文字幕| 免费在线观看污污视频| 免费成人蒂法| 国产日韩精品入口| 丝袜在线观看| 亚洲深夜福利在线| 亚洲成人av综合| 在线观看一区日韩| 久久成人在线观看| 国产精品国产三级国产aⅴ入口 | 日本黄色www| 日日夜夜免费精品视频| 久草免费福利在线| 欧美大黑bbbbbbbbb在线| 国内精品二区| 国产一区二区视频在线看| 久久免费福利视频| 欧美精品hd| 亚洲欧美日韩一区二区在线| 精品人妻伦一二三区久久| 精品视频在线视频| 天天操夜夜操视频| 亚洲最新在线观看| www.黄色com| 国产视频一区二区在线| 无码国产69精品久久久久网站| 日韩1区2区3区| 成人综合视频在线| 亚洲午夜伦理| 少妇熟女一区二区| 波多野结衣的一区二区三区| 乱色588欧美| 国产suv精品一区| 亚洲xxx自由成熟| 欧美一区二区三区婷婷| 国产精国产精品| 深夜成人在线| 欧美二区乱c黑人| 麻豆tv在线| 日韩在线小视频| 天堂а√在线资源在线| 一区二区三区四区视频| 欧美高清电影在线| 亚洲精品一区二区网址| 先锋av资源站| 日韩成人中文电影| 欧美一级视频免费| 欧美精品777| 国产精品爽爽久久久久久| 欧美视频在线一区二区三区| 中文字幕免费视频观看| 色www精品视频在线观看| 久久国产黄色片| 色综合久久久久久久久| 久久国产视频一区| 日韩欧美精品网址| 国产三级av片| 欧美性猛交xxxx免费看久久久| 一级黄色免费网站| 色婷婷av一区二区三区软件 | 91麻豆免费观看| 亚洲第九十七页| 久久久久国产精品免费免费搜索| 久久久久久久久久久久| 国产午夜亚洲精品午夜鲁丝片| 少妇大叫太粗太大爽一区二区| 国产日本欧洲亚洲| 毛片久久久久久| 欧美国产综合色视频| 小早川怜子一区二区的演员表| 亚洲黄色在线视频| 久草免费新视频| 亚洲国产精品久久人人爱蜜臀| 亚洲精品国产精品乱码| 欧美在线色视频| 国产精品丝袜黑色高跟鞋| 3d动漫精品啪啪1区2区免费| 99久久国产免费| 亚洲丁香久久久| 成人网视频在线观看| 久久精品国产亚洲精品2020| 欧美男男video| 国产99久久精品一区二区永久免费| 国产精品美女午夜爽爽| 亚洲xxxx在线| 牛牛影视久久网| 欧美精品久久久| 91精品久久久久久久久久不卡| 国产精品第157页| 久久一二三四| 亚洲欧美天堂在线| 成人av网站免费| 一级黄色录像毛片| 亚洲一区在线观看视频| 日韩伦人妻无码| 欧美撒尿777hd撒尿| 黄色aaa大片| 中文字幕不卡av| av中文在线资源| 国产美女91呻吟求| 开心激情综合| 国产美女视频免费| 久久九九99| 年下总裁被打光屁股sp| 国产欧美一区二区精品仙草咪| 欧美色视频一区二区三区在线观看| 亚洲国产一区二区a毛片| 日本丰满少妇做爰爽爽| 日韩女优电影在线观看| h视频网站在线观看| 97激碰免费视频| 国产一区二区三区国产精品| 精品国产乱码久久久久久久软件| 日本不卡电影| 99蜜桃臀久久久欧美精品网站| 国产一二精品视频| 在线观看福利片| 亚洲午夜一区二区| 91精品国产综合久| 亚洲男人av电影| 蜜臀av在线| 国产原创欧美精品| 精品美女视频| 国产日韩一区二区在线| 国产精品一级在线| 波兰性xxxxx极品hd| 狠狠躁夜夜躁人人爽天天天天97| 国产高清第一页| www.亚洲人.com| 国产精品亚洲成在人线| 日本视频一区二区不卡| 国产欧美日韩一区二区三区在线| 99视频在线观看视频| 国产精品久久久久久一区二区三区| 中文字幕视频网站| 亚洲福利在线播放| 午夜伦理在线视频| 91久久伊人青青碰碰婷婷| 91亚洲成人| 日本a级片电影一区二区| 久久精品福利| www黄色在线| 国产精品网站在线观看| 亚洲天堂免费av| 欧美成aaa人片免费看| 成人av资源网址| 国产aaa一级片| 欧美国产禁国产网站cc| 国产成人精品av在线观| 久久久久国产精品免费网站| 久久99精品国产自在现线| 免费在线激情视频| 国产欧美日韩亚州综合| 国产又色又爽又黄又免费| 欧美另类暴力丝袜| 牛牛影视久久网| 人人干人人干人人| 尤物在线观看一区| 亚洲色图欧美视频| 国产精品成人播放| 久久精品亚洲人成影院| 逼特逼视频在线观看| 色综合久久久久综合体桃花网| 免费在线看a| 国产精品三区四区| 免费在线看一区| 久久久久亚洲AV| 国产香蕉一区二区三区在线视频 | 精品午夜一区二区| 免费人成精品欧美精品| 久草国产在线视频| 亚洲欧洲高清在线| 精品一区二区三区在线观看视频 | 精品一区免费观看| 亚洲人成在线观看| 精品久久国产一区| 成年人免费在线播放| 亚洲欧美日韩在线不卡| 日本人妖在线| 成人看片人aa| 噜噜噜躁狠狠躁狠狠精品视频| 永久看片925tv| 一二美女精品欧洲| 超碰精品在线| 国产永久免费网站| 一本色道久久综合亚洲精品按摩|