作為千問課代表,又來了,這次是千問APP。千問我是老測評了,基本上有新模型出來,一般都是一手測試,現在來說,Qwen開源第一的地位應該沒有哪家可以撼動了,前兩天,國外出現了一個新詞匯,叫QwenPanic,就是千問恐慌,就是美國白宮宣稱阿里協助軍方針對美國行動,提供數據支持,危及美國安全。主要是Qwen占據的開源的大頭,現在基本上學術研究,大部分在Qwen系列模型基礎上進行實驗,同時Qwen衍生出來的模型,也是占比最多的...
昨天刷到了昆侖萬維發布了一個SkyworkR1V4Lite模型,只有3B的激活參數,就可以主動操作圖像、調用外部工具、圖文交互深度檢索,是一個多模態Agent模型。技術核心是,R1V4Lite加上了主動操作,訓練過程引入圖像操作和深度推理交互訓練,做到AllinOne,讓小模型從源頭具備更清晰的任務規劃與搜索增強的能力。30BA3B是不是很眼熟,沒錯,它是基于Qwen3VL30BA3B增量訓練的,還有它僅使用了3萬條后訓練數據,再次體現了高質量數據的...
個人認為,在LLM的語境下,量化并非傳統的犧牲精度換速度,原生的低比特量化在paramscaling+testtimescaling的持續演進下,會成為大模型訓練的一個標準范式。量化一直是LLM領域一個非常火熱的研究方向,篇幅有限這一次就不嘗試對相關的基礎知識進行詳細展開了。如果文章中出現你不太了解的概念,可以嘗試問問Kimi:)這里簡單列一下后續主要會涉及到的一些縮寫和基礎解釋:PTQ:訓練后量化,將訓練完成的模型權重通過特定的量化方...
2025-11-11 07:24:12 626瀏覽 0點贊 0回復 0收藏
分享了??DeepSeekOCR的相關細節??,確實有被DS的高立意所折服,我還在苦苦利用OCR解析文檔做落地的時候,DeepSeek在考慮用圖像壓縮文本信息!昨天一天的發酵,也是各種文本已死,視覺當立,我也是醉了,我這人呢,挺沒意思的,所以拋出幾個觀點大家一起討論,第一個,文本Token數量壓縮到視覺Token數量的10倍以內時,解碼精度可達97%,但是這里會有一個問題,解碼的精度是字符的準確率,但是不代表文本信息重要性,我舉個例...
2025-11-03 07:22:44 775瀏覽 0點贊 0回復 0收藏
DeepSeek又開源了,這次是OCR模型,整個模型大小在3B。DeepSeekOCR的提出,是為了探索,是否可以通過視覺模態進行文本信息的高效壓縮,也就是把文檔內容,用圖像Token表示,其Token數量會遠小于原始文本Tokens數,說白了,你1w字,可能需要5000個Token,但用圖像來表示,可能只需要512個Token。實話實說,直接升華了,我之前研究VLM做OCR,就是解決PDF轉成文本的問題,沒想到DeepSeek,是在想用圖像視覺壓縮文本。先說結論:這...
2025-10-21 00:36:13 4222瀏覽 0點贊 0回復 0收藏
昨天刷到美團龍貓又開源新模型了,LongCatFlashThinking,這次是思考模型。8月底,美團先開了LongCat模型,我也是第一時間評測了!這次LongCatFlashThinking的技術報告依舊干貨滿滿,很多有意思的東西,就比如各領域數據分開進行RL,然后融合,我之前只看到在SFT上會這么做,沒想到RL也行咱們依舊老規矩先看細節,再評測。LongCatFlashThinking,也是MoE模型,模型結構跟LongCat一樣,依舊是零計算專家等等,相關介紹看我上一篇...
2025-09-24 07:07:05 2518瀏覽 0點贊 0回復 0收藏
Qwen又開源了,身為守護官的我,必須帶來一手實測。這次開源的模型是Qwen3Next80BA3B模型,依舊MoE,80B總參數,激活3B,與以往不同的是,這次是混合注意力架構。Next意味著Qwen即將進入下一代,俊旸也說了,這是下一代的preview版本。細數一下,Qwen2.5系列應該是Dense的神,Qwen3系列應該是Qwen穩定邁向MoE架構,而Next系列,就是開啟Qwen混合架構的第一步,像MiniMaxM1、HunYuan早期版本都是混合注意力架構,也就是線性注意...
2025-09-24 07:05:49 3056瀏覽 0點贊 0回復 0收藏
前兩天,字節發布了Seedream4.0模型,跟NanoBanana一樣,從生成到編輯實現一站式創作,有很強的一致性和可控性,相較于之前版本有極大程度的提高。沒想到,剛寫完NanoBanana,就迎來了我第二篇生圖文章,哈哈哈哈。體驗之后,覺得多圖融合、參考生圖還是復雜的圖像編輯效果都很好,同時在NanoBanana不擅長的中文顯示上也賊強。Seedream4.0模型在豆包、即夢、火山方舟上都能使用,我是直接在火山方舟的體驗中心測試,??https:e...
2025-09-12 07:18:08 9592瀏覽 0點贊 0回復 0收藏
也許是最近開源模型太多(Qwen3、K2、Step3、GLM4.5等等),也許是大家等R2時間太久,DeepSeek開源V3.1模型,竟然能被狂噴,這點我是沒有想到的。如果說是APP、客戶端,那沒辦法,畢竟DS的顯卡資源有限,我反正能理解。API的話,就真不至于,因為DeepSeekV3.1模型本身就開源,完全可以自己部署之前版本,或者用火山引擎、阿里百煉、硅基流動等等等云模型廠商的老版本API。然后從昨晚到今天,也是看了不少帖子,褒貶不一。跟不少...
2025-08-29 07:11:32 3361瀏覽 0點贊 0回復 0收藏
7月就很卷了,見國內開源大模型整理,8月沒想到依然卷。從一開始的騰訊開源小模型,到Qwen開源Image模型,再到小紅書dots.vlm1、面壁MiniCPMV4.0,然后今天智譜又發布了GLM4.5V。對,就這樣卷,利好開源社區、利好我們這些開發者!那么今天來看看這個GLM4.5V模型到底如何?先上測試,再聊模型細節!測試除了OCR識別、表格識別、理解計算、網頁復刻、報告分享、目標識別、目標對比、數學做題、圖片排序、空間邏輯、空間變換、色...
2025-08-18 06:53:00 3526瀏覽 0點贊 0回復 0收藏
實話實說,本來沒有這篇稿子,我并沒有太關注BaichuanM2這個模型,因為最近開源社區太火爆了,各家都在卷。7月份見?開源模型盤點,而8月剛過半,已經有QwenImage、dots.vlm1、MiniCPMV4.0、GLM4.5V等等等。那么,BaichuanM2這個垂域模型就顯得不那么驚艷了(很多人都更關心通用模型),還有百川上次開源M1已經是五六個月前了,當時在群里發AI日報,一眾小伙伴都驚訝百川還在發模型。PS:不過我群里有個內應,說他們項目挺多的...
2025-08-18 06:49:31 1432瀏覽 0點贊 0回復 0收藏
騰訊HunYuan又開源了4個端側小模型0.5B、1.8B、4B、7B,共4個尺寸,主打輕量端側。Hunyuan0.5B:https:huggingface.cotencentHunyuan0.5BInstructHunyuan1.8B:https:huggingface.cotencentHunyuan1.8BInstructHunyuan4B:https:huggingface.cotencentHunyuan4BInstructHunyuan7B:https:huggingface.cotencentHunyuan7BInstructHunYuan也開始走全系列開源的路子了,是不是跟Qwen干上了呀!我是真沒想到,騰訊也開始大規模開源...
2025-08-05 07:19:34 3423瀏覽 0點贊 0回復 0收藏
騰訊前兩天開源了混元A13B模型,A13B模型是一個MoE模型,總參數80B,激活參數13B,同時支持快慢思考兩種模式切換。Paper:https:github.comTencentHunyuanHunyuanA13BblobmainreportHunyuanA13BTechnicalReport.pdfHF:https:huggingface.cocollectionstencenthunyuana13b685ec38e5b46321e3ea7c4be騰訊之前開源3D生成模型關注度很高,文本大模型上一次開源已經是5個月前的HunYuan7B和HunYuanLarge模型了。由于Qwen3的系列模型沒...
2025-07-11 07:56:12 3531瀏覽 0點贊 0回復 0收藏
大家好,我是劉聰NLP。最近開源社區好起來了,先是華為、百度、騰訊,相繼開源模型,然后昨天智譜又開源了模型,GLM4.1VThinking,又是被刷屏朋友圈了!但是說實話,一開始因為這個標題,我都不想測試GLM4.1VThinking了,感覺就很夸張,并且一猜就是干掉了Qwen2.5VL72B。PS:我Qwen天天被吊打!!不過,有個好友非要讓我測一下,因為他告訴我,我之前的表格識別,這個9B模型好像可以了。不測不知道,一測嚇一跳,沒想到真出來了...
2025-07-11 07:48:06 2678瀏覽 0點贊 0回復 0收藏
大家好,今天給大家分享一個圖像生成的新工作—MarryingAutoregressiveTransformerandDiffusionwithMultiReferenceAutoregression,后面我們簡稱TransDiff。首先,TransDiff是目前最簡潔的、將ARTransformer與Diffusion結合用于圖像生成方法。TransDiff將離散輸入(如類別、文本等)、連續輸入(圖像等)經過ARTransformer編碼為圖像語義表征,而后將表征通過一個較小的DiffusionDeocder解碼為圖片。其次,我們提出了一種新的自...
2025-06-27 00:55:44 2114瀏覽 0點贊 0回復 0收藏
上周五,Qwen團隊又開源了Embedding模型,真是人民需要什么,它開源什么呀!現在好了,文本、多模態、embedding都齊了,別人沒得玩了!上周朋友就問,作為Qwen課代表的我,咋沒分享Qwen3Embedding,哈哈哈哈!這不就來了嘛,主要是前兩天我還在測試。Embedding模型的測試,并不像LLM那樣直觀,給了問題之后直接看答案就可以分辨出好壞,Embedding模型還是要測試在某個數據集下整體得召回率。雖然這次Qwen開源了3個尺寸的模型,0...
2025-06-13 07:17:37 5179瀏覽 0點贊 0回復 0收藏
自適應推理模型的核心就是讓模型自己根據用戶問題的來判斷是否進行推理預測。Arm存在三種格式:直接回答、短CoT或代碼、長CoT,同時引入AdaGRPO解決傳統GRPO中的格式崩潰問題。除了自適應模式,Arm還支持另外兩種模式;指令引導模式,用戶明確強制選擇某一種指定推理格式共識引導模式,聚合直接回答、短CoT或代碼三種格式的輸出,當答案一致時,直接返回,否則認為任務較復雜,切換到LongCoT推理模式。模型的訓練分為兩個階段,...
2025-06-03 06:41:20 2035瀏覽 0點贊 0回復 0收藏
大家好,我是劉聰NLP。是的,沒錯,Qwen團隊又開源了,這次是偏好模型WorldPM。偏好模型,就是也可以理解為獎勵模型,在強化學習中用來打分的那個模型!HF:https:huggingface.cocollectionsQwenworldpm6826f363e9c62f97a0b437e6Paper:https:arxiv.orgabs2505.10527WorldPM,是在1500萬條訓練樣本上進行偏好訓練,模型規模從1.5B到72B,同時發現偏好模型遵循與語言模型類似的縮放規律。模型的訓練數據來自多個公共論壇,包括St...
2025-05-20 06:41:02 2604瀏覽 0點贊 0回復 0收藏
大家好,我是劉聰NLP。從Llama4隕落之后,國內開源模型是世界第一,誰贊成,誰反對!反對無效!應該也沒人反對吧。模型尺寸、榜單指標、首個混合推理模型,這篇就不重復介紹了,去看我上一篇內容吧。這篇主要是針對Qwen3實測,看看真實測試效果到底如何!測試可以在兩個地方都可以??https:huggingface.cospacesQwenQwen3Demo??或者??https:chat.qwen.ai??主要測試think和nothink兩種情況。正式測試開始。常規測試Qwen32...
2025-05-07 06:53:37 4322瀏覽 0點贊 0回復 1收藏
下面是我前段時間跟一位群友的對話:群友:我最近有都需要進行模型微調,但是每個任務模型調完之后都對單一任務有明顯提高,但如果合在一起訓練的話,效果又達不到最佳。所以在使用階段,部署了多個模型,但是顯卡資源真的吃不消,有什么好的解決辦法嗎?我:你是Lora微調,還是全量參數微調的。群友:Lora微調,全量參數微調,也沒那么多訓練資源。我:你既然是Lora微調,那么你在部署的時候,可以只部署一個底座模型,然后多...
2025-04-22 07:18:29 2788瀏覽 0點贊 0回復 0收藏