ThinkingMachines,一家成立不久便震驚硅谷的AI公司。它由前OpenAICTOMira和聯合創始人JohnSchulman共同創立,團隊匯集了大量來自OpenAI的核心人才。他們繼承了80年代傳奇AI超算公司“ThinkingMachines”之名,志在進行最根本、最前沿的AI探索。來自ThinkingMachines的最新研究《LoRAWithoutRegret》深入探討了參數高效微調(PEFT)的領先方法——低秩適應(LoRA),并得出結論:在特定條件下,LoRA的性能可以完全媲美甚至超越...
2025-10-15 00:24:40 1291瀏覽 0點贊 0回復 0收藏
果然是假期之前愛“搞事”,還有兩天就國慶了,DeepSeek放出了DeepSeekV3.2Exp。相比之前的版本,主要創新是引入了一種稀疏注意力機制DSA(DeepSeekSparseAttention)。官方的TechReport比較宏觀,對細節描述不多。好在DeepSeek今天也開源模型推理源代碼,我認真看了一下,做了一點實驗,分享記錄DSA的一些技術原理和細節。為什么大模型害怕“長篇大論”?想象一下你走進一個上百人的聚會,為了不錯過任何重要信息,你需要聽清...
2025-10-15 00:16:38 2094瀏覽 0點贊 0回復 0收藏
大家可能聽說過(希望沒有感受過)“超級細菌”感染的可怕。幾年前,我的一個同事講述其父親在一個有淤泥的池塘里不小心劃傷了腿,最終演變成了對多種抗生素都耐藥的“超級細菌”感染。老人因此被送進ICU,與死神搏斗了數周,經歷了巨大的煎熬,最終吉人天相。但那段經歷的兇險,應該會讓身邊的人至今心有余悸。這個故事,正是我們這個時代正面臨的一場危機的縮影:抗生素耐藥性。曾被視為醫學奇跡的抗生素(如青霉素),正逐漸...
2025-08-26 07:07:25 1526瀏覽 0點贊 0回復 0收藏
在大型語言模型(LLM)的強化學習(RL)領域,一個很有潛力的方向是利用可驗證的獎勵(VerifiableRewards)進行模型優化,即RLVR。傳統的強化學習依賴于人類反饋(RLHF)或者一個專屬的價值模型(ValueModel),這可能主觀又昂貴。而RLVR通過程序化的、客觀的獎勵函數來指導模型學習,例如,在數學問題上,答案是否正確是可以通過計算驗證的。這種方法為我們提供了一條更高效、可擴展的路徑,來增強模型的推理等復雜能力。在RLV...
2025-08-26 06:42:39 4426瀏覽 0點贊 0回復 0收藏
大模型在服務時的能源消耗一直備受關注,但具體的能耗數據,尤其是來自頭部公司的數據,長期處于未知狀態。這兩天,Google發布了一篇研究論文,首次系統性地披露了其Gemini大模型在真實生產環境中,與用戶聊一次(也就是響應一次用戶提示,即常說的Prompt)的能源消耗——約0.24瓦時(Wh)。為了讓這個數字更具實感,論文將其與日常活動進行了對比:這大致相當于一臺現代電視機播放9秒,或是一臺家用微波爐運行1秒所消耗的電能,...
2025-08-26 06:40:26 1593瀏覽 0點贊 0回復 0收藏
OpenAI終于打破了自GPT2以來長達六年多的沉寂,再次擁抱開源社區,發布了兩個全新的開放權重模型:gptoss120b和gptoss20b。在AI社區激起了千層浪。畢竟,上一個來自OpenAI的開源模型GPT2,幾乎以一己之力點燃了全球開發者對大語言模型的熱情。我花了點時間研究它之后(源代碼和模型權重URL參考末尾附錄),有點驚喜,但也有一點失望。驚喜的是,OpenAI確實兌現了承諾,并且模型在特定硬件上的高效表現令人印象深刻;失望的是,...
2025-08-13 06:30:44 2639瀏覽 0點贊 0回復 0收藏
剛剛過去的幾天,科技圈和數學界因2025年的國際數學奧林匹克競賽(IMO)而異常熱鬧。首先,讓我們為真正的冠軍——中國隊——獻上最熱烈的祝賀!六名隊員以絕對優勢再次為中國捧回團體總分第一的桂冠,基本上可以說咱中國人的智商碾壓全世界,作為中國人,咱們倍感驕傲與自豪。然而,在這場人類智慧的巔峰對決之外,另一場關于人工智能(AI)的“競賽”也賺足了眼球。先是OpenAI略帶尷尬地宣布其模型達到“金牌水平”,后又被指...
2025-07-28 00:52:30 3197瀏覽 0點贊 0回復 0收藏
在大語言模型(LLM)的進化之路上,我們熟知兩大基石:預訓練,如同海量知識的灌輸,讓模型博聞強識;微調(無論是監督學習還是強化學習),則更像行為塑造,教會模型如何“得體”地回應,比如習得特定的對話風格。這兩種方式,都在潛移默化中改變著模型的“內在記憶”——也就是那些神經網絡的參數。一種LLM缺失的重要學習方式——“系統提示學習”?反觀人類的學習,似乎還存在一種更為直接、更為“顯性”的模式。想象一下,...
2025-07-07 07:34:59 1929瀏覽 0點贊 0回復 0收藏
這兩天重讀了一篇很有趣的論文,《Effectoftheinitialconfigurationofweightsonthetrainingandfunctionofartificialneuralnetworks》(https:arxiv.orgpdf2012.02550)。它非常直白的展示了人工神經網絡訓練過程中的初始權重配置對網絡功能和性能的影響。通俗來講,神經網絡就像是一臺復雜的機器,它內部有很多“開關”(也就是權重),這些開關從一開始就有隨機的初始設置。在訓練過程中,這些開關的設置會一點一點調整,目標...
2025-06-23 07:28:16 1584瀏覽 0點贊 0回復 0收藏
想象一下,一種專門為某個人量身打造的藥物,能夠精確修復他體內導致疾病的那個小小的基因“印刷錯誤”。這聽起來像是科幻小說里的情節,但如今,它正悄然照進現實。最近,一名叫KJ的嬰兒成為了這個醫學奇跡的主角。他患有一種罕見的遺傳性肝臟疾病,由于基因突變,身體無法正常分解蛋白質,導致有毒物質氨在體內累積,嚴重威脅著他的大腦發育和生命健康。傳統的治療方法對于KJ這樣嚴重的病例往往效果有限,預后不佳。然而,來...
2025-06-10 06:59:33 2174瀏覽 0點贊 0回復 0收藏
在大語言模型(LLM)的進化之路上,我們熟知兩大基石:預訓練,如同海量知識的灌輸,讓模型博聞強識;微調(無論是監督學習還是強化學習),則更像行為塑造,教會模型如何“得體”地回應,比如習得特定的對話風格。這兩種方式,都在潛移默化中改變著模型的“內在記憶”——也就是那些神經網絡的參數。一種LLM缺失的重要學習方式——“系統提示學習”?反觀人類的學習,似乎還存在一種更為直接、更為“顯性”的模式。想象一下,...
2025-05-28 06:22:20 3058瀏覽 0點贊 0回復 0收藏
已有的大模型能否通過PromptEngineering達到O1類似的推理水平?我見過很多嘗試,在個別案例上有觀察到驚艷的推理效果,但大多沒有普遍提升已有大模型的推理能力。今天看到這個方法,感覺是通過PromptEngineering可以有效普遍提升大模型的推理能力。以下就是那個MagicPrompt,先睹為快。作者準備了50道需要長推理過程的問題,分別測試幾種場景:ClaudeSonnet+上述PromptClauseSonnetLlama3.18B+上述PromptLlama3.18BChatGPT4o+上...
2025-05-14 06:55:34 2033瀏覽 0點贊 0回復 0收藏
大語言模型(LLM)的飛速發展正深刻改變著我們與信息和技術交互的方式(想想大家有多久不用傳統搜索引擎了)。它們展現出的能力令人矚目,但要驅動它們超越模仿,在復雜推理、規劃和解決未知問題等層面達到更高的“智能”水平,傳統的預訓練(Pretrain)和監督微調(SFT)范式顯得力有不逮。強化學習(RL),特別是結合人類或規則反饋的RLHFRL,已成為關鍵的引擎,推動LLM智能向更高層級躍遷。RL的核心在于賦予模型一種“目標導...
2025-04-28 00:25:51 3880瀏覽 1點贊 0回復 1收藏
人工智能(AI)快速發展,模型訓練是核心環節,優化器扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。多年來,AdamW優化器一直是優化器的標桿,因其穩定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規模的不斷擴大,訓練成本和時間的需求也在激增,這讓人們開始尋找更高效的優化方法。近期,一種名為Muon的優化器算法悄然出現(源代碼????https:github.comKellerJordanMuon????),...
2025-04-17 06:40:28 3244瀏覽 0點贊 0回復 0收藏
DeepSeekR1在數學推理、問題解決等復雜任務上的表現令全世界矚目。它在AIME2024等高難度數學測試中取得了79.8分好成績(OpenAIo11217得分79.2)。而這一切的背后,有一個關鍵技術功不可沒——GroupRelativePolicyOptimization(GRPO),一種基于強化學習的優化算法。盡管GRPO教會R1高智商推理,但有研究人員發現,它存在一些缺陷,比如它會導致模型生成冗長的錯誤回答,或者更傾向于解決簡單問題而忽略難題。大家在用DeepSeekR1...
2025-04-07 00:08:13 4484瀏覽 0點贊 0回復 0收藏
開源世界的期待與漣漪人工智能的浪潮奔涌向前,Meta的Llama系列一直扮演著特殊的角色。回想Llama2的橫空出世和開源姿態,極大地降低了高性能大模型的門檻,在全球范圍內點燃了研究和應用的熱情,催生了無數創新,其影響力至今仍在激蕩。相較之下,Llama3的發布雖然帶來了性能提升,但在社區看來,似乎少了些Llama2那樣的顛覆性震撼,更像是一次穩健但略顯保守的迭代。在這樣的背景下,Llama4的發布承載了社區極高的期待。4月6日...
2025-04-07 00:04:09 3422瀏覽 0點贊 0回復 0收藏
人工智能(AI)快速發展,模型訓練是核心環節,優化器扮演著至關重要的角色,它負責調整模型的參數,讓模型在數據上表現得更好。多年來,AdamW優化器一直是優化器的標桿,因其穩定性和高效性深受研究者和工程師的喜愛。然而,隨著AI模型規模的不斷擴大,訓練成本和時間的需求也在激增,這讓人們開始尋找更高效的優化方法。近期,一種名為Muon的優化器算法悄然出現(源代碼????https:github.comKellerJordanMuon????),...
2025-03-25 00:43:07 5362瀏覽 0點贊 0回復 1收藏
2月28日OpenAI發布了GPT4.5,OpenAI稱這是其迄今為止最大的預訓練模型。我有點期待GPT4.5會帶來令人振奮的突破。然而,從官方披露的信息以及實際表現來看,GPT4.5沒有展現出超越前代模型的顯著優勢。有點“強弩之末”的感覺。可能再次驗證了業界比較廣泛的認知:“單純擴大模型參數規模,對性能提升的邊際效應正在遞減”。接下來分幾個章節,談談我的感受。期待與現實的落差GPT4.5被OpenAI定位為“ourlargestandbestmodelforcha...
2025-03-13 06:57:59 6326瀏覽 0點贊 0回復 0收藏
GRPO(GroupRelativePolicyOptimization)算法核心思想:想象一下,老師在教一個學生寫作文。傳統的強化學習方法(比如PPO)會給學生的每一句話打分,告訴他這句好,那句不好。但GRPO不這么做,它更像是一位“佛系”老師:不看過程,看結果:GRPO不會逐句指導學生,而是讓學生一口氣寫完幾篇不同的作文(一組作文)。幾篇作文一起比較:然后,老師把這幾篇作文放在一起比較,根據一個預先定好的規則(基于規則的獎勵模型),評判...
2025-02-28 12:15:57 9079瀏覽 0點贊 0回復 0收藏