精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

51CTO首頁

AI.x社區

博客

學堂

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

在線學習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

后向傳播

LV.2

張發恩創作的人工智能技術文章

帖子 19

聲望 161

關注 0

粉絲 0

社區頭條作者

私信

關注

主帖 19

回帖

特定條件下，LoRA可以媲美全量微調 | 十個要點

ThinkingMachines，一家成立不久便震驚硅谷的AI公司。它由前OpenAICTOMira和聯合創始人JohnSchulman共同創立，團隊匯集了大量來自OpenAI的核心人才。他們繼承了80年代傳奇AI超算公司“ThinkingMachines”之名，志在進行最根本、最前沿的AI探索。來自ThinkingMachines的最新研究《LoRAWithoutRegret》深入探討了參數高效微調（PEFT）的領先方法——低秩適應（LoRA），并得出結論：在特定條件下，LoRA的性能可以完全媲美甚至超越...

2025-10-15 00:24:40 1291瀏覽 0點贊 0回復 0收藏

如何理解DeepSeek-V3.2-Exp的稀疏注意力機制 | 官方報告里沒提的一些技術細節

果然是假期之前愛“搞事”，還有兩天就國慶了，DeepSeek放出了DeepSeekV3.2Exp。相比之前的版本，主要創新是引入了一種稀疏注意力機制DSA（DeepSeekSparseAttention）。官方的TechReport比較宏觀，對細節描述不多。好在DeepSeek今天也開源模型推理源代碼，我認真看了一下，做了一點實驗，分享記錄DSA的一些技術原理和細節。為什么大模型害怕“長篇大論”？想象一下你走進一個上百人的聚會，為了不錯過任何重要信息，你需要聽清...

2025-10-15 00:16:38 2094瀏覽 0點贊 0回復 0收藏

AI在遠古細菌中發現殺滅“超級細菌”的新抗生素 | 了解LLM就能看懂

大家可能聽說過（希望沒有感受過）“超級細菌”感染的可怕。幾年前，我的一個同事講述其父親在一個有淤泥的池塘里不小心劃傷了腿，最終演變成了對多種抗生素都耐藥的“超級細菌”感染。老人因此被送進ICU，與死神搏斗了數周，經歷了巨大的煎熬，最終吉人天相。但那段經歷的兇險，應該會讓身邊的人至今心有余悸。這個故事，正是我們這個時代正面臨的一場危機的縮影：抗生素耐藥性。曾被視為醫學奇跡的抗生素（如青霉素），正逐漸...

2025-08-26 07:07:25 1526瀏覽 0點贊 0回復 0收藏

寫點代碼 | 從頭編寫GRPO、DrGRPO、GSPO，800行代碼實現完整訓練和驗證流程

在大型語言模型（LLM）的強化學習（RL）領域，一個很有潛力的方向是利用可驗證的獎勵（VerifiableRewards）進行模型優化，即RLVR。傳統的強化學習依賴于人類反饋（RLHF）或者一個專屬的價值模型（ValueModel），這可能主觀又昂貴。而RLVR通過程序化的、客觀的獎勵函數來指導模型學習，例如，在數學問題上，答案是否正確是可以通過計算驗證的。這種方法為我們提供了一條更高效、可擴展的路徑，來增強模型的推理等復雜能力。在RLV...

2025-08-26 06:42:39 4426瀏覽 0點贊 0回復 0收藏

Google公開與Gemini大模型聊一次耗能 ≈ 電視播放9秒或微波爐運行1秒 | 且看他怎么算的

大模型在服務時的能源消耗一直備受關注，但具體的能耗數據，尤其是來自頭部公司的數據，長期處于未知狀態。這兩天，Google發布了一篇研究論文，首次系統性地披露了其Gemini大模型在真實生產環境中，與用戶聊一次（也就是響應一次用戶提示，即常說的Prompt）的能源消耗——約0.24瓦時(Wh)。為了讓這個數字更具實感，論文將其與日常活動進行了對比：這大致相當于一臺現代電視機播放9秒，或是一臺家用微波爐運行1秒所消耗的電能，...

2025-08-26 06:40:26 1593瀏覽 0點贊 0回復 0收藏

OpenAI“補課”式發布兩個開放權重模型GPT-OSS | 5個技術看點 | 時隔六年多，再次擁抱開源

OpenAI終于打破了自GPT2以來長達六年多的沉寂，再次擁抱開源社區，發布了兩個全新的開放權重模型：gptoss120b和gptoss20b。在AI社區激起了千層浪。畢竟，上一個來自OpenAI的開源模型GPT2，幾乎以一己之力點燃了全球開發者對大語言模型的熱情。我花了點時間研究它之后（源代碼和模型權重URL參考末尾附錄），有點驚喜，但也有一點失望。驚喜的是，OpenAI確實兌現了承諾，并且模型在特定硬件上的高效表現令人印象深刻；失望的是，...

2025-08-13 06:30:44 2639瀏覽 0點贊 0回復 0收藏

谷歌27頁論文揭秘：Gemini如何“斬獲”2025 IMO金牌 | 三個看點

剛剛過去的幾天，科技圈和數學界因2025年的國際數學奧林匹克競賽（IMO）而異常熱鬧。首先，讓我們為真正的冠軍——中國隊——獻上最熱烈的祝賀！六名隊員以絕對優勢再次為中國捧回團體總分第一的桂冠，基本上可以說咱中國人的智商碾壓全世界，作為中國人，咱們倍感驕傲與自豪。然而，在這場人類智慧的巔峰對決之外，另一場關于人工智能（AI）的“競賽”也賺足了眼球。先是OpenAI略帶尷尬地宣布其模型達到“金牌水平”，后又被指...

2025-07-28 00:52:30 3197瀏覽 0點贊 0回復 0收藏

好馬配好鞍，好模配指南 | Claude 4發布了，業界反響很好，其行為指南“系統提示詞”也被全文公開

在大語言模型（LLM）的進化之路上，我們熟知兩大基石：預訓練，如同海量知識的灌輸，讓模型博聞強識；微調（無論是監督學習還是強化學習），則更像行為塑造，教會模型如何“得體”地回應，比如習得特定的對話風格。這兩種方式，都在潛移默化中改變著模型的“內在記憶”——也就是那些神經網絡的參數。一種LLM缺失的重要學習方式——“系統提示學習”？反觀人類的學習，似乎還存在一種更為直接、更為“顯性”的模式。想象一下，...

2025-07-07 07:34:59 1929瀏覽 0點贊 0回復 0收藏

開局一把牌，怎么都能打 | 神經網絡從“白癡”訓練到“專家”水平，其參數并沒有太大的變化

這兩天重讀了一篇很有趣的論文，《Effectoftheinitialconfigurationofweightsonthetrainingandfunctionofartificialneuralnetworks》（https:arxiv.orgpdf2012.02550）。它非常直白的展示了人工神經網絡訓練過程中的初始權重配置對網絡功能和性能的影響。通俗來講，神經網絡就像是一臺復雜的機器，它內部有很多“開關”（也就是權重），這些開關從一開始就有隨機的初始設置。在訓練過程中，這些開關的設置會一點一點調整，目標...

2025-06-23 07:28:16 1584瀏覽 0點贊 0回復 0收藏

聊聊背后的技術 | AI+生物 | 突破進展，世界上首次開發出“為一人定制”的CRISPR基因編輯體內治療藥物

精華

想象一下，一種專門為某個人量身打造的藥物，能夠精確修復他體內導致疾病的那個小小的基因“印刷錯誤”。這聽起來像是科幻小說里的情節，但如今，它正悄然照進現實。最近，一名叫KJ的嬰兒成為了這個醫學奇跡的主角。他患有一種罕見的遺傳性肝臟疾病，由于基因突變，身體無法正常分解蛋白質，導致有毒物質氨在體內累積，嚴重威脅著他的大腦發育和生命健康。傳統的治療方法對于KJ這樣嚴重的病例往往效果有限，預后不佳。然而，來...

2025-06-10 06:59:33 2174瀏覽 0點贊 0回復 0收藏

好馬配好鞍，好模配指南 | Claude 4發布了，業界反響很好，其行為指南“系統提示詞”也被全文公開

2025-05-28 06:22:20 3058瀏覽 0點贊 0回復 0收藏

思維鏈(COT)+反思(Reflection)+語言強化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平？

已有的大模型能否通過PromptEngineering達到O1類似的推理水平？我見過很多嘗試，在個別案例上有觀察到驚艷的推理效果，但大多沒有普遍提升已有大模型的推理能力。今天看到這個方法，感覺是通過PromptEngineering可以有效普遍提升大模型的推理能力。以下就是那個MagicPrompt，先睹為快。作者準備了50道需要長推理過程的問題，分別測試幾種場景：ClaudeSonnet+上述PromptClauseSonnetLlama3.18B+上述PromptLlama3.18BChatGPT4o+上...

2025-05-14 06:55:34 2033瀏覽 0點贊 0回復 0收藏

Reward Hacking | 強化學習提升大模型推理能力，獎勵機制是關鍵 | 機制不合理，會導致多變的欺詐行為

大語言模型（LLM）的飛速發展正深刻改變著我們與信息和技術交互的方式（想想大家有多久不用傳統搜索引擎了）。它們展現出的能力令人矚目，但要驅動它們超越模仿，在復雜推理、規劃和解決未知問題等層面達到更高的“智能”水平，傳統的預訓練（Pretrain）和監督微調（SFT）范式顯得力有不逮。強化學習（RL），特別是結合人類或規則反饋的RLHFRL，已成為關鍵的引擎，推動LLM智能向更高層級躍遷。RL的核心在于賦予模型一種“目標導...

2025-04-28 00:25:51 3880瀏覽 1點贊 0回復 1收藏

Muon優化器：AI模型訓練算法的下一個里程碑？| 目前還不是業界焦點，但有潛力是重大基礎創新

精華

人工智能（AI）快速發展，模型訓練是核心環節，優化器扮演著至關重要的角色，它負責調整模型的參數，讓模型在數據上表現得更好。多年來，AdamW優化器一直是優化器的標桿，因其穩定性和高效性深受研究者和工程師的喜愛。然而，隨著AI模型規模的不斷擴大，訓練成本和時間的需求也在激增，這讓人們開始尋找更高效的優化方法。近期，一種名為Muon的優化器算法悄然出現（源代碼????https:github.comKellerJordanMuon????），...

2025-04-17 06:40:28 3244瀏覽 0點贊 0回復 0收藏

GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進

DeepSeekR1在數學推理、問題解決等復雜任務上的表現令全世界矚目。它在AIME2024等高難度數學測試中取得了79.8分好成績（OpenAIo11217得分79.2）。而這一切的背后，有一個關鍵技術功不可沒——GroupRelativePolicyOptimization（GRPO），一種基于強化學習的優化算法。盡管GRPO教會R1高智商推理，但有研究人員發現，它存在一些缺陷，比如它會導致模型生成冗長的錯誤回答，或者更傾向于解決簡單問題而忽略難題。大家在用DeepSeekR1...

2025-04-07 00:08:13 4484瀏覽 0點贊 0回復 0收藏

LLaMA 4來了 | 千呼萬喚始出來，猶抱琵琶半遮面 | 不盡如人意

精華

開源世界的期待與漣漪人工智能的浪潮奔涌向前，Meta的Llama系列一直扮演著特殊的角色。回想Llama2的橫空出世和開源姿態，極大地降低了高性能大模型的門檻，在全球范圍內點燃了研究和應用的熱情，催生了無數創新，其影響力至今仍在激蕩。相較之下，Llama3的發布雖然帶來了性能提升，但在社區看來，似乎少了些Llama2那樣的顛覆性震撼，更像是一次穩健但略顯保守的迭代。在這樣的背景下，Llama4的發布承載了社區極高的期待。4月6日...

2025-04-07 00:04:09 3422瀏覽 0點贊 0回復 0收藏

Muon優化器：AI模型訓練算法的下一個里程碑？| 目前還不是業界焦點，但有潛力是重大基礎創新

精華

2025-03-25 00:43:07 5362瀏覽 0點贊 0回復 1收藏

GPT-4.5發布了，參數規模可能在3-5萬億之間，宣稱是最好的聊天模型，但有“強弩之末”的感覺

2月28日OpenAI發布了GPT4.5，OpenAI稱這是其迄今為止最大的預訓練模型。我有點期待GPT4.5會帶來令人振奮的突破。然而，從官方披露的信息以及實際表現來看，GPT4.5沒有展現出超越前代模型的顯著優勢。有點“強弩之末”的感覺。可能再次驗證了業界比較廣泛的認知：“單純擴大模型參數規模，對性能提升的邊際效應正在遞減”。接下來分幾個章節，談談我的感受。期待與現實的落差GPT4.5被OpenAI定位為“ourlargestandbestmodelforcha...

2025-03-13 06:57:59 6326瀏覽 0點贊 0回復 0收藏

白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

GRPO(GroupRelativePolicyOptimization)算法核心思想：想象一下，老師在教一個學生寫作文。傳統的強化學習方法（比如PPO）會給學生的每一句話打分，告訴他這句好，那句不好。但GRPO不這么做，它更像是一位“佛系”老師：不看過程，看結果：GRPO不會逐句指導學生，而是讓學生一口氣寫完幾篇不同的作文（一組作文）。幾篇作文一起比較：然后，老師把這幾篇作文放在一起比較，根據一個預先定好的規則（基于規則的獎勵模型），評判...

2025-02-28 12:15:57 9079瀏覽 0點贊 0回復 0收藏

獲得成就

已積累 1.3w 人氣

獲得 1 個點贊

獲得 2 次收藏