精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

張俊林:OpenAI o1的價值意義及強化學習的Scaling Law

人工智能 新聞
OpenAI o1 提到了關于 RL 在訓練和推理時候的 Scaling law,并指出這與預訓練時候的 Scaling law 具有不同特性。

蹭下熱度談談 OpenAI  o1 的價值意義及 RL 的 Scaling law。

一、OpenAI o1 是大模型的巨大進步

我覺得 OpenAI o1 是自 GPT 4 發布以來,基座大模型最大的進展,邏輯推理能力提升的效果和方法比預想的要好,GPT 4o 和 o1 是發展大模型不同的方向,但是 o1 這個方向更根本,重要性也比 GPT 4o 這種方向要重要得多,原因下面會分析。

為什么說 o1 比 4o 方向重要?

這是兩種不同的大模型發展思路,說實話在看到 GPT 4o 發布的時候我是有些失望的,我當時以為 OpenAI 會優先做 o1 這種方向,但是沒想到先出了 GPT 4o。GPT 4o 本質上是要探索不同模態相互融合的大一統模型應該怎么做的問題,對于提升大模型的智力水平估計幫助不大;而 o1 本質上是在探索大模型在 AGI 路上能走多遠、天花板在哪里的問題,很明顯第二個問題更重要。

GPT 4o 的問題在于本身大模型的智力水平還不夠高,所以做不了復雜任務,導致很多應用場景無法實用化,而指望靠圖片、視頻這類新模態數據大幅提升大模型智力水平是不太可能的,盡管確實能拓展更豐富的多模態應用場景,但這類數據彌補的更多是大模型對外在多模態世界的感知能力,而不是認知能力。提升大模型認知能力主要還要靠 LLM 文本模型,而提升 LLM 模型認知能力的核心又在復雜邏輯推理能力。LLM 的邏輯推理能力越強,則能解鎖更多復雜應用,大模型應用的天花板就越高,所以不遺余力地提升大模型尤其是文本模型的邏輯能力應該是最重要的事情,沒有之一。

如果 o1 模型能力越做越強,則可以反哺 GPT 4o 這種多模態大一統模型,可以通過直接用 o1 基座模型替換 GPT 4o 的基座、或者利用 o1 模型生成邏輯推理方面的合成數據增強 GPT 4o、再或者用 o1 蒸餾 GPT 4o 模型….. 等等,能玩的花樣應該有很多,都可以直接提升 GPT 4o 的復雜任務解決能力,從而解鎖更復雜的多模態應用場景。OpenAI 未來計劃兩條線,一條是 o1,一條是 GPT 4o,它的內在邏輯大概應該是這樣的,就是說通過 o1 增強最重要的基座模型邏輯推理能力,而再把這種能力遷移到 GPT 4o 這種多模態通用模型上。

OpenAI o1 的做法本質上是 COT 的自動化。

我們知道,通過 COT 把一個復雜問題拆解成若干簡單步驟,這有利于大模型解決復雜邏輯問題,但之前主要靠人工寫 COT 來達成。從用戶提出的問題形成樹的根結點出發,最終走到給出正確答案,可以想像成類似 AlphaGo 下棋,形成了巨大的由 COT 具體步驟構成的樹形搜索空間,這里 COT 的具體步驟的組合空間是巨大的,人寫的 COT 未必最優。如果我們有大量邏輯數據,是由 <問題,明確的正確答案> 構成,則通過類似 AlphaGo 的 Monte Carlo Tree Search(MCTS)搜索 + 強化學習,確實是可以訓練大模型快速找到通向正確答案的 COT 路徑的。

而問題越復雜,則這個樹的搜索空間越大,搜索復雜度越高,找到正確答案涉及到的 COT 步驟越多,則模型生成的 COT 就越復雜,體現在 o1 的速度越慢,生成的 COT Token 數越多。很明顯,問題越復雜,o1 自己生成的隱藏的 COT 越長,大模型推理成本越高,但效果最重要,成本其實不是問題,最近一年大模型推理成本降低速度奇快,這個總有辦法快速降下去。

從上面 o1 的做法可以知道 Prompt 工程會逐漸消亡。

之前解決復雜問題,需要人寫非常復雜的 Prompt,而 o1 本質上是 COT 等復雜 Prompt 的自動化,所以之后是不太需要用戶自己構造復雜 Prompt 的。本來讓用戶寫復雜 Prompt 就是不人性化的,所有復雜人工環節的自動化,這肯定是大勢所趨。

Agent 屬于概念火但無法實用化的方向,主要原因就在于基座模型的復雜推理能力不夠強。如果通過基座模型 Plan 把一個復雜任務分解為 10 個步驟,哪怕單個步驟的正確率高達 95%,要想最后把任務做對,10 個環節的準確率連乘下來,最終的正確率只有 59%,慘不忍睹。那有了 o1 是不是這個方向就前途坦蕩?也是也不是,o1 的 Model Card 專門測試了 Agent 任務,對于簡單和中等難度的 Agent 任務有明顯提升,但是復雜的、環節多的任務準確率還是不太高。就是說,不是說有了 o1 Agent 就現狀光明,但是很明顯 o1 這種通過 Self Play 增強邏輯推理能力的方向應該還有很大的發展潛力,從這個角度講說 Agent 未來前途光明問題應該不大。

OpenAI 很多時候起到一個行業指路明燈的作用,往往是第一個證明某個方向是行得通的(比如 ChatGPT、GPT 4、Sora、GPT 4o 包括這次的 o1),然后其他人開始瘋狂往這個方向卷,到后來甚至卷的速度太快把 OpenAI 都甩到后面吃尾氣。典型例子就是 Sora,如果 OpenAI 不是出于阻擊競爭對手秀一下肌肉,大家都沒有意識到原來這個方向是可以走這么遠的,但當意識到這一點后,只要你專一地卷一個方向,方向明確且資源聚焦,是可能趕超 OpenAI 的,目前國內外各種視頻生成模型有些甚至可能已經比 Sora 好了,Sora 至今仍然是期貨狀態,主要 OpenAI 想做的方向太多,資源分散導致分到具體一個方向的資源不夠用,所以越往后發展期貨狀態的方向越多,也讓人覺得盡顯疲態。

OpenAI o1 等于給大家又指出了一個前景光明的方向,估計后面大家又開始都往這個方向卷。我覺得卷這個方向比去卷 GPT 4o 和視頻生成要好,雖然具體怎么做的都不知道,但是大方向清楚且效果基本得到證明,過半年肯定頭部幾家都能摸清具體技術追上來,希望能再次讓 OpenAI 吃尾氣。而且這個方向看上去資源耗費應該不會特別大,偏向算法和數據一些,數據量規模估計不會特別巨大,卷起來貌似成本低一些。這是個卷的好方向。

二、預訓練 Scaling Law 的來源及 O1 提到的 RL Scaling law

粗分的話,大語言模型最基礎的能力有三種:語言理解和表達能力、世界知識存儲和查詢能力以及邏輯推理能力(包括數學、Coding、推理等理科能力,這里 Coding 有一定的特殊性,是語言能力和邏輯摻雜在一起的混合能力,Coding 從語言角度可以看成一種受限的自然語言,但是混雜著復雜的內在邏輯問題。從語言角度看,Coding 貌似是容易解決的,從邏輯角度看又相對難解決。總之,Coding 目前看是除了語言理解外,大模型做得最好的方向)。

語言理解和表達是 LLM 最強的能力,初版 ChatGPT 就可以完全勝任各種純語言交流的任務,基本達到人類水準,目前即使是小模型,在這方面比大模型能力也不弱;世界知識能力雖說隨著模型規模越大效果越好,但幻覺問題目前無法根治,這是制約各種應用的硬傷之一;邏輯推理能力一直都是 LLM 的弱項,也是最難提升的方面,從 GPT 4 開始往后,如何有效并大幅提升 LLM 的邏輯推理能力是體現不同大模型差異和優勢的最核心問題。所以,大模型最重要的一個是世界知識方面如何有效消除幻覺,一個是如何大幅提升復雜邏輯推理能力。語言能力已不是問題。

從大模型的基礎能力,我們再說回已經被談濫了的大模型 Scaling law。現在普遍認為通過增加數據和模型規模來提升大模型效果的 Scaling law 模式,其增長速度在放緩。其實我們對照下大模型的三個基礎能力的能力來源,基本就能看出來這是為啥(以下是我猜的,不保真):

本質上大模型的能力來源都來自訓練數據,包含能體現這方面能力的訓練數據越多,則這種能力越強。語言能力不用說了,任意一份預訓練數據,其中都包含相當比例的語言的詞法句法等成分,所以訓練數據中體現語言能力的數據是最多的,這也是為何大模型的語言能力最強的原因。

而數據中包含的世界知識含量,基本是和訓練數據量成正比的,明顯數據量越多,包含的世界知識越多,Scaling law 是數據中包含的世界知識含量關系的一個體現,但是這里有個問題,大模型見過越多數據,則新數據里面包含的新知識比例越小,因為很多知識在之前的數據里都見過了,所以隨著數據規模增大,遇到的新知識比例就越低,在世界知識方面就體現出 Scaling law 的減緩現象。

為啥邏輯推理能力最難提升?因為能體現這方面的自然數據(代碼、數學題、物理題、科學論文等)在訓練數據中比例太低,自然大模型就學不好,盡管通過不斷增加數據,能增加邏輯推理方面數據的絕對數量,但因為占比太少,這方面提升的效果和增加的總體數據規模就不成比例,效果也不會太明顯,就體現在邏輯推理能力 Scaling law 看上去的放緩。這是很自然的。這也是為何現在為了提高模型邏輯能力,往往在預訓練階段和 Post-training 階段,大幅增加邏輯推理數據占比的原因,且是有成效的。

所以目前大模型的核心能力提升,聚焦到不斷通過合成數據等方式構造更多比例的邏輯推理數據上來。但是大部分邏輯推理數據的形式是 < 問題,正確答案 >,缺了中間的詳細推理步驟,而 o1 本質上是讓大模型學會自動尋找從問題到正確答案的中間步驟,以此來增強復雜問題的解決能力。

OpenAI o1 提到了關于 RL 在訓練和推理時候的 Scaling law,并指出這與預訓練時候的 Scaling law 具有不同特性。很明顯,如果 o1 走的是 MCTS 搜索技術路線,那么把 COT 拆分的越細(增加搜索樹的深度),或提出更多的可能選擇(節點的分支增多,就是說樹的寬度越寬),則搜索空間越大,找到好 COT 路徑可能性越大,效果越好,而訓練和推理的時候需要算力肯定越大。看上去有著效果隨著算力增長而增長的態勢,也就是所謂的 RL 的 Scaling law。這其實是樹搜索本來應有之義,我倒覺得把這個稱為 RL 的 Scaling law 有點名不副實。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-13 06:32:25

2024-09-18 10:37:00

強化學習AI模型

2025-01-21 09:00:00

2025-02-18 15:02:13

2024-11-25 15:50:00

模型訓練

2024-09-29 13:07:16

2025-02-20 09:11:28

2024-09-24 11:01:03

2024-09-19 18:03:31

2024-12-17 12:30:00

2024-10-05 00:00:00

2024-12-05 10:16:14

2024-11-07 15:40:00

2025-10-20 09:05:00

2024-12-16 07:15:00

2024-09-25 09:30:16

2024-11-14 18:40:57

2025-02-14 08:30:00

模型AI訓練

2024-11-05 14:20:00

AI模型

2017-08-22 15:56:49

神經網絡強化學習DQN
點贊
收藏

51CTO技術棧公眾號

久久99精品久久久久久水蜜桃| 欧美色视频在线| 爱情岛论坛亚洲入口| 久久高清免费视频| 色棕色天天综合网| 欧美日韩精品一区二区三区| 99亚洲国产精品| 午夜激情在线视频| 久久99久久99| 久久琪琪电影院| 影音先锋制服丝袜| 日韩精品一区二区三区中文| 岛国精品视频在线播放| 日韩欧美精品久久| 亚洲伦理在线观看| 日本少妇一区二区| 性欧美亚洲xxxx乳在线观看| 1024手机在线观看你懂的| 成人偷拍自拍| 欧美日韩成人一区二区| 欧美爱爱视频免费看| 午夜国产福利在线| 91视频免费播放| 亚洲在线一区二区| 制服丝袜在线一区| 亚洲欧美日韩国产一区二区| 欧美成人精品xxx| 精品无码人妻一区二区免费蜜桃| 97久久综合区小说区图片区| 欧美三级午夜理伦三级中视频| 国产精品裸体瑜伽视频| 国产激情在线| 国产精品美女一区二区| 蜜桃av久久久亚洲精品| 后进极品白嫩翘臀在线视频| 国产伦精一区二区三区| 国产精品一二三视频| 久久免费激情视频| 日韩视频一区二区三区在线播放免费观看| 日韩有码在线播放| 你懂得视频在线观看| 日韩电影不卡一区| 亚洲成avwww人| 日本成人在线免费观看| 欧美爱爱视频| 精品污污网站免费看| 国产日韩一区二区在线观看| zzzwww在线看片免费| 亚洲在线视频网站| 色婷婷777777仙踪林| 免费黄色在线网站| 国产精品福利一区| 亚洲免费精品视频| 欧美日韩在线资源| 亚洲欧美日韩综合aⅴ视频| 亚洲资源视频| 大片免费在线看视频| 亚洲色图清纯唯美| 国产人妻人伦精品| 成人在线免费观看黄色| 玉足女爽爽91| 黄色a级片免费看| 暖暖在线中文免费日本| 香蕉成人伊视频在线观看| 中文字幕一区二区三区最新| 老司机精品视频在线观看6| 国产精品国产三级国产普通话99| 久久精品人人| 欧美自拍大量在线观看| 丰满少妇xoxoxo视频| 久久欧美肥婆一二区| 日韩av免费看网站| 日韩不卡高清视频| 激情国产一区二区| 丁香五月网久久综合| 成人午夜免费在线观看| 91视频观看视频| 日韩国产一区久久| 麻豆网在线观看| 夜夜嗨av一区二区三区网页| 国产一区二区网| 校园春色亚洲色图| 777久久久精品| 激情av中文字幕| 美女网站一区| 久久久999国产| 日韩欧美一区二区一幕| 玖玖国产精品视频| 91亚洲va在线va天堂va国 | 99re8这里只有精品| av网站在线免费| 午夜精品久久久久影视| 日本男人操女人| 精品视频91| 亚洲精品久久久久久久久久久久| 国产一区二区三区四区五区六区| 99久久综合| 欧美资源在线观看| 精品国产无码一区二区三区| wwww国产精品欧美| 免费看污污视频| 一本大道色婷婷在线| 欧美精品在线视频| av网站免费在线播放| 亚洲h色精品| 日本成人在线视频网址| 精品久久久无码中文字幕| 91麻豆国产精品久久| 视色,视色影院,视色影库,视色网| 91av亚洲| 欧美精品一区在线观看| 日本激情视频一区二区三区| 日韩视频在线一区二区三区| 91传媒在线免费观看| 国产精品久久一区二区三区不卡 | 色综合久久久| 亚洲精品久久久久中文字幕欢迎你 | 大尺度在线观看| 久久99国产成人小视频| 欧美日韩国产999| 中文字幕日韩三级| 91在线精品一区二区三区| 三上悠亚免费在线观看| 日本国产欧美| 日韩精品视频在线| 麻豆一区产品精品蜜桃的特点| 国产精品一区毛片| 成人3d动漫一区二区三区91| 91看片在线观看| 91国产成人在线| 爱爱免费小视频| 91久久视频| 国产精品一区二区欧美| 国产精品久久麻豆| 911精品产国品一二三产区| 法国空姐电影在线观看| 午夜在线视频观看日韩17c| 国产精品香蕉视屏| 欧美理论片在线播放| 欧美一区二区三区爱爱| 欧美激情精品久久久久久免费| 日韩高清一区在线| 三级三级久久三级久久18| 制服丝袜专区在线| 亚洲精品色婷婷福利天堂| 波多野结衣国产| ww亚洲ww在线观看国产| 亚洲中文字幕无码不卡电影| 日韩欧美四区| 欧洲精品在线视频| 日本精品专区| 91久久香蕉国产日韩欧美9色| 中文字幕5566| 久久久久久自在自线| 热re99久久精品国产99热| 日韩在线影院| 亚洲图片欧美日产| 中文字幕精品在线观看| 国产精品丝袜黑色高跟| 欧美日韩一区二区三区69堂| 日韩欧美视频在线播放| 91免费看片在线| 成人免费观看视频大全| 日韩免费高清av| 国产无遮挡又黄又爽| 成年人国产精品| 精品99在线视频| 欧美在线色图| 91久久国产精品91久久性色| 中国av在线播放| 欧美mv和日韩mv国产网站| 日韩 欧美 精品| 久久综合色一综合色88| 国产理论在线播放| 欧美影院一区| 精品无人乱码一区二区三区的优势| 色偷偷色偷偷色偷偷在线视频| 亚洲系列中文字幕| 国产日韩欧美中文字幕| 亚洲成人777| 91资源在线播放| 国产伦精品一区二区三区免费| www精品久久| 欧美日韩有码| 99久久一区三区四区免费| 国产黄大片在线观看| 在线视频免费一区二区| 精品人妻无码一区二区色欲产成人 | 国产鲁鲁视频在线观看特色| 精品日韩一区二区三区免费视频| 国产网友自拍视频| 欧美国产精品中文字幕| 四虎国产精品免费| 久久亚洲精选| 日韩欧美视频免费在线观看| 丝袜久久网站| 成人久久久久久久| 在线观看福利电影| 精品国产一区二区三区在线观看| 国产91绿帽单男绿奴| 欧美丝袜第三区| 国产在线观看免费视频今夜| 国产精品污污网站在线观看| 18深夜在线观看免费视频| 久久久久一区| 国产无限制自拍| 五月激情综合| 牛人盗摄一区二区三区视频| 日本99精品| 国产精品亚洲精品| 亚洲淫成人影院| 欧美国产精品va在线观看| 成人精品一区| 精品亚洲精品福利线在观看| 99久久久国产精品无码网爆| 色噜噜狠狠一区二区三区果冻| 久久精品视频6| 亚洲天堂av一区| 成人激情五月天| 91在线丨porny丨国产| 人妻精品久久久久中文字幕69| 蜜臀av一区二区在线观看| 国产精品秘入口18禁麻豆免会员| 欧美激情1区2区| 做爰高潮hd色即是空| av资源久久| 欧美日韩免费高清| 乱中年女人伦av一区二区| 99re在线视频观看| 麻豆精品在线| 91免费国产视频| 日韩午夜电影免费看| 国产精品午夜国产小视频| 欧美色片在线观看| 国产精品444| 伊人久久国产| 日本欧美中文字幕| www.成人影院| 欧洲亚洲免费在线| 在线天堂资源www在线污| 2018国产精品视频| 欧美私密网站| 欧美一级电影久久| 中文字幕乱码中文乱码51精品| 性色av一区二区三区| 草美女在线观看| 97香蕉超级碰碰久久免费的优势| 丰满大乳少妇在线观看网站| 欧美国产乱视频| 大桥未久在线视频| 5252色成人免费视频| 日本蜜桃在线观看视频| 欧美一级视频免费在线观看| jizz内谢中国亚洲jizz| 国产精品∨欧美精品v日韩精品| 美女写真久久影院| 国产精品久久久久久久一区探花 | japanese中文字幕| 久久精品网站免费观看| 国产1区2区在线观看| 中文字幕国产精品一区二区| 久久午夜精品视频| 综合久久一区二区三区| 亚洲成人生活片| 亚洲成人你懂的| 香蕉影院在线观看| 欧美日韩精品一区二区三区四区| 国产女同91疯狂高潮互磨| 欧美v日韩v国产v| 亚洲日本中文字幕在线| 亚洲男人天堂网| www.99在线| 麻豆精品一区二区| 97人人爽人人| 国产黄色成人av| 男人网站在线观看| 久久综合九色综合97婷婷女人| 久久久久久久久久久国产精品| 一区二区三区av电影| 日本一区二区不卡高清更新| 精品视频日韩| 中文字幕中文字幕在线中心一区 | 欧美一区二区在线视频观看| 日韩精品一区二区三区国语自制| 亚洲午夜三级在线| 国产精品久免费的黄网站| 精品视频一区二区不卡| 亚洲国产精品一| 亚洲社区在线观看| 99福利在线| 国产98色在线| 视频二区欧美| 欧美伦理一区二区| 亚洲中无吗在线| 99久久久无码国产精品6| 久久精品国产精品亚洲红杏| 男人网站在线观看| 国产精品久久久久久久午夜片| 国产精品999久久久| 欧美性猛片aaaaaaa做受| 黑人操亚洲女人| 色妞色视频一区二区三区四区| 678在线观看视频| 成人xxxx视频| 亚洲人成网站77777在线观看| 亚洲色图都市激情| 蜜臀av一区二区三区| 亚洲欧美在线不卡| 亚洲精品国产第一综合99久久| 青青国产在线视频| 精品盗摄一区二区三区| 尤物在线视频| 国产极品jizzhd欧美| 精品五月天堂| 成年丰满熟妇午夜免费视频| 奇米精品一区二区三区在线观看 | 91av在线免费观看| 久久综合偷偷噜噜噜色| 亚洲精品tv久久久久久久久| 国产毛片久久| 亚洲精品乱码久久| 伊人婷婷欧美激情| 国产精品国产三级国产普通话对白| 亚洲欧美日韩国产成人| 俺来也官网欧美久久精品| 成人a视频在线观看| 欧美一级精品片在线看| 午夜视频在线瓜伦| 久久久久久久综合日本| 日韩精品一卡二卡| 亚洲国产精品久久| 日本一级理论片在线大全| 成人久久精品视频| 婷婷综合久久| 天天做天天干天天操| 国产精品理伦片| 国产裸体美女永久免费无遮挡| 亚洲欧美国产精品专区久久| 欧美调教sm| 久久久久久久久一区| 在线视频精品| 亚洲国产第一区| 舔着乳尖日韩一区| 熟妇人妻一区二区三区四区 | 国产精品自拍合集| 国产乱码字幕精品高清av| 五月天婷婷色综合| 欧美一区二区三区视频免费| 久做在线视频免费观看| 成人美女av在线直播| 久久久久亚洲| 一级黄色大片免费看| 亚洲电影一区二区| 午夜福利一区二区三区| 日韩av免费在线播放| 精品国产一区二区三区四区| 色一情一乱一伦一区二区三区日本| 国产亚洲一区二区三区在线观看| 波多野结衣视频免费观看| 中文字幕亚洲激情| 国产亚洲字幕| 给我免费播放片在线观看| 91丨porny丨在线| 久久久久久不卡| 色久欧美在线视频观看| 成人噜噜噜噜| 国产中文字幕乱人伦在线观看| caoporm超碰国产精品| 午夜精品一区二| 久久精品中文字幕| 大桥未久女教师av一区二区| 久久成人免费观看| 日本一区二区免费在线| 国产视频aaa| 97国产一区二区精品久久呦| 国产成人黄色| 成年人三级黄色片| 亚洲成人在线网站| 韩日视频在线| 91亚色免费| 久久狠狠一本精品综合网| 911国产在线| 日韩av在线免费观看| 国产毛片精品久久| 日韩在线观看a| 久久精品欧美日韩精品| 国产手机av在线| 4k岛国日韩精品**专区| 999国产精品| 亚洲av成人片色在线观看高潮| 欧美性一区二区| 成人性生交大片免费看在线播放| 日韩av电影免费在线| 国产高清精品在线| 无码人妻丰满熟妇区五十路 | 日韩av一区在线观看| 欧美视频第一| 看av免费毛片手机播放| 亚洲欧美经典视频| 国产女主播在线写真|