精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

最先進推理模型! OpenAI 推出 o3 和 o4-mini 模型

譯文 精選
人工智能
OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步,特別是在推理和多模態理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合,為人工智能的智能和效用設定了新標準。

譯者 | 崔皓

審校 | 重樓

開篇

就在OpenAI推出 GPT 4.1 系列幾天后,又發布了o3 和 o4-mini 的推理模型,這表明大模型正式邁向 AGI( 人工通用智能 )。 o3 和 o4-mini 不僅僅是 AI 模型;它們還具備智能性、自治性、可調用工具以及與真實軟件對接的技能,是一個真正意義上的AI 系統。 新模型不會被動工作;而是主動使用工具自動完成任務! 接下來,就讓我們深入了解“O 系”模型:o3 和 o4-mini 的功能、性能和應用。

o3 和 o4-mini 是什么?

o3 和 o4-mini 是 OpenAI 最新的推理模型,取代了 o 系列之前的模型,比如 o1 和 o3-mini。o 系模型不同于主要關注模式識別和文本生成的LLMs(大語言模型),o 系模型作為推理模型采用了更長的內部“思維鏈”模式。

這種方式使模型能夠分解復雜問題,評估不同步驟,并得出更準確和慎重的解決方案。因此,在諸如 STEM、編碼和邏輯推理等領域,它們尤其擅長。此外, o 系模型首創了整合工具套件的能力,能夠主動使用和組合 ChatGPT 中提供的完整工具套件。

o3 是 OpenAI 最先進的推理模型,擅長處理在各個領域需要深入分析思考的任務。該模型的計算量是 o1 的 10 倍,引入了“圖像推理”的能力。這使其能夠直接在認知過程中處理和推理關于視覺輸入的信息。

o4-mini 是 o3 模型的替代品, 相對于o3而言o4-mini更加緊湊、高效、以及成本更低。盡管o4-mini模型的參數少于o3模型,但它在數學、編碼和視覺任務等領域表現出色。通過對模型的優化設計可以確保模型具備更快的響應速度和更高的吞吐量,使其適用于高效的應用場景。

同時,OpenAI 還發布了 o4-mini-high 變體,它會花費更多時間處理用戶請求,并給出更可靠的答案。

未來,OpenAI計劃向訂閱用戶發布更強大的o3-pro版本,它將使用更多計算資源,同時也提供更好的服務。

o3 和 o4-mini 的主要功能

o3與o4-mini的強大離不開如下關鍵特性:

  • 主動行為:主動解決問題的能力,自主確定復雜任務的最佳方法,并高效地執行多步解決方案。
  • 高級工具集成:無縫地利用諸如網絡瀏覽、代碼執行和圖像生成等工具,以增強其回答并有效應對復雜查詢 。
  • 多模態推理:直接處理和整合視覺信息到他們的推理過程中,從而解釋和分析圖像與文本數據并行。
  • 高級視覺推理(“用圖像思考”):解釋復雜的視覺輸入,例如圖表、白板草圖,甚至模糊/低質量照片。它們甚至可以將這些圖像(放大、裁剪、旋轉、增強)作為推理過程的一部分,從而提取相關信息。

o3 和 o4-mini 是否反映了 AGI?

這兩個“o 系”模型會在生成響應前執行復雜的多步推理。

當用戶給出問題時, o3先會使用“蠻力”得出解決方案。接著,會嘗試找到更智能的計算方法并以更簡潔的格式呈現。然后,繼續核對答案并簡化,從而提供給用戶簡單和易于理解的回應。

盡管整個思考過程部分基于計算和訓練,但在模型的訓練過程中,并沒有被明確教導去簡化答案或重新檢查過程。不過模型的響應過程,這使之具備自我進化和自我學習的能力,從而逐漸逼近通用人工智能。

此外,o3 能夠自主決定何時以及如何使用 ChatGPT 中的各種工具(網絡搜索、Python 數據分析、DALL·E 圖像生成和視覺),以解決復雜、多方面的查詢。它可以鏈接多個工具調用,迭代搜索網絡,分析結果,并在各種模式之間綜合信息。

對 o3、o4-mini 和 o4-mini-high 進行實際測試

現在讓我們在一些實際應用中嘗試這些備受期待的新 o 系列模型。我們將測試所有三個模型在它們擅長的任務上的表現。這包括:

  • 使用 o3 進行編碼
  • 使用 o4-mini 進行數學推理
  • 使用 o4-mini-high 進行視覺推理

讓我們開始吧!

任務 1:使用 o3 進行編碼

提示詞: “創建一個 Python 模擬,其中有 2 個球 - 一個是黃色的,另一個是藍色的 - 它們在一個順時針旋轉的五邊形內的厚六邊形框架中彈跳。每次它們相撞時,球必須變成綠色,并在下一次相撞時恢復原來的顏色。它們必須以遞增的速度移動。”

o3 在不到一分鐘內生成了完全功能的、無錯的代碼,并附加了它的解釋,輸出結果非常棒!我嘗試過在其他各種模型上使用類似的提示,這絕對是第一次生成的最佳模擬之一。無論是形狀、運動方向和速度,還是顏色的變化 - 都是十分準確的!唯一出錯的是球一直在框架外移動。

任務 2:使用 o4-mini 進行數學推理的任務

提示詞: “從給定的算式中選出兩個數字,互換位置還能夠讓等式成立?”14 + 39 – (√256 ÷ 3) + (5 × 4) – 6 = 58″

o4-mini 只花了大約 10 秒鐘來回答這個問題。它展示了在生成最終答案之前的思考過程和分析,這使其更可信。結果準確無誤,速度也很快。

任務 3:使用 o4-mini-high 進行視覺推理的任務

提示詞: “軟木板上寫的點綴色是什么?”

輸入圖像:

o4-mini-high 在約一分鐘內分析了圖像并讀取了手寫文本。它首先評估了圖像的大小,放大到便利貼貼在的部分。然后裁剪圖像,將模糊部分清晰化,然后嘗試閱讀文本。這是非常出色的,目前沒有其他模型能夠做到這一點。

盡管 o4-mini-high 可以讀到便簽上寫的“ACCENT COLOURS”,但只看到了其中提到的 4 種顏色中的 3 種,甚至讀錯了。然而,有趣的是,在它的思維過程中,該模型提到無法清楚閱讀文本是因為字體太小。

出于好奇,問 o4-mini-high“顯示器和頭盔是什么品牌?”,它立刻正確識別了它們。

o3 和 o4-mini 的可用性

這兩個模型都可以通過 OpenAI 的 ChatGPT 平臺和 API 服務進行訪問:

ChatGPT 訪問 :ChatGPT Plus、Pro 和 Team 計劃的用戶可以直接在聊天界面上使用 o3、o4-mini 和 o4-mini-high 模型。

企業和教育用戶將在一周內獲得訪問權限。

免費用戶可以在提交查詢之前選擇“Think”選項來體驗 o4-mini。

API Access:開發者可以通過 OpenAI 的API將 o3 和 o4-mini 集成到其應用程序中,從而在各種平臺上實現定制 AI 解決方案。

o3 和 o4-mini:基準性能

o3 和 o4-mini 模型在一系列標準基準測試中展現出了出色的能力。

  • SWE-Lancer:這兩個模型的高變異體在這個編碼基準測試中表現出色,令它們的前輩相形見絀。
  • 經過 SWE-Bench 驗證(軟件工程):o3 取得了 69.1%的成績,而 o4-mini 緊隨其后,達到了 68.1%。這兩個模型在表現上明顯優于以往的模型,如 o3-mini(49.3%)和像 Claude 3.7 Sonnet63.7%
  • Aider Polyglot(代碼編輯):這兩個模型在代碼編輯基準測試中被證明是 OpenAI 中最佳的,創下了新紀錄。

  • AIME 2025 (數學):o4-mini 通過配備 Python 解釋器創下了新的基準,得分為 99.5%,而 o3 緊隨其后,得分為 98.4%。
  • Codeforces (競技編程): o4-mini 實現了 2719 的 Elo 評分,反映了其在競技編程場景中的先進問題解決能力。與此同時,o3 得分為 2706,仍遠遠優于其他模型的表現。
  • GPQA Diamond (PhD 級):o3 在不使用任何工具的情況下,通過在該基準測試上達到 87.7%的準確性,展示了先進的科學推理能力。o4-mini 緊隨其后,準確率為 81.4%。

  • MMMU(大規模多模態多任務理解):o3 在這項基準測試中表現出色,展示出其處理涉及文本和視覺數據的多樣且復雜任務的能力。

  • Humanity’s Last Exam :在跨領域專家級推理能力的基準測試中,o3 的準確度達到了 26.6%,勝過所有其他 OpenAI 模型。與此同時,o4-mini 明顯優于其前身 o3-mini。

o3 和 o4-mini 的應用

o3 和 o4-mini 的增強推理、工具使用和視覺能力解鎖了各種潛在應用,包括:

  • 復雜數據分析和報告: 通過編寫和執行 Python 代碼分析數據集,從網絡獲取補充信息,并生成摘要或可視化。
  • 高級科學研究:通過解釋復雜圖表、分析實驗數據、搜索文獻,并可能提出新的研究方向,來協助研究人員。
  • 高級編碼和軟件工程:調試復雜的代碼,基于視覺模擬或圖表生成代碼,理解存儲庫結構,并執行多步驟的軟件開發任務。
  • 教育和輔導:使用逐步推理解釋復雜的 STEM 概念,解釋教科書圖表或手寫筆記,并提供互動問題解決協助。
  • 多模態內容創作與理解:生成圖像的詳細描述或分析,創建需要整合文本和視覺元素的內容,并根據視覺證據回答問題。
  • 商業智能與策略:使用實時網絡數據分析市場趨勢,制定預測,并基于綜合信息來源創建戰略計劃。
  • 創新問題解決:解決需要結合不同類型信息和推理步驟的開放性挑戰。

結論

OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進步,特別是在推理和多模態理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結合,為人工智能的智能和效用設定了新標準。在各種基準測試中的出色表現,凸顯了在處理軟件工程以及科學研究等領域的復雜任務的潛力。

o3 即使面對最苛刻任務也展現出高性能的一面,而o4-mini 則展現了能力、速度和成本的一種平衡。無論如何,兩個模型都擁有自主能力,體現了人工智能的先進程度。隨著人工智能的不斷發展,這種創新模型將為更復雜和多樣化的應用鋪平道路,使我們更接近實現 AGI(通用人工智能)。

譯者介紹

崔皓,51CTO社區編輯,資深架構師,擁有18年的軟件開發和架構經驗,10年分布式架構經驗。

原文標題:o3 and o4-mini: OpenAI’s Most Advanced Reasoning Models,作者:K.C. Sabreena Basheer

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2024-12-24 16:15:04

2025-04-18 11:18:51

2025-04-07 07:18:48

2024-09-24 11:01:03

2025-08-06 07:42:26

2025-04-21 16:25:58

OpenAI測試模型

2025-08-06 09:02:31

2025-04-17 06:10:57

2025-05-13 08:24:14

2025-06-03 08:26:00

2025-02-08 17:00:11

2025-06-11 09:19:46

2025-04-17 08:59:59

2025-01-20 19:52:50

2025-04-17 06:36:29

2025-05-28 00:00:00

2025-04-25 10:26:19

2025-02-18 08:15:03

2025-06-11 08:56:54

2025-06-08 14:15:42

點贊
收藏

51CTO技術棧公眾號

久久久99精品免费观看| 亚洲毛片av| 日韩欧美黄色影院| 国产精品入口芒果| 精品av中文字幕在线毛片| 九九**精品视频免费播放| 欧美激情第99页| 我想看黄色大片| 99a精品视频在线观看| 色诱亚洲精品久久久久久| 免费观看中文字幕| 日韩欧美在线观看一区二区| 国精产品一区一区三区mba桃花 | 日本不良网站在线观看| 欧美激情一区二区三区不卡| 国产精品二区三区| 国产成人自拍偷拍| 一区二区三区四区五区精品视频| 日韩最新免费不卡| aaaaaav| 亚洲狼人综合| 一本色道亚洲精品aⅴ| 日韩欧美一级在线| 91在线看黄| 久久中文字幕电影| 超碰97在线人人| 中文字幕人妻一区二区三区视频| 夜夜爽av福利精品导航| 欧美大码xxxx| 登山的目的在线| 欧美美女在线| 亚洲精品国产拍免费91在线| 免费国偷自产拍精品视频| 欧美va在线| 欧美日韩在线视频首页| 欧美在线观看视频免费| 国产在线一区二区视频| 国产精品国产成人国产三级| 美日韩免费视频| www.色婷婷.com| 久久99精品视频| 日本精品久久电影| 日韩av免费网址| 在线日韩视频| 欧美黑人巨大精品一区二区| 成年人av电影| 亚洲成av人片一区二区密柚| 色综合亚洲精品激情狠狠| 中文字幕一区二区三区人妻不卡| 国偷自产av一区二区三区| 日韩精品一区二区三区视频播放 | 久久手机精品视频| 任我爽在线视频| 我不卡手机影院| 久久精品国产亚洲| 欧美第一页在线观看| 香港欧美日韩三级黄色一级电影网站| 色老头一区二区三区| 成人性生交大片免费看无遮挡aⅴ| 九九综合久久| 这里只有精品视频| 日韩av网站在线播放| 天天综合国产| 美女性感视频久久久| 午夜精品福利在线视频| 午夜久久免费观看| 久久69精品久久久久久久电影好| 欧美精品入口蜜桃| 激情欧美亚洲| 国产91精品久久久久久久| 在线观看日韩中文字幕| 日韩高清不卡一区| 成人免费视频在线观看超级碰| 国产黄色美女视频| 成人一区二区三区视频在线观看| 久久国产精品免费一区| 久热av在线| 中文字幕在线观看不卡视频| 少妇高潮大叫好爽喷水| 国产盗摄一区二区| 色狠狠桃花综合| 国产女同无遮挡互慰高潮91| 一区中文字幕| 亚洲人午夜精品| 国产色无码精品视频国产| 黄色欧美成人| 国产精品a久久久久久| a毛片在线免费观看| 99re66热这里只有精品3直播| 日韩精品一线二线三线| 少女频道在线观看高清| 日韩欧美福利视频| 在线黄色免费看| 国产乱人伦精品一区| 一本色道久久综合狠狠躁篇怎么玩| 亚洲欧美精品久久| 国产午夜久久| 成人午夜在线影院| 日韩福利一区二区| 亚洲三级久久久| 日韩在线一级片| 久久九九精品视频| 亚洲乱码国产乱码精品精天堂| 男人晚上看的视频| 欧美一级一区| 成人三级在线| 在线a免费看| 欧美日韩免费在线| 亚洲女人在线观看| 精品美女久久| 91精品成人久久| 国产喷水吹潮视频www| 91麻豆免费看片| www.激情网| 国产黄色精品| 亚洲美腿欧美激情另类| 久草视频在线免费看| 免费成人在线影院| 蜜桃免费一区二区三区| av电影免费在线看| 欧美一区二区福利视频| 粉嫩精品久久99综合一区| 在线视频亚洲| 国产经典一区二区三区| 国产在线观看a视频| 欧美中文字幕一区| 欧美高清性xxxx| 尤物精品在线| 成人精品水蜜桃| 好操啊在线观看免费视频| 欧美网站大全在线观看| 一级黄色片大全| 宅男噜噜噜66国产日韩在线观看| 444亚洲人体| 天堂а√在线官网| 欧美午夜精品一区二区蜜桃| a毛片毛片av永久免费| 一本色道久久综合| 国产一区二区三区高清| 免费电影视频在线看| 日韩精品中文字幕一区二区三区| 日日噜噜夜夜狠狠久久波多野| 久久99日本精品| 中文字幕不卡每日更新1区2区| 色猫猫成人app| 在线免费观看羞羞视频一区二区| 亚洲图片欧美日韩| 国产人伦精品一区二区| 日本成人黄色网| 精品亚洲成人| 国产欧美一区二区三区在线看| 91在线不卡| 欧美挠脚心视频网站| 成人信息集中地| 国内精品久久久久影院一蜜桃| 桥本有菜av在线| 精品999日本久久久影院| 欧美精品一区在线播放| 亚洲精品国产手机| 亚洲成精国产精品女| 国产中文字幕一区二区| 久久激情综合| 午夜老司机精品| 亚洲男男av| 欧美高清性猛交| 亚洲人视频在线观看| 一本高清dvd不卡在线观看| 国产一二三四区在线| 久久99精品久久久久| av动漫在线播放| 黑人久久a级毛片免费观看| 97香蕉超级碰碰久久免费软件 | 国产一区免费看| 欧美激情一区不卡| 超级砰砰砰97免费观看最新一期 | 1769国内精品视频在线播放| 欧美白人做受xxxx视频| 欧美日韩大陆一区二区| 欧美日韩一级在线观看| 97精品国产97久久久久久久久久久久| 日韩 欧美 高清| 午夜欧美在线| 久久99精品久久久久久青青日本| 123成人网| 欧美极品第一页| 国产系列在线观看| 日韩一区二区免费在线观看| 欧美不卡视频在线观看| 欧美国产日韩亚洲一区| 免费黄色av网址| 丝袜脚交一区二区| 一区二区三区三区在线| 国语一区二区三区| 国产精自产拍久久久久久| 男人天堂亚洲天堂| 国产一区二区三区在线免费观看| 99在线观看免费| 欧美体内谢she精2性欧美| 久久国产高清视频| 91亚洲大成网污www| 三级av免费观看| 国产欧美午夜| 中国老女人av| 成人在线免费视频观看| 国产一区二区三区高清| 99精品国产九九国产精品| 欧美一级bbbbb性bbbb喷潮片| 久久bbxx| 国产一区二区三区18| 人妻精品无码一区二区| 欧美男男青年gay1069videost| 欧美三级韩国三级日本三斤在线观看 | 亚洲xxxx在线| 国产精品第一国产精品| 奇米成人av国产一区二区三区| 91亚洲天堂| 国产一区二区三区18| 外国精品视频在线观看| 99久久99久久精品国产片果冻| 青青草久久伊人| 久久久国产精品一区二区中文| 91黄色在线看| 大片网站久久| 日韩av大全| 亚洲欧美校园春色| 精品国产一二| 国产suv精品一区| 亚洲自拍小视频免费观看| 成人自拍视频网| 国产成人综合一区二区三区| 黄色漫画在线免费看| 欧美大尺度在线观看| 美女羞羞视频在线观看| 中文字幕国产亚洲| 国产在线超碰| 亚洲丝袜在线视频| 免费黄色在线视频网站| 亚洲激情免费观看| 人妻无码中文字幕免费视频蜜桃| 日韩无一区二区| 99热这里只有精品3| 欧美一区二区三区在线观看视频 | 精品极品在线| 午夜精品三级视频福利| av在线不卡免费| 欧美激情精品久久久久久变态| 污网站在线免费看| 欧美成人黄色小视频| 2020国产在线视频| 精品中文字幕乱| 污污的视频在线观看| 久久久久九九九九| av免费不卡国产观看| 538国产精品视频一区二区| 日韩精品美女| 国产精品电影久久久久电影网| 成人av色网站| 成人性生交xxxxx网站| 日韩一区二区三区色| 波多野结衣精品久久| 国产福利一区二区精品秒拍| 精品九九九九| 久久91麻豆精品一区| 水蜜桃亚洲精品| 91精品国产自产拍在线观看蜜| 国产在线拍揄自揄拍无码| 国产精品草草| 免费无码av片在线观看| 奇米888四色在线精品| 亚洲色图偷拍视频| 丰满少妇久久久久久久| 插我舔内射18免费视频| wwwwww.欧美系列| 天天操天天舔天天射| 亚洲黄色小说网站| 你懂的国产视频| 欧美日韩一级片网站| 精品人妻一区二区三区蜜桃 | 亚洲大片av| 国语对白做受xxxxx在线中国| 九色综合狠狠综合久久| 国产51自产区| 久久久亚洲精品石原莉奈| 久久噜噜色综合一区二区| 亚洲一区二区三区在线看 | 3d动漫精品啪啪1区2区免费 | 99久久久无码国产精品| 人妻熟人中文字幕一区二区| 一区二区三区日本| 亚洲精品中文字幕乱码三区91| 欧美裸体bbwbbwbbw| 日本xxxxxwwwww| 日韩中文第一页| av中文字幕电影在线看| 成人xvideos免费视频| 亚洲成人一品| 久久av秘一区二区三区| 嫩草成人www欧美| 国产精欧美一区二区三区白种人| 2021国产精品久久精品| 麻豆changesxxx国产| 在线观看视频91| 老牛影视av牛牛影视av| 最近2019中文字幕一页二页| 黄色18在线观看| 亚洲自拍高清视频网站| 不卡一区综合视频| 婷婷五月综合缴情在线视频| 国产美女精品在线| 亚洲精品成人无码| 香蕉乱码成人久久天堂爱免费| 一区二区三区www污污污网站| 日韩精品中文字幕久久臀| 菠萝菠萝蜜在线视频免费观看| 国产成人久久精品| 盗摄系列偷拍视频精品tp| 国产精品12p| 日本欧美在线观看| 亚洲国产欧美视频| 婷婷丁香激情综合| 成人免费一级视频| 欧美xxxx18国产| 欧美videos粗暴| 日韩精品久久久毛片一区二区| 亚洲每日更新| 一级黄色片毛片| 一区二区不卡在线视频 午夜欧美不卡在| 中文字幕+乱码+中文乱码91| 亚洲欧美日韩国产成人| 在线电影欧美日韩一区二区私密| 一级日韩一级欧美| 亚洲色图狂野欧美| 在线毛片观看| 精品免费二区三区三区高中清不卡| 伊人情人综合网| 亚洲va在线va天堂va偷拍| 欧美激情一区二区三区四区| 看黄色一级大片| 亚洲色无码播放| 日韩在线影院| 欧美性大战久久久久| 免费精品视频| 大又大又粗又硬又爽少妇毛片 | 久久久久久久精| 国产69精品久久久久久久久久| 亚洲国产精品久久精品怡红院| segui88久久综合| 国产亚洲福利社区| 日韩一区二区免费看| 给我免费观看片在线电影的| 亚欧色一区w666天堂| 香蕉久久国产av一区二区| 91成人天堂久久成人| 婷婷激情久久| 日韩毛片在线免费看| 日本一区二区三区四区| 亚洲国产无线乱码在线观看| 最近中文字幕日韩精品| 四虎影视精品永久在线观看| 99热一区二区三区| 国产大片一区二区| 成年人免费看毛片| 精品亚洲国产视频| 成人黄色免费短视频| 亚洲美女网站18| 国产乱子轮精品视频| 久久国产在线观看| 精品亚洲一区二区三区在线播放| 欧美动物xxx| 亚洲一区二区四区| 懂色av一区二区三区免费看| 在线免费观看毛片| 亚洲国产精品99久久| 日韩激情电影免费看| 婷婷久久青草热一区二区| 国产一区二区影院| 精品99在线观看| 亚洲美女黄色片| 综合久久伊人| 国产 福利 在线| |精品福利一区二区三区| 亚洲精品一区二区三区蜜桃| 日本国产精品视频| 希岛爱理一区二区三区| 亚洲国产果冻传媒av在线观看| 在线观看国产日韩| 日本一级理论片在线大全| 欧美大香线蕉线伊人久久国产精品| 美女尤物国产一区| 日韩精品无码一区二区| 中文字幕一区二区三区电影| 成人h动漫免费观看网站| 精品一卡二卡三卡| 一区二区三区av电影| 三级av在线播放| 99国产在线观看| 美女性感视频久久| 性无码专区无码| 免费av一区二区| 精品国产中文字幕第一页|