精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

實測o3/o4-mini:3分鐘解決歐拉問題,OpenAI最強模型名副其實!

人工智能
使用基于結果的強化學習可能會導致模型盲目猜測,并且某些行為(如模擬代碼工具)可能會在某些任務上提高準確性,但在其他任務上造成混淆。

號稱“OpenAI迄今為止最強模型”,o3/o4-mini真實能力究竟如何?

就在發布后的幾小時內,網友們的第一波實測已新鮮出爐。

最強推理模型o3,即使遇上首位全職提示詞工程師Riley Goodside的“刻意刁難”,也順利過關:

圖片圖片

可以看到,面對藏在一堆玩具里的手繪圖表,它也能通過圖像識別和推理能力正確解答。

圖片圖片

而o4-mini作為一款專為快速、經濟高效的推理而優化的小模型,在數學能力方面堪稱強悍——

用時2分55秒,解決了最新的歐拉問題,并且該網友強調:

至今只有15個人能夠在30分鐘內解決它。

圖片圖片

與此同時,OpenAI內部技術人員也表示,o3的出現讓他第一次萌生了將模型稱為通用人工智能(AGI)的念頭。

圖片圖片

眼見氣氛都烘托到這兒了,那我們還不得趕緊看看更多實測效果(doge)。

網友實測o3/o4-mini

首次帶圖深度思考

首先,官方提到,o3和o4-mini是OpenAI首次能將上傳圖像集成到思維鏈中的模型——

這意味著,它們可以基于圖像展開思考。

比如有人隨手上傳一張照片,讓o3來判斷拍攝時間和地點,而且要求能具體到地圖上的某一個點。

結果令這位小哥驚訝的是,其答案和實際情況之間的誤差非常?。?/p>

地點僅相差1000英尺(約305米),時間僅相差2分鐘。

圖片圖片

更有意思的是,假如一張圖上的小字看不清,通過扒思維鏈還能發現——o3甚至會自己“偷偷放大”。

圖片圖片

難怪在針對復雜多模態謎題的EnigmaEva測試基準中,o3能拿下SOTA。

圖片圖片

不過值得注意的是,據自稱OpenAI員工的網友爆料,雖然基準測試結果存在差異,但o4-mini實際上是比o3更好的視覺模型。

該網友甚至直接建議大家:

在任何涉及視覺的任務中使用o4-mini-high而不是o3。

圖片圖片

巧合的是,在大多需要計算復雜數學題的帶圖測試中,大家竟默契選擇了o4-mini而非o3。

除了一開頭提到的解答歐拉問題的例子,o4-mini也被用來解讀技術圖紙。

該網友表示,對于這種大多AI都很難搞定的難題,它一次就成功了:

o4 mini(high)能夠分析該部件的尺寸并準確計算出正確體積。

圖片圖片

編程能力

其次,兩個新模型這次在編程能力上都有一定程度升級,測試結果表明:

其中o3 High取代谷歌Gemini-2.5,拿下編程第一。

圖片圖片

順帶OpenAI這次還開源了一個本地代碼智能體Codex CLI——

它是一種聊天驅動的開發方式 ,能夠理解并執行本地代碼庫,兼容所有OpenAI模型,包括剛剛發布的o3、o4-mini和GPT-4.1。

賓大沃頓商學院教授Ethan Mollick,這次直接利用o3的推理+編程能力制作了一個小短片:

圖片圖片

從完整制作過程來看,這里還同步考察了o3調用各項工具的能力。

  • 第一步:理解需求;
  • 第二步:使用編程庫生成幀,并將這些幀組合成一個視頻文件;
  • 第三步:使用Python的PIL庫(Pillow)來處理圖像,使用imageio庫來創建視頻文件;
  • 第四步:生成幀;
  • ……

圖片圖片

最后我們也簡單實測了一把,重點考察一下o3和o4-mini的推理能力。

比如讓它們分別幫忙看看“手相”,o3的結果如下:

圖片圖片

o4-mini:

圖片圖片

可以看到,兩個模型對人物性格特征的判斷大致相似,不過o3還額外給了一些提示建議。

p.s. 原圖為AI生成,大家感興趣可以自己試試~

One More Thing

有趣的是,有網友在實測o3的過程中還發現了一個現象:

o系列模型比GPT系列模型更容易錯誤地聲稱使用了代碼工具

圖片圖片

為此他們還專門寫了一篇博客,其中揭露了:o3經常編造其為滿足用戶請求而采取的行動,并在用戶質疑時詳細地為這些編造進行辯解。

圖片圖片

就像下面這樣,模型聲稱它在筆記本電腦上運行了實際并不存在的代碼。

圖片圖片

而且通過進一步研究發現,這些偽造行為包括下面這些:

1、錯誤地聲稱執行代碼,聲稱“我本地運行了這個”或“運行它產生了”后面跟著特定輸出,而模型沒有能力執行Python或其他編程語言;

2、編造詳細的計算結果,包括特定的數值、統計數據和加密哈希值,表現為它們是實際執行輸出而不是估計或示例;

3、……

圖片圖片

同時,他們也初步提出了造成這一現象的可能原因:

首先就是模型幻覺和獎勵黑客攻擊,他們表示這些問題在o系列模型中尤為普遍。

另外,使用基于結果的強化學習可能會導致模型盲目猜測,并且某些行為(如模擬代碼工具)可能會在某些任務上提高準確性,但在其他任務上造成混淆。

最后就是,o系列模型在處理連續對話時有一個限制,它們無法訪問之前的推理過程,這可能導致模型在回答問題時出現不準確或不一致的情況。

圖片圖片

順便一提,即日起,ChatGPT的Plus、Pro會員以及Team用戶,都能直接體驗o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high則已悄然下架。

你怎么看OpenAI這次發布的o3和o4-mini?

博客:https://transluce.org/investigating-o3-truthfulness

參考鏈接:

[1]https://x.com/goodside/status/1912604138518851990

[2]https://x.com/johnohallman/status/1912608446274498747

[3]https://x.com/bio_bootloader/status/1912566454823870801

[4]https://x.com/TransluceAI/status/1912552046269771985


責任編輯:武曉燕 來源: 量子位
相關推薦

2025-04-23 08:30:05

2025-04-21 16:25:58

OpenAI測試模型

2024-12-24 16:15:04

2025-04-07 07:18:48

2025-04-17 06:10:57

2025-04-17 08:59:59

2025-05-13 08:24:14

2025-04-21 08:22:25

2025-04-17 07:23:10

2025-04-17 14:09:52

OpenAI模型編程

2025-05-28 00:00:00

2025-04-17 06:36:29

2025-08-06 07:42:26

2025-02-08 17:00:11

2025-04-25 10:26:19

2025-05-15 08:52:00

2025-06-13 08:11:11

2025-09-30 09:10:09

Mini-o3OpenAI o3模型

2025-05-14 10:09:12

2025-02-07 09:05:36

點贊
收藏

51CTO技術棧公眾號

成熟老妇女视频| 成人欧美一区二区三区黑人免费| 成人手机在线免费视频| 在线人成日本视频| 久久久久久久综合色一本| 国产精品成人久久久久| 91n在线视频| 中文字幕一区二区三区四区久久 | 懂色av粉嫩av浪潮av| 亚洲综合资源| 亚洲国产美国国产综合一区二区| 蜜桃在线一区二区三区精品| a片在线免费观看| 欧美激情1区| 精品中文字幕久久久久久| 亚洲欧美自偷自拍另类| 欧美性猛片xxxxx免费中国 | 成人免费网站黄| 欧美成人一二区| 亚洲国产精品久久久男人的天堂| 日韩av大全| 国产suv精品一区二区69| 99精品免费网| zzjj国产精品一区二区| 精品国产av色一区二区深夜久久| 欧美另类激情| 欧美日韩中文字幕综合视频 | 99综合精品| 日韩中文字幕亚洲| 欧美老熟妇乱大交xxxxx| 日韩欧美一级| 欧美日韩三级在线| 日韩av在线第一页| 青青草原av在线| 国产精品国产精品国产专区不片| 国产成人成网站在线播放青青| 最近国语视频在线观看免费播放| 亚洲激情自拍| 欧美二区在线播放| 欧美另类videoxo高潮| 高清精品xnxxcom| 欧美一卡2卡三卡4卡5免费| 动漫av网站免费观看| 中文字幕中文字幕在线十八区| 欧美激情在线免费观看| 欧美激情一区二区三区在线视频| 亚洲欧美另类日韩| 国产福利精品一区二区| 成人免费视频97| 欧美性受xxx黑人xyx性爽| 国产日韩精品视频一区二区三区 | 欧美一区二区视频网站| 激情视频免费网站| 少妇一区视频| 日韩欧美在线看| 欧美黄色免费影院| 日本在线播放一二三区| 亚洲成人综合视频| 国产96在线 | 亚洲| 欧美人与性动交α欧美精品济南到| 国产精品麻豆视频| 亚洲精品一区二| 91在线视频| 国产欧美日韩综合| 亚洲精蜜桃久在线| 日本中文字幕在线视频| 国产精品电影一区二区| 一区二区三区国| 在线免费看黄| 国产精品不卡在线观看| 中文字幕欧美人与畜| 日本电影全部在线观看网站视频| 中文字幕二三区不卡| 杨幂一区欧美专区| 黄色片免费在线观看| 亚洲欧美另类久久久精品| 欧美与动交zoz0z| 伊人精品影院| 午夜精品久久久久久久久久久| 国产曰肥老太婆无遮挡| av资源中文在线| 欧美性xxxxxxx| 日韩中文字幕免费在线| 国产成人亚洲一区二区三区 | 成人午夜免费在线观看| 99久久伊人久久99| 日本一区二区三区视频在线观看| 超碰免费97在线观看| 中文字幕制服丝袜成人av| 午夜啪啪福利视频| 川上优av中文字幕一区二区| 色诱视频网站一区| 日韩av一卡二卡三卡| 91精品日本| 亚洲欧美制服中文字幕| 日韩三级久久久| 悠悠资源网久久精品| 欧美亚洲伦理www| 亚洲综合网av| 成人免费视频app| 欧洲一区二区日韩在线视频观看免费| 午夜老司机在线观看| 亚洲综合色噜噜狠狠| 久久国产成人精品国产成人亚洲| 成人亚洲网站| 精品国产1区二区| 黄色片网站免费| 66国产精品| 日本精品性网站在线观看| 亚洲一区二区天堂| 99国产精品久久久久| 午夜精品短视频| 丁香花在线高清完整版视频| 色狠狠一区二区| 日本xxxx免费| av永久不卡| 国外成人在线视频| 国产伦一区二区| 久久久久久久av麻豆果冻| 欧洲精品视频在线| yy6080久久伦理一区二区| 精品国产一区二区国模嫣然| 中国特黄一级片| 一本一道久久综合狠狠老精东影业| 国产精品网站视频| 亚洲色图狠狠干| 一区二区三区欧美视频| 网站一区二区三区| 日韩有码中文字幕在线| 色综合久久精品亚洲国产| 最好看的日本字幕mv视频大全| 成人av网站免费| 裸体大乳女做爰69| 国产原创一区| 亚洲一区av在线播放| 精品无码m3u8在线观看| 国模娜娜一区二区三区| 少妇免费毛片久久久久久久久| 91九色在线播放| 日韩欧美你懂的| 国产免费美女视频| 久久国产精品第一页| 日本一区二区三区免费看| 性欧美18xxxhd| 亚洲第一色在线| 国产亚洲精品久久久久久打不开| 久久电影国产免费久久电影| 日产精品久久久一区二区| 欧美大电影免费观看| 日韩成人av在线| 日韩欧美大片在线观看| 成人免费看的视频| www.日本三级| 中文字幕一区二区三区四区久久| 欧美另类交人妖| www.激情五月.com| 亚洲精品视频在线| 韩国三级hd中文字幕有哪些| 91精品国产麻豆国产在线观看| 国产精品视频一区二区三区四| 国产在线观看黄| 日本韩国欧美在线| 日韩视频在线观看免费视频| 日韩黄色在线观看| 亚洲国产一区二区三区在线播 | 美女又爽又黄视频毛茸茸| 99国产精品久久久久久久成人热| 精品无码久久久久久久动漫| 久草在线资源福利站| 亚洲精品国产精品乱码不99按摩 | 91麻豆精品国产91久久久更新时间| 潮喷失禁大喷水aⅴ无码| 久久成人久久鬼色| 五月天激情图片| 成人涩涩网站| 欧美一区在线直播| www.av在线播放| 51精品久久久久久久蜜臀| 在线免费观看亚洲视频| 成人手机电影网| 亚洲精品中文字幕无码蜜桃| 蜜桃国内精品久久久久软件9| 国产精品成人v| 97超碰在线公开在线看免费| 欧美精品一区二区久久久| 国产午夜性春猛交ⅹxxx| 欧美国产日韩一二三区| 日韩高清在线一区二区| 国产欧美三级| 中文字幕人成一区| 伊人精品久久| 国产国语刺激对白av不卡| 麻豆视频网站在线观看| 欧美精品一区二区三区很污很色的| 好吊操这里只有精品| 国产日产精品1区| 香蕉视频xxxx| 欧美一级一区| 99精品一级欧美片免费播放| 日本欧美高清| 91精品久久久久| 日本三级一区| 九九视频直播综合网| 欧美xxx.com| 日韩欧美在线一区二区三区| 波多野结衣视频网站| 亚洲欧洲精品一区二区三区不卡| 午夜不卡久久精品无码免费| 人妖欧美一区二区| 国产在线无码精品| 国产不卡一二三区| 99久久伊人精品影院| 日韩成人高清| 97国产精品视频| caopo在线| 一区二区在线免费视频| 天堂av手机版| 日韩一区二区三区观看| 福利网址在线观看| 亚洲一区二区精品视频| 国产欧美小视频| 久久久久久久久久久久久女国产乱| 日韩精品xxx| 久久97超碰色| 黄色高清无遮挡| 日韩视频精品在线观看| 国产一级片91| 五月天久久777| 西游记1978| 美女精品一区最新中文字幕一区二区三区| 亚洲人成电影网站| 亚洲美女综合网| 91精品国产综合久久香蕉的特点| 久久国产乱子伦精品| 亚洲午夜在线电影| 美女的奶胸大爽爽大片| 国产精品久久久爽爽爽麻豆色哟哟| 日本免费福利视频| 成人福利视频在线看| 原创真实夫妻啪啪av| 九九国产精品视频| 在线免费视频一区| 日韩福利电影在线观看| 任你操这里只有精品| 午夜在线视频观看日韩17c| 东北少妇不带套对白| 欧美体内she精视频在线观看| 综合久久国产| 水蜜桃精品av一区二区| 五月婷婷综合色| 欧美岛国激情| 亚洲第一精品区| 亚洲精品小说| 日韩视频 中文字幕| 欧美福利视频| 日韩a级在线观看| 亚洲三级影院| 亚洲 高清 成人 动漫| 在线一区视频| 国产精品无码专区av在线播放 | 亚洲少妇30p| 日韩成人毛片视频| 亚洲欧美偷拍三级| 九九九免费视频| 亚洲国产精品久久人人爱| 日本熟妇毛茸茸丰满| 亚洲国产中文字幕在线视频综合 | 91国产丝袜在线播放| 中文字幕xxxx| 欧美酷刑日本凌虐凌虐| 国产男男gay体育生网站| 日韩一卡二卡三卡四卡| 国产综合视频在线| 日韩成人性视频| 国产三级视频在线看| 中日韩美女免费视频网址在线观看| 最新真实国产在线视频| 欧美日韩国产123| 欧美freesex| 91九色视频导航| 美女视频亚洲色图| 亚洲成色www久久网站| 久久精品久久久| 久久久久久久久久久99| 日韩福利视频网| 少妇献身老头系列| 国产清纯白嫩初高生在线观看91| 日本黄色录像视频| 婷婷亚洲久悠悠色悠在线播放 | 日韩欧美一卡二卡| 日韩av成人| 成人97在线观看视频| 秋霞伦理一区| 91在线视频九色| 日韩有码中文字幕在线| 国产免费xxx| 久久精品人人| 欧美性猛交xx| 国产偷国产偷精品高清尤物| 1024手机在线视频| 色婷婷激情综合| 亚洲国产精品久久久久爰性色| 亚洲欧美中文字幕| 黄色在线看片| 国产精品一区二区三区成人| 麻豆视频一区| 日韩人妻一区二区三区蜜桃视频| 男女精品视频| 亚洲美女精品视频| 国产精品久久久久久亚洲毛片 | 国产精品久久久久久模特| 鲁一鲁一鲁一鲁一av| www.在线成人| 久久福利小视频| 中文字幕一区不卡| 蜜臀尤物一区二区三区直播| 日韩欧美的一区| 麻豆av电影在线观看| 欧美剧在线观看| 粉嫩一区二区三区| 精品视频一区在线| 中文字幕午夜精品一区二区三区| 国产小视频免费| 日韩不卡一二三区| 亚洲av成人片无码| 日韩美女精品在线| 亚洲av无码精品一区二区| 精品国产亚洲一区二区三区在线观看| 国产福利在线| 8x拔播拔播x8国产精品| 东京久久高清| 国产福利片一区二区| 久久国产主播| 一级少妇精品久久久久久久| xnxx国产精品| 国产精品16p| 7777精品伊人久久久大香线蕉最新版| 国产在线自天天| 91精品国产精品| 美女av一区| 日韩精品免费一区| 激情综合色播五月| 欧美一级特黄高清视频| 在线免费观看不卡av| 国产视频福利在线| 午夜精品免费视频| 国产95亚洲| 美国av在线播放| 久久国产人妖系列| 91香蕉视频污在线观看| 日本高清免费不卡视频| 蜜桃视频在线观看网站| 91福利视频网| 国产精品chinese在线观看| 美女黄色免费看| 国产成人久久精品77777最新版本| 日韩一级片av| 欧美一区二区三区在线观看 | 精品国产美女a久久9999| 视频一区二区在线| 日韩不卡一二三区| 艳妇荡乳欲伦69影片| 在线免费视频一区二区| 91xxx在线观看| 18性欧美xxxⅹ性满足| 亚洲第一福利专区| 成人在线免费观看av| 欧美精彩视频一区二区三区| 欧美亚洲另类小说| 亚洲午夜色婷婷在线| 欧美成人a交片免费看| 欧美中日韩一区二区三区| 久热综合在线亚洲精品| 欧美一区二区三区成人精品| 91福利区一区二区三区| 国产黄色在线| 91在线中文字幕| 国产精品国码视频| 精品人妻一区二区三区香蕉| 欧美午夜电影在线| 亚洲色欧美另类| 成人黄色激情网| 欧美日本一区二区视频在线观看| 在线看黄色的网站| 色综合视频一区二区三区高清| 酒色婷婷桃色成人免费av网| 国产精品久久视频| 亚洲女同另类| 中文字幕一区二区人妻在线不卡| 色系网站成人免费| av免费在线免费| 国产伦精品一区二区三区四区免费| 日韩中文字幕麻豆| www日韩在线| 日韩女优av电影在线观看| 欧美精品日日操| 国产精品h视频| 久久色成人在线| 国产一区二区三区三州| 欧美在线影院在线视频|