精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型追逐星辰大海,GPT和Gemini國際天文奧賽奪金

人工智能 新聞
就在最近,一篇全新發(fā)布的論文中,將國際天文學和天體物理學奧林匹克競賽 (IOAA)?作為基準測試,證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學中取得奧賽金牌成績。

人工智能真是日新月異。早上看到網(wǎng)友的評論:我們已經(jīng) 0 天沒有吸引注意的 AI 領域新突破了。

記得三個月前,OpenAI 官宣了他們的推理模型在國際數(shù)學奧林匹克(IMO)競賽中獲得了金牌。

現(xiàn)在看,大模型不僅僅在數(shù)學領域具有很強的推理泛化能力,也在很多其他科學研究領域中出彩。

值得關注的是,目前頂尖的大模型們都能在各類奧賽中取得令人驚嘆的成績。

就在最近,一篇全新發(fā)布的論文中,將國際天文學和天體物理學奧林匹克競賽 (IOAA) 作為基準測試,證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學中取得奧賽金牌成績。

OpenAI 的總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 轉發(fā)了這項工作,激動的連 GPT 的名字都打錯了:

終有一天,人類走向星辰大海的那一刻,也會有 AI 大模型的痕跡。

  • 論文標題:Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA)
  • 論文鏈接:https://arxiv.org/abs/2510.05016

為什么選擇 IOAA

大型語言模型的出現(xiàn)為人工智能在科學研究,特別是天文學和天體物理學領域帶來了新的可能性。雖然傳統(tǒng)的天文學機器學習方法在模式識別任務(如目標分類和異常檢測)方面表現(xiàn)出色,但它們往往缺乏解決復雜科學問題所需的通用性和復雜推理能力。

當前用于評估天文學領域 LLM 的基準,如 AstroBench 和 Astro-QA,主要側重于簡單的問答形式,通過多項選擇或簡答題來測試天文學知識。這些評估未能評估真實天文學研究中必不可少的復雜推理、創(chuàng)造性問題解決和擴展推導能力。本研究通過引入一個更嚴格、更全面的評估框架來解決這一關鍵差距。

研究人員選擇 2022 年至 2025 年的國際天文奧林匹克競賽(IOAA)試題作為主要基準。這一選擇是基于三個關鍵因素:

首先,不同于 AstroMLab 的 AstroBench  和 Astro-QA 這類主要依賴選擇題、簡答題或判斷題來檢測天文知識的現(xiàn)有基準,IOAA 試題具備更高的生態(tài)有效性,因為其考查的是實際天文研究中所需的復雜推理、創(chuàng)新性問題求解以及多步推導能力。

其次,根據(jù)官方大綱 ,IOAA 題目覆蓋了廣泛的天文主題,包括宇宙學、球面三角、恒星天體物理、天體力學、光度測量以及觀測儀器學,從而保證了評測的全面性。

最后,IOAA 將理論物理、觀測約束以及真實天文數(shù)據(jù)與數(shù)學推導結合在一起,提供了一種區(qū)別于 IMO、IPhO 和 IOI 等其他奧賽的新型評估方式,可用于檢驗 LLM 在科學問題求解方面的綜合能力。

評估重點關注 IOAA 的兩個組成部分:理論問題(共 49 個)和數(shù)據(jù)分析問題(共 8 個)。理論問題分為第一類(幾何 / 空間,需要天球幾何和球面三角學)和第二類(物理 / 數(shù)學,側重天體物理計算,無需幾何可視化)。由于 LLM 的數(shù)字性質,觀測部分被排除在外。

金牌結果

不同難度類別下,LLM 在 IOAA 理論題與數(shù)據(jù)分析題中的表現(xiàn)。所有分數(shù)均為相對于總分的標準化百分比。

理論考試

如表所示,GPT-5 和 Gemini 2.5 Pro 在理論考試中表現(xiàn)最為突出,比分領先其他模型 7~25 個百分點。具體來說,GPT-5 在 2022 年(93.0%)、2023 年(89.6%)和 2025 年(86.8%)中取得最高分,而 Gemini 2.5 Pro 則在 2024 年以 83.0% 位列第一。

盡管表現(xiàn)整體強勢,但我們注意到 GPT-5 在難題上的表現(xiàn)反而優(yōu)于簡單題與中等難度題。我們的分析顯示,這種看似反常的波動主要由三方面因素造成:

1. 每個難度等級的問題數(shù)量較少,導致模型表現(xiàn)的自然波動。簡單題僅有 10 題,中等難度有 11 題,總分分別約為 185 分和 151 分,而總分為 1200 分,因此僅少量失誤就會顯著影響該難度區(qū)間的得分比例。

2. GPT-5 在 2024 年試題中出現(xiàn)了多次關鍵性錯誤,其中很大一部分集中在需要幾何推理與空間想象的問題(見第 3.2 節(jié))。

3. GPT-5 偶爾會在天體物理概念題上出錯。例如,在 2024 年試題的第 9 題(歸為簡單題)中,GPT-5 因一次概念性錯誤疊加一次計算錯誤丟失了 18 分,而這相當于簡單題總分的近 10%。

其他模型也展現(xiàn)出一定競爭力:OpenAI o3 總體得分為 77.5%,并穩(wěn)定領先 Claude 系列 13~17 個百分點,其中 Claude Opus 4.1 得分為 64.7%,Claude Sonnet 4 為 60.6%。此外,它們的表現(xiàn)均隨著難度提升而下降。盡管這三款模型在 AstroMLab 這類更簡單的多選題基準上表現(xiàn)接近甚至亮眼,我們的評測結果揭示了在復雜問題求解上仍存在顯著能力差異。該結果提示:要真正評估 LLM 在天文學領域的科研潛力,必須超越知識回憶型任務,構建更全面的能力評估框架。

數(shù)據(jù)分析考試

雖然 LLM 在理論考試中接近頂尖人類水平,但數(shù)據(jù)分析考試更能揭示其細粒度的能力結構與局限。GPT-5 在數(shù)據(jù)分析部分取得了 88.5% 的平均分,反而高于其理論考試表現(xiàn)(84.2%)。這種提升與其他模型形成鮮明對比 —— 其他 LLM 的數(shù)據(jù)分析得分普遍比理論試題下降了 10~15 個百分點。

這種分化主要來自數(shù)據(jù)分析試題高度依賴圖像閱讀、曲線理解與數(shù)據(jù)可視化推理的特點。GPT-5 擁有更強的多模態(tài)理解能力,在圖像解析和繪圖推理錯誤率方面顯著更低,這直接支撐了其優(yōu)勢表現(xiàn)。

為了進一步推動 LLM 在天體物理領域向科研級智能體邁進,我們的結果強調:除了整體性評估外,還迫切需要具有生態(tài)效度的、多模態(tài)數(shù)據(jù)分析基準來全面檢驗模型在真實科研流程中的問題求解能力。

對比人類成績

為更好地理解 LLM 的表現(xiàn),我們將其得分與 IOAA 的獎牌評定標準下的人類參賽者成績進行比較。具體而言,獎牌依據(jù)與中位數(shù)成績的比值來頒發(fā)(中位數(shù)按理論、數(shù)據(jù)分析與觀測三部分成績之和計算):若得分在中位數(shù)的 100%–130% 之間為銅牌,130%–160% 為銀牌,高于 160% 則為金牌。由于我們的評測范圍不包括觀測(observational)試題,因此我們分別根據(jù)理論考試與數(shù)據(jù)分析考試計算了對應的獎牌門檻。

大多數(shù) LLM 的表現(xiàn)均超過金牌門檻。唯一例外是 Claude Sonnet 4,在 2023 年考試中僅獲銀牌。尤其值得注意的是,GPT-5 在 2022、2023 與 2025 年的表現(xiàn)優(yōu)于當屆 IOAA 的最佳學生,而 Gemini 2.5 Pro 在 2022 與 2023 年也達到相同水平。

LLM 與人類參賽者在 IOAA 理論考試(2022–2025)中的表現(xiàn)對比。

LLM 與人類參賽者在 IOAA 數(shù)據(jù)分析考試(2022–2025)中的表現(xiàn)對比。

IOAA 理論考試中不同題目類別下的模型表現(xiàn)。類別 I 為幾何 / 空間類問題,類別 II 為物理 / 數(shù)學類問題。所有分數(shù)均以百分比形式表示。

錯誤分析

在理論考試中,大型語言模型在第二類(物理 / 數(shù)學)問題上的表現(xiàn)(67-91% 的準確率)明顯優(yōu)于第一類(幾何 / 空間)問題(49-78% 的準確率),性能差異為 15-26 個百分點。

最普遍的錯誤類型是概念性錯誤,反映了不正確的處理方法、公式誤用和推理缺陷。這表明在實現(xiàn)深刻的物理理解方面存在根本性挑戰(zhàn)。幾何或空間推理是第二大錯誤來源,模型在球面三角學、計時系統(tǒng)和 3D 可視化方面尤其吃力。

在數(shù)據(jù)分析考試中,錯誤在不同類別中分布更為均勻。主要的故障模式包括繪圖和圖表 / 圖像閱讀,這在 OpenAI o3 和 Claude 模型中尤為突出。由于對大型數(shù)據(jù)集進行大量計算,計算錯誤比理論考試中更常見。

按錯誤類型劃分的丟分分布:(a)IOAA 理論考試 2022–2025;(b)IOAA 數(shù)據(jù)分析考試 2022–2025。

更多信息,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-13 09:13:00

2021-11-10 14:48:21

深信服網(wǎng)絡安全數(shù)據(jù)

2025-10-27 08:35:00

2025-07-17 10:47:33

2025-11-19 08:10:51

2021-03-16 14:16:03

模型人工智能深度學習

2023-12-09 14:30:50

2024-05-20 15:40:00

AI數(shù)學

2023-12-24 13:56:37

2024-11-12 09:14:52

2022-11-07 10:25:12

華為系統(tǒng)

2018-08-27 14:52:27

云桌面銳捷網(wǎng)絡

2021-12-21 14:24:47

SUSESAP

2025-08-08 04:11:00

GPT-OSS大模型算法

2025-04-07 09:52:00

AI機器人智能

2025-07-31 06:45:00

大模型LLMOpenAI

2025-07-21 09:00:00

2023-12-20 15:32:02

模型數(shù)據(jù)

2025-07-23 10:01:56

點贊
收藏

51CTO技術棧公眾號

日韩伦理精品| 午夜久久久久久久久久| 精品久久久久久久久久久aⅴ| 日本道在线观看一区二区| 亚洲精品9999| 99久久精品国产色欲| 一区二区高清| 日韩中文字幕在线看| 波多野结衣办公室双飞| 成人做爰视频www网站小优视频| 国产精品三级视频| 国产高清精品一区二区| 探花国产精品一区二区| 亚洲精品a级片| 亚洲免费成人av电影| 在线播放黄色av| 手机在线观看av| 亚洲欧美日韩国产手机在线| 欧美精品一区在线| www.国产麻豆| 毛片av一区二区| 国语对白做受69| 三上悠亚在线观看视频| 私拍精品福利视频在线一区| 4hu四虎永久在线影院成人| 日韩精品综合在线| 日本暖暖在线视频| 99国产精品99久久久久久| 成人xvideos免费视频| 极品国产91在线网站| 国内精品福利| 久久影视电视剧免费网站| 国产精品毛片一区二区| 国产精品xxxav免费视频| 欧美精品视频www在线观看| 99久久久无码国产精品6| 久久www人成免费看片中文| 国产精品久久久久久一区二区三区 | 成人av在线一区二区| 91美女高潮出水| 在线观看视频中文字幕| 久久亚洲风情| 欧洲成人在线观看| 国产情侣在线视频| 欧美区国产区| 欧美富婆性猛交| 精品国产欧美日韩不卡在线观看 | 在线日韩精品视频| 国产男男chinese网站| 欧美一级全黄| 亚洲黄页视频免费观看| 欧美丰满熟妇bbb久久久| 秋霞影院一区| 精品国产一区二区三区av性色| 一级 黄 色 片一| 久久av偷拍| 日韩欧美在线123| 又黄又爽又色的视频| 精品视频国内| 欧美大片一区二区三区| 91人人澡人人爽| 国产美女撒尿一区二区| 日韩成人高清在线| 亚洲自拍偷拍一区二区| 国产精品午夜一区二区三区| 亚洲欧美日韩一区在线| 亚洲精品国产一区黑色丝袜| 欧美亚洲高清| 日韩在线视频国产| 国产天堂av在线| 欧美涩涩视频| 97视频免费在线观看| 久久国产黄色片| 久久综合中文| 成人国产精品av| 精品毛片一区二区三区| 波多野结衣一区二区三区| 久久国产精品一区二区三区| 国产在线中文字幕| 自拍偷在线精品自拍偷无码专区| 国产一级黄色录像片| 免费看电影在线| 色婷婷综合久久久久中文一区二区 | 国产精品视频免费一区二区三区| 天天摸夜夜添狠狠添婷婷| 久久久不卡影院| 一道本在线观看视频| av不卡高清| 欧美在线你懂的| 欧美人与性动交α欧美精品| 久久a爱视频| 中文字幕亚洲字幕| 国产一级视频在线播放| 视频一区二区三区中文字幕| 亚洲free性xxxx护士hd| 亚洲 欧美 自拍偷拍| 国产精品日日摸夜夜摸av| 97久久国产亚洲精品超碰热 | 在线区一区二视频| 日本美女久久久| 欧美猛男做受videos| 精品视频9999| 一级一级黄色片| 成人激情视频网站| 亚洲免费久久| 蜜桃麻豆av在线| 91精品国产91久久久久久一区二区 | 亚洲欧美日韩久久| 一本久道中文无码字幕av| 亚洲国产高清在线观看| 一区二区在线视频播放| 日韩av综合在线| 极品少妇一区二区三区精品视频| 精品国产乱码久久久久久郑州公司 | 欧美亚洲另类在线| 亚洲第一成年人网站| 国产精品视频麻豆| 黄在线观看网站| 岛国精品一区| 久久99青青精品免费观看| 中文字幕一区二区三区免费看| 成人福利视频网站| 最新av网址在线观看| 国产福利亚洲| 亚洲性生活视频在线观看| 欧美成人aaaaⅴ片在线看| 国内精品免费**视频| 色视频一区二区三区| 欧美少妇精品| 亚洲国产精品美女| 精品无码av在线| 国产乱一区二区| 熟女熟妇伦久久影院毛片一区二区| 欧美电影免费观看| 亚洲精品日韩欧美| 免费观看一区二区三区毛片| 成人在线视频首页| 五月天激情图片| 国产精品美女久久久久| www高清在线视频日韩欧美| 成人黄色免费网| 欧美激情综合五月色丁香 | 国产真实乱对白精彩久久| 视频一区二区三| 天堂久久午夜av| 夜夜躁日日躁狠狠久久88av | 日本女人一区二区三区| 欧洲高清一区二区| 三上悠亚国产精品一区二区三区| 精品伊人久久97| 69视频免费在线观看| 91视频com| av动漫免费看| 欧美在线色图| 91精品久久久久久综合乱菊| 日本网站在线免费观看视频| 6080日韩午夜伦伦午夜伦| 人人澡人人澡人人看| 国产精品综合一区二区三区| 青青视频免费在线| 中文字幕亚洲在线观看| 久久人人爽人人爽人人片av高请| 二区三区在线视频| 精品女厕一区二区三区| 性高潮久久久久久久| 青青草97国产精品免费观看无弹窗版| 亚洲亚洲精品三区日韩精品在线视频| 日韩免费在线电影| 欧美老女人在线视频| 日日夜夜精品免费| 欧美日韩一区二区在线 | 欧美日韩国产麻豆| 成都免费高清电影| 九九九久久久精品| 香港三级日本三级a视频| 久久久亚洲欧洲日产| 国产不卡一区二区在线播放| 欧洲日本在线| 亚洲国产精久久久久久久| 亚洲欧美一区二区三区在线观看| 欧美激情一二三区| 免费看三级黄色片| 久久一二三四| 91免费网站视频| 天堂av一区二区三区在线播放| 国产精品久久激情| 天堂亚洲精品| 亚洲人精选亚洲人成在线| 国产一区二区在线不卡| 五月激情六月综合| 国精产品一区一区| av一区二区三区四区| 中文字幕av专区| 亚洲看片免费| 一区二区三区三区在线| 开心激情综合| 国产中文字幕日韩| 精精国产xxxx视频在线播放| 日韩中文字幕视频在线| 天堂а√在线8种子蜜桃视频| 欧美日韩免费一区二区三区视频| 国语对白一区二区| 国产精品色呦呦| 熟女少妇一区二区三区| 国产一本一道久久香蕉| 天天爽天天爽夜夜爽| 亚洲香蕉网站| 中文字幕一区二区三区5566| 天天躁日日躁狠狠躁欧美| 亚洲最大福利视频网站| 日本在线中文字幕一区二区三区 | 色成人免费网站| 久久久噜噜噜久久| 黄网站免费在线观看| 亚洲人成在线观看| 日本免费不卡| 欧美精品一区二区精品网| 国产一区二区在线播放视频| 欧美中文字幕久久| 国产一级18片视频| 亚洲国产人成综合网站| 侵犯稚嫩小箩莉h文系列小说| 久久精品视频在线看| 亚洲一区二区三区综合| 国产91精品一区二区麻豆网站| 狠狠干狠狠操视频| 日本sm残虐另类| 男人亚洲天堂网| 免费在线日韩av| 日韩在线视频在线观看| 亚洲国产1区| 国产乱子伦精品无码专区| 一区二区影视| 自拍偷拍视频在线| 亚洲成人一区| 欧美性受黑人性爽| 天天影视天天精品| 一区二区三区四区欧美日韩| 久久国产综合| 伊人色综合久久天天五月婷| 四虎成人av| 综合久久国产| 五月天激情综合网| 老司机午夜网站| 亚洲香蕉网站| 久久久999视频| 久久久www| 国产一级特黄a大片免费| 蜜桃久久精品一区二区| 国产三级三级看三级| 久久99久久精品欧美| 日本人69视频| 国产一区二区三区精品欧美日韩一区二区三区 | 91吃瓜在线观看| 91成人在线观看国产| 在线一区av| 国产精品久久久久久婷婷天堂| 成人黄页网站视频| 91视频-88av| jizzjizzjizz欧美| 久久狠狠久久综合桃花| 国产va免费精品观看精品视频| 日韩欧美精品久久| 国产精品99久久精品| 粉嫩av一区二区三区天美传媒 | 特黄特黄一级片| 粉嫩久久99精品久久久久久夜| 日韩精品视频一区二区| 久久精品视频一区| 中文字幕美女视频| 亚洲一区二区三区四区中文字幕| 国产无遮挡又黄又爽在线观看| 欧美性xxxx极品hd欧美风情| 亚洲中文无码av在线| 91麻豆精品久久久久蜜臀| 蜜臀av在线观看| 国产一区二区三区18| 国产在线高清视频| 98精品在线视频| 青青青国产精品| 国产在线欧美日韩| 欧美在线观看视频一区| 男人天堂a在线| 日本va欧美va精品发布| 99精彩视频在线观看免费| 成人在线视频网站| 精品欧美一区二区三区免费观看| 一区二区视频免费在线观看| 日本少妇久久久| 欧美在线制服丝袜| 精品国产99久久久久久宅男i| 亚洲国产成人av在线| 成av人电影在线观看| 欧美激情视频网站| 91欧美精品| 国产精品美女黄网| 色乱码一区二区三区网站| 日韩一级性生活片| 久久99热99| 亚洲永久精品ww.7491进入| **性色生活片久久毛片| 国产一级18片视频| 精品日韩av一区二区| 福利视频在线导航| 高清一区二区三区四区五区| 开心久久婷婷综合中文字幕| 精品一区二区三区自拍图片区| 国产精品99一区二区三区| www.亚洲天堂网| 成人永久看片免费视频天堂| 亚洲色图100p| 色婷婷亚洲综合| 免费国产精品视频| 久久亚洲国产精品成人av秋霞| sis001欧美| 国产日韩一区二区三区| 一区二区三区四区日韩| 欧美一级特黄a| 久久噜噜亚洲综合| 青青操免费在线视频| 欧美大胆人体bbbb| 免费在线你懂的| 国产精品久久久久久久久免费看 | 国产中文字幕精品| 一色道久久88加勒比一| 精品高清一区二区三区| 成人高潮片免费视频| 久久精品国产成人| 久久er热在这里只有精品66| 日韩av影视| 天堂在线亚洲视频| 全黄一级裸体片| 婷婷久久综合九色综合伊人色| 成人av无码一区二区三区| 久久人人爽人人爽爽久久| 九七电影院97理论片久久tvb| 青青草国产精品| 视频在线观看一区二区三区| 国精产品一区一区三区免费视频| 午夜av一区二区| 午夜国产在线观看| 4438全国成人免费| 一道在线中文一区二区三区| 大肉大捧一进一出好爽视频| 99久久综合狠狠综合久久| 日韩欧美视频在线免费观看| 亚洲第一页自拍| 涩涩涩视频在线观看| 欧美大香线蕉线伊人久久国产精品| 国产精品婷婷| 在线观看福利片| 欧美性xxxxxxxxx| 大地资源中文在线观看免费版| 国产精品福利在线观看| 日韩国产在线| 手机av在线网站| 亚洲图片欧美综合| 五十路在线视频| 国产极品精品在线观看| 日韩精品一区二区久久| 国产成人美女视频| 一区二区三区在线免费观看| 丰满肉嫩西川结衣av| 97精品久久久中文字幕免费| 亚洲美女久久| 日韩肉感妇bbwbbwbbw| 日韩理论在线观看| 人妻无码中文字幕| 日本在线观看天堂男亚洲 | 国产91精品入| 国产二区视频在线播放| 国产欧美日韩精品一区| 国产精品热久久| 久久久久久久久久久成人| 免费久久精品| 中文字幕第一页在线视频| 亚洲高清免费一级二级三级| 欧美孕妇性xxxⅹ精品hd| 国产精品最新在线观看| 国内一区二区三区| 精品无码国产污污污免费网站| 欧美福利视频导航| 99在线视频影院| 日韩色妇久久av| 国产69精品久久久久毛片| 一级黄色大片视频| 久久成人国产精品| 天堂一区二区三区四区| www.亚洲自拍| 一本色道**综合亚洲精品蜜桃冫| 米奇精品一区二区三区| 国产一区二区三区高清| 麻豆精品一区二区综合av| 国产精品成人免费一区二区视频| 亚洲一区二区国产| 一区二区三区四区高清视频| 亚欧在线免费观看| 亚洲一区二区3| 男人天堂久久久| 欧美日韩一区二 |