大模型追逐星辰大海,GPT和Gemini國際天文奧賽奪金
人工智能真是日新月異。早上看到網(wǎng)友的評論:我們已經(jīng) 0 天沒有吸引注意的 AI 領域新突破了。

記得三個月前,OpenAI 官宣了他們的推理模型在國際數(shù)學奧林匹克(IMO)競賽中獲得了金牌。
現(xiàn)在看,大模型不僅僅在數(shù)學領域具有很強的推理泛化能力,也在很多其他科學研究領域中出彩。
值得關注的是,目前頂尖的大模型們都能在各類奧賽中取得令人驚嘆的成績。
就在最近,一篇全新發(fā)布的論文中,將國際天文學和天體物理學奧林匹克競賽 (IOAA) 作為基準測試,證明了 GPT-5 和 Gemini 2.5 Pro 兩大模型能夠在天文和天體物理學中取得奧賽金牌成績。

OpenAI 的總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 轉發(fā)了這項工作,激動的連 GPT 的名字都打錯了:

終有一天,人類走向星辰大海的那一刻,也會有 AI 大模型的痕跡。


- 論文標題:Large Language Models Achieve Gold Medal Performance at the International Olympiad on Astronomy & Astrophysics (IOAA)
- 論文鏈接:https://arxiv.org/abs/2510.05016
為什么選擇 IOAA
大型語言模型的出現(xiàn)為人工智能在科學研究,特別是天文學和天體物理學領域帶來了新的可能性。雖然傳統(tǒng)的天文學機器學習方法在模式識別任務(如目標分類和異常檢測)方面表現(xiàn)出色,但它們往往缺乏解決復雜科學問題所需的通用性和復雜推理能力。
當前用于評估天文學領域 LLM 的基準,如 AstroBench 和 Astro-QA,主要側重于簡單的問答形式,通過多項選擇或簡答題來測試天文學知識。這些評估未能評估真實天文學研究中必不可少的復雜推理、創(chuàng)造性問題解決和擴展推導能力。本研究通過引入一個更嚴格、更全面的評估框架來解決這一關鍵差距。
研究人員選擇 2022 年至 2025 年的國際天文奧林匹克競賽(IOAA)試題作為主要基準。這一選擇是基于三個關鍵因素:
首先,不同于 AstroMLab 的 AstroBench 和 Astro-QA 這類主要依賴選擇題、簡答題或判斷題來檢測天文知識的現(xiàn)有基準,IOAA 試題具備更高的生態(tài)有效性,因為其考查的是實際天文研究中所需的復雜推理、創(chuàng)新性問題求解以及多步推導能力。
其次,根據(jù)官方大綱 ,IOAA 題目覆蓋了廣泛的天文主題,包括宇宙學、球面三角、恒星天體物理、天體力學、光度測量以及觀測儀器學,從而保證了評測的全面性。
最后,IOAA 將理論物理、觀測約束以及真實天文數(shù)據(jù)與數(shù)學推導結合在一起,提供了一種區(qū)別于 IMO、IPhO 和 IOI 等其他奧賽的新型評估方式,可用于檢驗 LLM 在科學問題求解方面的綜合能力。
評估重點關注 IOAA 的兩個組成部分:理論問題(共 49 個)和數(shù)據(jù)分析問題(共 8 個)。理論問題分為第一類(幾何 / 空間,需要天球幾何和球面三角學)和第二類(物理 / 數(shù)學,側重天體物理計算,無需幾何可視化)。由于 LLM 的數(shù)字性質,觀測部分被排除在外。
金牌結果

不同難度類別下,LLM 在 IOAA 理論題與數(shù)據(jù)分析題中的表現(xiàn)。所有分數(shù)均為相對于總分的標準化百分比。
理論考試
如表所示,GPT-5 和 Gemini 2.5 Pro 在理論考試中表現(xiàn)最為突出,比分領先其他模型 7~25 個百分點。具體來說,GPT-5 在 2022 年(93.0%)、2023 年(89.6%)和 2025 年(86.8%)中取得最高分,而 Gemini 2.5 Pro 則在 2024 年以 83.0% 位列第一。
盡管表現(xiàn)整體強勢,但我們注意到 GPT-5 在難題上的表現(xiàn)反而優(yōu)于簡單題與中等難度題。我們的分析顯示,這種看似反常的波動主要由三方面因素造成:
1. 每個難度等級的問題數(shù)量較少,導致模型表現(xiàn)的自然波動。簡單題僅有 10 題,中等難度有 11 題,總分分別約為 185 分和 151 分,而總分為 1200 分,因此僅少量失誤就會顯著影響該難度區(qū)間的得分比例。
2. GPT-5 在 2024 年試題中出現(xiàn)了多次關鍵性錯誤,其中很大一部分集中在需要幾何推理與空間想象的問題(見第 3.2 節(jié))。
3. GPT-5 偶爾會在天體物理概念題上出錯。例如,在 2024 年試題的第 9 題(歸為簡單題)中,GPT-5 因一次概念性錯誤疊加一次計算錯誤丟失了 18 分,而這相當于簡單題總分的近 10%。
其他模型也展現(xiàn)出一定競爭力:OpenAI o3 總體得分為 77.5%,并穩(wěn)定領先 Claude 系列 13~17 個百分點,其中 Claude Opus 4.1 得分為 64.7%,Claude Sonnet 4 為 60.6%。此外,它們的表現(xiàn)均隨著難度提升而下降。盡管這三款模型在 AstroMLab 這類更簡單的多選題基準上表現(xiàn)接近甚至亮眼,我們的評測結果揭示了在復雜問題求解上仍存在顯著能力差異。該結果提示:要真正評估 LLM 在天文學領域的科研潛力,必須超越知識回憶型任務,構建更全面的能力評估框架。
數(shù)據(jù)分析考試
雖然 LLM 在理論考試中接近頂尖人類水平,但數(shù)據(jù)分析考試更能揭示其細粒度的能力結構與局限。GPT-5 在數(shù)據(jù)分析部分取得了 88.5% 的平均分,反而高于其理論考試表現(xiàn)(84.2%)。這種提升與其他模型形成鮮明對比 —— 其他 LLM 的數(shù)據(jù)分析得分普遍比理論試題下降了 10~15 個百分點。
這種分化主要來自數(shù)據(jù)分析試題高度依賴圖像閱讀、曲線理解與數(shù)據(jù)可視化推理的特點。GPT-5 擁有更強的多模態(tài)理解能力,在圖像解析和繪圖推理錯誤率方面顯著更低,這直接支撐了其優(yōu)勢表現(xiàn)。
為了進一步推動 LLM 在天體物理領域向科研級智能體邁進,我們的結果強調:除了整體性評估外,還迫切需要具有生態(tài)效度的、多模態(tài)數(shù)據(jù)分析基準來全面檢驗模型在真實科研流程中的問題求解能力。
對比人類成績
為更好地理解 LLM 的表現(xiàn),我們將其得分與 IOAA 的獎牌評定標準下的人類參賽者成績進行比較。具體而言,獎牌依據(jù)與中位數(shù)成績的比值來頒發(fā)(中位數(shù)按理論、數(shù)據(jù)分析與觀測三部分成績之和計算):若得分在中位數(shù)的 100%–130% 之間為銅牌,130%–160% 為銀牌,高于 160% 則為金牌。由于我們的評測范圍不包括觀測(observational)試題,因此我們分別根據(jù)理論考試與數(shù)據(jù)分析考試計算了對應的獎牌門檻。
大多數(shù) LLM 的表現(xiàn)均超過金牌門檻。唯一例外是 Claude Sonnet 4,在 2023 年考試中僅獲銀牌。尤其值得注意的是,GPT-5 在 2022、2023 與 2025 年的表現(xiàn)優(yōu)于當屆 IOAA 的最佳學生,而 Gemini 2.5 Pro 在 2022 與 2023 年也達到相同水平。

LLM 與人類參賽者在 IOAA 理論考試(2022–2025)中的表現(xiàn)對比。

LLM 與人類參賽者在 IOAA 數(shù)據(jù)分析考試(2022–2025)中的表現(xiàn)對比。

IOAA 理論考試中不同題目類別下的模型表現(xiàn)。類別 I 為幾何 / 空間類問題,類別 II 為物理 / 數(shù)學類問題。所有分數(shù)均以百分比形式表示。
錯誤分析
在理論考試中,大型語言模型在第二類(物理 / 數(shù)學)問題上的表現(xiàn)(67-91% 的準確率)明顯優(yōu)于第一類(幾何 / 空間)問題(49-78% 的準確率),性能差異為 15-26 個百分點。
最普遍的錯誤類型是概念性錯誤,反映了不正確的處理方法、公式誤用和推理缺陷。這表明在實現(xiàn)深刻的物理理解方面存在根本性挑戰(zhàn)。幾何或空間推理是第二大錯誤來源,模型在球面三角學、計時系統(tǒng)和 3D 可視化方面尤其吃力。
在數(shù)據(jù)分析考試中,錯誤在不同類別中分布更為均勻。主要的故障模式包括繪圖和圖表 / 圖像閱讀,這在 OpenAI o3 和 Claude 模型中尤為突出。由于對大型數(shù)據(jù)集進行大量計算,計算錯誤比理論考試中更常見。

按錯誤類型劃分的丟分分布:(a)IOAA 理論考試 2022–2025;(b)IOAA 數(shù)據(jù)分析考試 2022–2025。
更多信息,請參考原論文。



































