奧林匹克競賽里選最聰明的AI:Claude-3.5-Sonnet vs. GPT-4o?
上海交通大學生成式人工智能實驗室 (GAIR Lab) 的研究團隊,主要研究方向是:大模型訓練、對齊與評估。
團隊主頁:https://plms.ai/
AI技術日新月異,近來Anthropic公司最新發布的Claude-3.5-Sonnet因在知識型推理、數學推理、編程任務及視覺推理等任務上設立新行業基準而引發廣泛討論:Claude-3.5-Sonnet 已經取代OpenAI的GPT4o成為世界上”最聰明的AI“(Most Intelligent AI)了嗎?回答這個問題的挑戰在于我們首先需要一個足夠挑戰的智力測試基準,使得我們可以區分目前最高水平的AI。
上海交通大學生成式人工智能實驗室(GAIR Lab)推出的OlympicArena[1] (奧林匹克競技場)滿足了這個需求。
奧林匹克學科競賽不僅是對人類(碳基智能)思維敏捷性、知識掌握和邏輯推理的極限挑戰,更是AI(“硅基智能”)鍛煉的絕佳練兵場,是衡量AI與“超級智能”距離的重要標尺。OlympicArena——一個真正意義上的AI奧運競技場。在這里,AI不僅要展示其在傳統學科知識上的深度(數學、物理、生物、化學、地理等頂級競賽),還要在模型間的認知推理能力上展開較量。
近日,同樣是研究團隊,首次提出使用"奧林匹克競賽獎牌榜"的方法,根據各AI模型在奧林匹克競技場(各學科)的綜合表現進行排名,選出迄今為止智力最高的AI。在此次競技場中,研究團隊重點分析并比較了最近發布的兩個先進模型——Claude-3.5-Sonnet和Gemini-1.5-Pro,以及OpenAI的GPT-4系列(e.g., GPT4o)。通過這種方式,研究團隊希望能夠更有效地評估和推動AI技術的發展。

圖: 奧林匹克學科競賽獎牌榜
注:研究團隊首先依據金牌數量對模型進行排序,如果金牌數量相同,則按照整體性能分數來排序。
實驗結果表明:
- Claude-3.5-Sonnet在整體表現上與GPT-4o相比極具競爭力,甚至在一些科目上超過了GPT-4o(比如在物理、化學和生物學上)。
- Gemini-1.5-Pro和GPT-4V排名緊隨GPT-4o和Claude-3.5-Sonnet之后,但它們之間存在明顯的表現差距。
- 來自開源社區的AI模型性能明顯落后于這些專有模型。
- 這些模型在此基準測試上的表現不盡人意,表明我們在實現超級智能之路上還有很長的路要走。

- 項目主頁:https://gair-nlp.github.io/OlympicArena/
實驗設置
研究團隊采取OlympicArena的測試集進行評估。該測試集的答案并未公開,有助于防止數據泄露,從而反映模型的真實性能。研究團隊測試了多模態大模型(LMMs)和純文本大模型(LLMs)。對于LLMs的測試,輸入時不提供任何與圖像相關的信息給模型,僅提供文本。所有評估均采用零樣本(zero-shot)思維鏈(Chain of Thought)提示詞。
評估對象
研究團隊評估了一系列開源和閉源的多模態大模型(LMMs)和純文本大模型(LLMs)。對于LMMs,選擇了GPT-4o、GPT-4V、Claude-3-Sonnet、Gemini Pro Vision、Qwen-VL-Max等閉源模型,此外還評估了LLaVA-NeXT-34B、InternVL-Chat-V1.5、Yi-VL-34B和Qwen-VL-Chat等開源模型。對于LLMs,主要評估了Qwen-7B-Chat、Qwen1.5-32B-Chat、Yi-34B-Chat和InternLM2-Chat-20B等開源模型。
此外,研究團隊特別包括了新發布的Claude-3.5-Sonnet以及Gemini-1.5-Pro,并將它們與強大的GPT-4o和GPT-4V進行比較。以反映最新的模型性能表現。
評估方法
衡量標準 鑒于所有問題都可以通過基于規則的匹配進行評估,研究團隊對非編程任務使用準確率,并對編程任務使用公正的pass@k指標,定義如下:

本次評估中設定k = 1且n = 5,c表示通過所有測試用例的正確樣本數量。
奧林匹克競技場獎牌榜:
與奧運會使用的獎牌系統類似,是一個專門設計用來評估AI模型在各個學術領域性能的先驅性排名機制。該表為在任一給定學科中取得前三名成績的模型頒發獎牌,從而為比較不同模型提供了一個明確且具有競爭性的框架。研究團隊首先依據金牌數量對模型進行排序,如果金牌數量相同,則按照整體性能分數來排序。它提供了一種直觀簡潔的方式來識別不同學術領域中的領先模型,使研究人員和開發者更容易理解不同模型的優勢和劣勢。
細粒度評估:
研究團隊還基于不同學科、不同模態、不同語言以及不同類型的邏輯和視覺推理能力進行基于準確性的細粒度評估。
結果與分析
分析內容主要關注Claude-3.5-Sonnet和GPT-4o,同時也對Gemini-1.5-Pro的性能表現進行了部分討論。
總體情況

表:模型在不同學科上的表現
根據表格的總體結果,可以觀察到:
- 新發布的Claude-3.5-Sonnet性能強大,達到了幾乎與GPT-4o相當的水平。兩者的整體準確率差異僅約1%。
- 新發布的Gemini-1.5-Pro也展現出了相當的實力,在大多數學科中的表現超過了GPT-4V(OpenAI當前第二強大的模型)。
- 值得注意的是,在撰寫本報告時,這三個模型中最早的發布時間僅為一個月前,反映了這一領域的快速發展。
針對學科的細粒度分析
GPT-4o vs. Claude-3.5-Sonnet:
盡管GPT-4o和Claude-3.5-Sonnet在整體上表現相似,但兩個模型都展現了不同的學科優勢。GPT-4o在傳統的演繹和歸納推理任務上展現出更優秀的能力,特別是在數學和計算機科學方面。Claude-3.5-Sonnet在物理、化學和生物等學科表現出色,特別是在生物學上,它超過GPT-4o 3%。
GPT-4V vs. Gemini-1.5-Pro:
在Gemini-1.5-Pro與GPT-4V的比較中,可以觀察到類似的現象。Gemini-1.5-Pro在物理、化學和生物學方面的表現顯著優于GPT-4V。然而,在數學和計算機科學方面,Gemini-1.5-Pro優勢不明顯甚至不如GPT-4V。
從這兩組比較中,可以看出:
- OpenAI的GPT系列在傳統的數學推理和編程能力上表現突出。這表明GPT系列模型已經經過了嚴格訓練以處理需要大量演繹推理和算法思維的任務。
- 相反,當涉及到需要將知識與推理結合的學科,如物理、化學和生物學時,其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro展現出了具有競爭性的表現。這體現了不同模型的專業領域以及潛在的訓練重點,表明在推理密集型任務以及知識整合型任務可能存在的權衡。
針對推理類型的細粒度分析

Caption: 各模型在邏輯推理能力上的表現。邏輯推理能力包括:演繹推理(DED)、歸納推理(IND)、溯因推理(ABD)、類比推理(ANA)、因果推理(CAE)、批判性思維(CT)、分解推理(DEC)和定量推理(QUA)。
GPT-4o 與 Claude-3.5-Sonnet 在邏輯推理能力上的比較:
從表格的實驗結果可以看出,GPT-4o在大多數的邏輯推理能力上優于Claude-3.5-Sonnet,例如演繹推理、歸納推理、溯因推理、類比推理和批判性思維方面。然而,Claude-3.5-Sonnet在因果推理、分解推理和定量推理上的表現超過了GPT-4o。整體而言,兩個模型的表現相當,雖然GPT-4o在大多數類別上略有優勢。

表: 各模型在視覺推理能力上的表現。視覺推理能力包括:模式識別(PR)、空間推理(SPA)、圖表推理(DIA)、符號解釋(SYB)和視覺比較(COM)。
GPT-4o vs. Claude-3.5-Sonnet 在視覺推理能力上的表現:
從表格的實驗結果可以看出,Claude-3.5-Sonnet在模式識別和圖表推理方面能力領先,展現了其在模式識別和解讀圖表方面的競爭力。兩個模型在符號解釋方面表現相當,表明它們在理解和處理符號信息方面具有相當的能力。然而,GPT-4o在空間推理和視覺比較方面優于Claude-3.5-Sonnet,展示了其在需要理解空間關系和比較視覺數據的任務上的優越性。
綜合學科與推理類型的分析,研究團隊發現:
- 數學和計算機編程強調復雜演繹推理技巧和基于規則導出普適性結論,傾向于較少依賴預先存在的知識。相比之下,像化學和生物學這樣的學科往往需要大量的知識庫來基于已知的因果關系和現象信息進行推理。這表明,盡管數學和編程能力仍然是衡量模型推理能力的有效指標,其他學科更好地測試了模型在基于其內部知識進行推理和問題分析方面的能力。
- 不同學科的特點表明了定制化訓練數據集的重要性。例如,要提高模型在知識密集型學科(如化學和生物學)中的表現,訓練期間模型需要廣泛接觸特定領域的數據。相反,對于需要強大邏輯和演繹推理的學科,如數學和計算機科學,模型則能從專注于純邏輯推理的訓練中受益。
- 此外,推理能力和知識應用之間的區別表明了模型跨學科應用的潛力。例如,具有強大演繹推理能力的模型可以協助需要系統化思維解決問題的領域,如科學研究。而擁有豐富知識的模型在重度依賴現有信息的學科中非常寶貴,如醫學和環境科學。理解這些細微差別有助于開發更專業和多功能的模型。
針對語言類型的細粒度分析

Caption: 各模型在不同語言問題的能力表現。
以上表格展示了模型在不同語言上的性能表現。研究團隊發現大多數模型在英語上的準確度比中文要高,這種差距在排名靠前的模型中尤為顯著。推測可能有以下幾個原因:
- 盡管這些模型包含了大量中文訓練數據并且具有跨語言泛化能力,但它們的訓練數據主要以英語為主。
- 中文問題的難度比英文問題更具挑戰性,尤其是在物理和化學等科目中,中國奧林匹克競賽的問題更難。
- 這些模型在識別多模態圖像中的字符方面能力不足,中文環境下這一問題更為嚴重。
然而,研究團隊也發現一些中國廠商開發或基于支持中文的基模型進行微調的模型,在中文場景下的表現優于英文場景,例如Qwen1.5-32B-Chat、Qwen-VL-Max、Yi-34B-Chat和Qwen-7B-Chat等。其他模型如InternLM2-Chat-20B和Yi-VL-34B,雖然仍然在英語上表現更好,但與排名靠前的閉源模型相比,它們在英語和中文場景間的準確度差異要小得多。這表明,為中文數據乃至全球更多語言優化模型,仍然需要顯著的關注。
針對模態的細粒度分析

Caption: 各模型在不同模態問題的能力表現。
以上表格展示了模型在不同模態上的性能表現。GPT-4o在純文本和多模態任務中均優于Claude-3.5-Sonnet,并在純文本上表現更突出。另一方面,Gemini-1.5-Pro在純文本和多模態任務上表現均優于GPT-4V。這些觀察表明,即使是目前可用的最強模型,在純文本任務上也比多模態任務有更高的準確率。這說明模型在利用多模態信息解決復雜推理問題方面仍有相當大的改進空間。
結語
研究團隊在本次評測中主要關注最新的模型:Claude-3.5-Sonnet 和 Gemini-1.5-Pro,并將它們與 OpenAI 的 GPT-4o 和 GPT-4V 進行比較。此外,研究團隊還設計了一種用于大模型的新穎排名系統——OlympicArena Medal Table,用來清晰的比較不同的模型的能力。研究團隊發現,GPT-4o 在數學和計算機科學等科目上表現突出,具有較強的復雜演繹推理能力和基于規則得出普遍結論的能力。另一方面,Claude-3.5-Sonnet 更擅長根據已有的因果關系和現象進行推理。另外,研究團隊還觀察到這些模型在英語語言問題上表現更好,并且在多模態能力方面有顯著的改進空間。理解模型這些細微差別有助于開發更專業化的模型,以更好地滿足不同學術和專業領域的多樣化需求。
隨著四年一度的奧運盛事日益臨近,我們不禁想象,如果人工智能也能參與其中,那將是一場怎樣的智慧與技術的巔峰對決?不再僅僅是肢體的較量,AI的加入無疑將開啟對智力極限的新探索, 也期待更多AI選手加入這場智力的奧運會。


































