OlympicArena：為超級智能AI基準測試多學科認知推理能力

sbf_2000

發布于 2024-7-1 12:53

瀏覽

0收藏

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

一、結論寫在前面

下面介紹的論文來自上海交大、上海AI lib。

論文標題：OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

論文鏈接：??https://arxiv.org/pdf/2406.12753??

項目鏈接：??https://gair-nlp.github.io/OlympicArena/??

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

圖1：AI 從高考[57]現場參與奧運會

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

為了全面評估當前模型在認知推理能力方面的表現，論文引入了OlympicArena，這是一個包含11,163個雙語文本問題的基準，涵蓋純文本和交錯文本-圖像模態。這些挑戰跨越七個領域和62個國際奧林匹克競賽，嚴格審查以防止數據泄露。

論文認為，奧林匹克競賽問題的挑戰非常適合評估AI的認知推理，因為其復雜性和跨學科性質對于解決復雜的科學挑戰和促進發現至關重要。除了使用僅答案標準評估跨不同學科的性能外，論文還從多個角度進行了詳細的實驗和分析。論文深入探討了模型的認知推理能力，它們在不同模態下的表現，以及它們在過程級評估中的結果，這對于需要復雜推理和長解決方案的任務至關重要。

論文的廣泛評估顯示，即使是先進的模型如GPT-4o也僅達到39.97%的整體準確率（數學為28.67%，物理為29.71%），這表明當前AI在復雜推理和多模態整合方面的局限性。通過OlympicArena，論文旨在推動AI向超智能發展，使其能夠應對科學及其他領域中更復雜的挑戰。論文還提供了一套全面的資源來支持AI研究，包括基準數據集、開源標注平臺、詳細的評估工具和一個具有自動提交功能的排行榜。

?二、論文的簡單介紹

2.1 論文的背景?

現有的基準測試利用跨學科考試題目來評估大型語言模型（LLMs）的問題解決技能，但這些題目主要側重于知識密集型，對于當前的LLMs來說已相對容易。此外，這些基準主要關注純文本模式。盡管一些基準開始針對大學水平的題目并融入多模態評估，它們仍然主要集中在知識密集型任務或簡單的概念應用上（如表1所示）。與論文的工作同時進行的是，He等人[17]引入了一個奧林匹克級別的基準，但它僅限于數學和物理領域。

此外，上述所有基準都缺乏對各種認知推理能力的系統性和細致評估。例如，它們大多僅基于答案進行評估，忽略了推理過程中潛在的錯誤。這強調了需要更全面的評估，不僅要涵蓋更廣泛的學科，還要關注更高層次的認知推理以及細致的評估。

論文介紹了OlympicArena，這是一個全面、極具挑戰性且嚴格篩選的基準測試，具有詳細、細粒度的評估機制，旨在廣泛評估奧林匹克級別挑戰中的高級AI能力（如圖2所示）。論文廣泛挑選、收集并處理了來自七個學科——數學、物理、化學、生物、地理、天文學和計算機科學——涵蓋62個不同奧林匹克級別競賽的問題。這一廣泛收集最終形成了一個包含11,163個問題的基準，分為13種答案類型（例如，表達式、區間）。

重要的是，OlympicArena通過引入過程級評估，嚴格審查AI模型的逐步推理過程，增強了其評估框架。這種方法對于理解超越正確答案的認知推理深度至關重要[29, 53]，使論文能夠識別并修正AI推理路徑中的缺口，確保更強大的AI能力。該基準是雙語的，同時包含英語和中文，以提高其可訪問性和全球適用性。此外，它支持兩種模式：純文本和交錯文本與圖像，以適應現代AI系統必須處理的日益復雜的任務。論文還對一些主流模型進行了數據泄露檢測實驗[54]，以驗證論文基準的有效性。

論文在現有的頂級表現的大型多模態模型（LMMs）上進行了一系列實驗，涵蓋了專有模型（例如，GPT-4o [36]）和開源模型（例如，LLaVa-NeXT [31]）。此外，論文在兩種設置下評估了各種類型的語言模型（例如，GPT-3.5）：純文本和圖文結合，并從答案級別和過程級別兩個角度進行了全面的評估。對于答案級別的評估，論文結合了基于規則和基于模型的方法（本文中使用GPT-4V3）來覆蓋更多樣化的答案類型。對于過程級別的評估，論文對模型輸出的每個推理步驟進行評分，這在推理場景中論文認為非常關鍵。此外，論文還對不同類型的認知推理進行了細致的評估和分析，從邏輯和視覺兩個角度來更好地解釋當前AI的能力。

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

2.2 奧林匹克競技場基準

2.2.1 概述

論文介紹了OlympicArena，這是一個奧林匹克級別的跨學科基準，旨在嚴格評估LLMs和LMMs的認知推理能力。論文的基準結合了僅文本和交錯文本-圖像模式，以雙語呈現，以促進可訪問性和包容性。它涵蓋了七個核心學科：數學、物理、化學、生物、地理、天文學和計算機科學，共包含34個專業分支（詳細信息見附錄A 1\，其中涉及近期基本科學領域的實驗）。包含了一個全面的11,163個問題集合，來自62個不同的奧林匹克競賽，結構化地設置了13種答案類型，從客觀題型（如多項選擇和填空）到主觀題型（如簡答題和編程任務），這使其與許多主要關注客觀問題的其他基準測試有所區別。OlympicArena的詳細統計數據描述在表2中。

表2：基準測試統計數據

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

此外，為了對模型性能進行細致分析，論文將認知推理分為8種類型的邏輯推理能力和5種類型的視覺推理能力。這種全面的分類有助于詳細評估LLMs和LMMs能夠展示的各種復雜推理技能。此外，論文特別研究了所有多模態問題，以比較LMMs與其基于文本的對應物的表現，旨在更好地評估LMMs處理視覺信息的能力。最后，論文評估推理過程的正確性和效率，不僅僅局限于基于答案的評價。

?2.2.2 數據收集

為了確保涵蓋各個學科的奧林匹克級別問題的全面性，論文首先收集了各種競賽的URL，這些競賽中的問題以PDF格式公開提供下載。然后，論文使用Mathpix工具將這些PDF文檔轉換為markdown格式，使其與模型的輸入要求兼容。具體來說，對于計算機科學的編程問題，論文還額外收集了相應的測試用例。論文嚴格遵守版權和許可考慮，確保符合所有相關法規。

2.2.3 數據標注

問題提取與標注。為了從測試試卷的Markdown格式中提取單個問題，論文聘請了約30名具有理工科背景的學生。論文開發了一個用于標注多模態數據的用戶界面，并已發布。為了便于進一步研究和模型的過程級評估，論文標注了如提供的解決方案等元信息。為確保數據質量，論文在初步標注完成后實施了多步驟驗證流程。

收集所有問題后，論文根據模型嵌入在每個競賽內部進行去重，以移除可能在同一年份的多個測試試卷中出現的重復問題。為進一步證明論文的基準更強調認知推理，而非大多數其他基準，論文將問題的難度分為三個級別，并與相關基準進行比較。具體地，論文將所有問題分為：知識回憶、概念應用和認知推理。論文使用GPT-4V作為標注者來分類不同難度級別的問題

認知推理能力的標注。為了促進更細致的分析，論文從邏輯和視覺兩個角度對認知推理能力進行分類[16, 43]。邏輯推理能力包括演繹推理（DED）、歸納推理（IND）、溯因推理（ABD）、類比推理（ANA）、因果推理（CAE）、批判性思維（CT）、分解推理（DEC）和定量推理（QUA）。同時，視覺推理能力包括模式識別（PR）、空間推理（SPA）、圖表推理（DIA）、符號解釋（SYB）和比較可視化（COM）。論文還使用GPT-4V作為標注者來分類不同的認知能力（詳細定義和具體提示可在附錄B.3中找到）。通過這些標注，論文可以對當前AI的認知推理能力進行更細致的分析。

?2.2.4 數據分割

論文的基準包含11,163個問題，其中548個被指定用于模型評估，稱為OlympicArena-ot。論文跨學科抽樣638個問題來創建OlympicArena-val，用于超參數調整或小規模測試。OlympicArena-val問題具有逐步解決方案，支持如過程級評估等研究。剩余的問題構成了OlympicArena-test，即官方測試集，其答案未公開，用于正式測試。本文中的結果基于整個基準數據集，包括OlympicArena-ot、OlympicArena-val和OlympicArena-test。

2.3 實驗

2.3.1 實驗設置

為了全面評估LLMs和LMMs在不同模態下的能力，論文設計了包括三種不同設置的實驗：多模態、圖像-標題和僅文本。在多模態設置中，論文評估LMMs利用視覺信息的能力，通過交錯文本和圖像，模擬真實世界場景。對于無法處理交錯輸入的模型，論文將多張圖像合并為一個輸入。對于需要必要圖像輸入的LMMs，它們的基于文本的對應物處理僅文本問題。在圖像-標題設置中，論文探討圖像的文本描述是否能增強LLMs的問題解決能力。

使用InternVL-Chat-V1.58 [12]，論文根據提示為所有圖像生成標題。這些標題取代了原始的圖像輸入。在僅文本設置中，論文評估LLMs在沒有視覺信息的情況下的表現，作為與多模態和圖像-標題設置比較的基線。所有實驗使用零樣本提示，針對每種答案類型定制，并指定輸出格式以促進答案提取和基于規則的匹配。這也最小化了與少量學習相關的典型偏差。

2.3.2 評估

答案級評估論文結合基于規則和基于模型的方法來覆蓋多樣化的評估問題。對于有固定答案的問題，論文提取最終答案并根據答案類型進行基于規則的匹配。對于代碼生成任務，論文使用無偏的pass@k指標[10]來測試所有測試用例。對于答案類型被歸類為“其他”的問題，這些問題的答案難以通過基于規則的匹配進行評估（例如，化學方程式書寫問題），論文采用GPT-4V作為評估者來評價響應。為了確保GPT-4V作為評估者的可靠性，論文手動抽樣并檢查其正確性。

過程級評估為了進一步探究推理步驟的正確性，確保對模型認知能力進行嚴格的評估，論文進行了過程級評估。論文從OlympicArena中抽樣了96個帶有參考解決方案的問題。論文使用GPT-4將參考解決方案（即黃金解決方案）和模型生成的解決方案轉換為結構化的逐步格式。然后，論文將這些解決方案提供給GPT-4V，并對每一步的正確性進行評分，評分范圍從0到1。為了驗證與人類判斷的一致性，論文獲取了一些樣本進行人類標注。結果表明，論文的基于模型的評估方法非常準確，注釋者間一致性達到83%。

2.3.3 主要結果

表3展示了各種LMMs和LLMs在OlympicArena上的評估結果。論文觀察到以下幾點：

(1) 即使是目前最先進的大型模型，GPT-4o，也僅達到39.97%的整體準確率，而其他開源模型難以達到20%的整體準確率。這種鮮明的對比突顯了論文基準的顯著難度和嚴格性，證明了其在推動當前AI能力邊界方面的有效性。

(2) 此外，與生物學和地理學等學科相比，論文觀察到數學和物理學仍然是兩個最具挑戰性的學科，可能是因為它們依賴于復雜的推理能力。

（3）計算機編程競賽也證明是非常困難的，一些開源模型未能解決任何問題，表明當前模型在設計有效算法以解決復雜問題方面的能力較差。

表3：OlympicArena上的實驗結果，以百分比表示，每個設置中得分最高的用下劃線表示，所有設置中得分最高的用粗體表示。論文使用pass@k指標（公式1）來評估CS問題。在計算整體準確率時，對于代碼生成問題，如果為某個問題生成的任何代碼通過了所有測試用例，則該問題被視為正確

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

2.3.4 細粒度分析

為了對實驗結果進行更細致的分析，論文基于不同的模態和推理能力進行了進一步的評估。此外，論文還對過程級別的評估進行了分析。主要發現如下：

模型在不同的邏輯和視覺推理能力上表現出不同的性能。如圖3所示，幾乎所有模型在不同的邏輯推理能力上都顯示出相似的性能趨勢。它們在假設推理和因果推理方面表現出色，能夠很好地從提供的信息中識別因果關系。相反，模型在歸納推理和分解推理方面表現不佳。這是由于奧運會級別問題的多樣性和非常規性，需要將復雜問題分解為更小的子問題的能力。在視覺推理能力方面，模型在模式識別和比較可視化方面表現較好。然而，它們在涉及空間和幾何推理以及需要理解抽象符號的任務中遇到困難。完整的結果見附錄D.1。

大多數LMIMs在利用視覺信息方面仍然不夠熟練。如圖4a所示，只有少數LMMs（如GPT-4o和Qwen-VL-Chat）在有圖像輸入的情況下相比其基于文本的對應模型顯示出顯著的改進。許多LMMs并未顯示出性能的提升。

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

圖3：不同模型在邏輯和視覺推理能力方面的表現。邏輯推理能力包括：演繹推理（DED）、歸納推理（IND）、溯因推理（ABD）、類比推理（ANA）、因果推理（CAE）、批判性思維（CT）、分解推理（DEC）和定量推理（QUA）。視覺推理能力包括：模式識別（PR）、空間推理（SPA）、圖示推理（DIA）、符號解釋（SYB）和比較可視化（COM）

在處理圖像輸入時，一些模型甚至顯示出效果下降。可能的原因包括：(1) 當文本和圖像同時輸入時，多模態模型（LMMs）可能更關注文本，忽視圖像中的信息。這一發現也在其他研究中得到證實[61, 9]。(2) 一些多模態模型在基于其文本模型訓練視覺能力時，可能會喪失一些固有的語言能力（例如推理能力），這在論文的場景中尤為明顯。(3) 論文的問題采用了一種復雜的文本和圖像交織格式，某些模型對此支持不佳，導致處理和理解嵌入在文本中的圖像位置信息時遇到困難。

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

** 圖 4：(a) 不同LMMs及其對應LLMs在三種不同實驗設置下的比較。關于每個LMM對應的LLM的詳細信息，請參閱附錄C.2。(b) 所有模型在所有采樣問題上的答案級和過程級得分之間的相關性。(c) 錯誤步驟位置的分布，表示為在整個過程中從左到右的步驟比例，覆蓋所有采樣問題

過程級評估結果分析通過過程級評估（完整結果見表14），論文發現了以下見解：

(1) 過程級評估與答案級評估之間通常存在高度一致性。當模型產生正確答案時，推理過程的質量往往在大多數情況下更高（見圖4b）。

(2) 過程級的準確性通常高于答案級。這表明即使對于非常復雜的問題，模型也能正確執行一些中間步驟。因此，模型可能具有未被充分利用的認知推理潛力，為研究人員開辟了新的探索途徑。論文還發現，在少數學科中，一些在答案級表現良好的模型在過程級落后。論文推測這是因為模型在生成答案時有時傾向于忽略中間步驟的合理性，盡管這些步驟可能對最終結果不是至關重要的。

(3) 此外，論文對錯誤步驟位置分布進行了統計分析（見圖40）。論文發現較高比例的錯誤發生在后期階段。這表明隨著推理的累積，模型更容易出錯，表明在處理長邏輯鏈推斷方面需要改進。

可能遇到了43個基準實例。此外，這自然引發了一個問題：模型能否正確回答這些實例？有趣的是，相應的純文本聊天模型和多模態聊天模型能正確回答的這些實例甚至更少。這些結果表明，論文的基準測試幾乎沒有泄漏，并且具有足夠的挑戰性，因為模型無法正確回答大多數泄漏的實例。

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

圖5：GPT-4V采樣錯誤問題的錯誤類型分布

錯誤分析為了進一步具體化模型的性能，論文從GPT-4V中抽樣了錯誤的回答（每個主題16個問題，其中8個純文本，8個多模態），并讓人類評估者分析和標注這些錯誤的原因。如圖5所示，推理錯誤（邏輯和視覺）構成了最大的類別，表明論文的基準有效地突出了當前模型在認知推理能力方面的不足。此外，很大一部分錯誤源于知識缺陷，表明當前模型仍然缺乏專家級別的領域知識和利用這些知識輔助推理的能力。另一類錯誤來自理解偏差，這可以歸因于模型對上下文的誤解以及整合復雜語言結構和多模態信息的困難。更多相關案例見附錄F.1。

2.3.5 數據泄露檢測的努力

鑒于預訓練語料庫規模的不斷擴大，檢測潛在的基準泄漏至關重要。預訓練的透明度往往使這項任務變得困難。為此，論文采用了一種最近提出的實例級泄漏檢測指標，即N-gram預測準確率。該指標為每個實例均勻抽樣幾個起始點，預測每個起始點的下一個n-gram，并檢查所有預測的n-gram是否正確，表明模型可能遇到過該實例。論文將此指標應用于所有可用的基礎或純文本聊天模型。如圖6所示，盡管與完整的基準相比數量微不足道，但令人驚訝且合理的是，這些評估模型背后的一些基礎模型或純文本聊天模型可能遇到了一些基準實例。例如，Qwen1.5-32B-Chat的基礎模型就曾遇到過這些實例。

OlympicArena：為超級智能AI基準測試多學科認知推理能力-AI.x社區

圖6：檢測到的泄露樣本數量以及相應的純文本和多模態聊天模型在這些樣本上正確響應的數量

本文轉載自 ??AI帝國??，作者：無影寺

標簽

智能

測試

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

OlympicArena：為超級智能AI基準測試多學科認知推理能力

一、結論寫在前面

?二、論文的簡單介紹

2.1 論文的背景?

2.2 奧林匹克競技場基準

2.2.1 概述

?2.2.2 數據收集

2.2.3 數據標注

?2.2.4 數據分割

2.3 實驗

2.3.1 實驗設置

2.3.3 主要結果

2.3.4 細粒度分析

2.3.5 數據泄露檢測的努力

目錄