摸底谷歌Gemini：CMU全面測評，Gemini Pro不敵GPT 3.5 Turbo

作者：機器之心 2023-12-20 15:32:02

谷歌的 Gemini 到底幾斤幾兩？和 OpenAI 的 GPT 模型相比表現如何？CMU 這篇論文測明白了。

前段時間，谷歌發布了對標 OpenAI GPT 模型的競品 ——Gemini。這個大模型共有三個版本 ——Ultra（能力最強）、Pro 和 Nano。研究團隊公布的測試結果顯示，Ultra 版本在許多任務中優于 GPT4，而 Pro 版本與 GPT-3.5 不相上下。

盡管這些對比結果對大型語言模型研究具有重要意義，但由于確切的評估細節和模型預測尚未公開，這限制了對測試結果的復現、檢測，難以進一步分析其隱含的細節。

為了了解 Gemini 的真正實力，來自卡內基梅隆大學、BerriAI 的研究者對該模型的語言理解和生成能力進行了深入探索。

他們在十個數據集上測試了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 的文本理解和生成能力。具體來說，他們在 MMLU 上測試了模型回答基于知識的問題的能力，在 BigBenchHard 上測試了模型的推理能力，在 GSM8K 等數據集中測試了模型解答數學問題的能力，在 FLORES 等數據集中測試了模型的翻譯能力；在 HumanEval 等數據集中測試了模型的代碼生成能力；在 WebArena 中測試了模型作為遵循指令的智能體的能力。

下表 1 展示了對比的主要結果。總體而言，截至論文發稿日，在所有任務中，Gemini Pro 在準確性上接近 OpenAI GPT 3.5 Turbo，但仍然稍遜一籌。此外，他們還發現，Gemini 和 GPT 比開源競品模型 Mixtral 表現要好一些。

在論文中，作者對每項任務都進行了深入的描述和分析。所有結果和可復現的代碼可參閱：https://github.com/neulab/gemini-benchmark

論文鏈接：https://arxiv.org/pdf/2312.11444.pdf

實驗設置

作者選擇了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 四個模型作為測試對象。

由于此前有研究在評估時存在實驗設置方面的差異，為確保測試公平，作者采取了完全相同的提示詞和評估協議重新運行了實驗。在大多數測評中，他們采用了提示詞和來自標準資源庫的評價標準。這些測試資源來自模型發布時附帶的數據集以及測評工具 Eleuther 等。其中，提示詞通常包含查詢、輸入、少量示例和思維鏈推理等。在某些特殊測評中，作者發現有必要對標準實踐進行小幅調整。調整偏差已在對應的代碼儲存庫中執行，請查閱論文原文。

這項研究的目標如下：

1. 通過可復現的代碼和完全透明的結果，提供對 OpenAI GPT 和 Google Gemini 模型能力的第三方客觀比較。

2. 深入研究測評結果，分析兩個模型在哪些領域中的表現更加突出。

基于知識的問答（Knowledge-based QA）

作者從 MMLU 數據集中選擇了 57 個基于知識的多項選擇問答任務，涵蓋了 STEM 以及人文社科等各種主題。MMLU 共有 14,042 個測試樣本，已經廣泛用于對大型語言模型的知識能力進行整體評估。

作者比較并分析了四個測試對象在 MMLU 上的整體表現（如下圖所示）、子任務表現以及輸出長度對表現的影響。

圖 1：使用 5 個樣本提示和思維鏈提示，各個模型在 MMLU 上的總體準確率。

從圖中可以看到，Gemini Pro 的準確性低于 GPT 3.5 Turbo，并且遠低于 GPT 4 Turbo。在使用思維鏈提示時，各模型表現差異不大。作者推測這是由于 MMLU 主要收錄的是基于知識的問答任務，這些任務可能不會從更強的推理導向提示中顯著受益。

值得注意的是，MMLU 中的所有問題都是單選題，有 A 到 D 四個按順序排列的潛在答案。下圖中展示了每個模型選擇每個答案選項的比例。從圖中可以看到 Gemini 的答案分布非常傾斜，偏向于選擇最后的 D 選項。這與各版本的 GPT 給出的更加平衡的結果形成了對比。這可能表明，Gemini 沒有接受與多選題相關的大量指令調整，導致模型在答案排序方面存在偏見。

圖 2：被測模型預測的單選題答案的比例。

下圖展示了被測模型在 MMLU 測試集的子任務上的表現。與 GPT 3.5 相比，Gemini Pro 在大多數任務上的表現不佳。思維鏈提示降低了子任務之間的方差。

圖 3：被測模型在每個子任務上的準確率。

作者深入探討了 Gemini Pro 的強項和弱項。從圖 4 中可以觀察到，Gemini Pro 在人類性別（社會科學）、形式邏輯（人文科學）、初等數學（STEM) 和專業醫學（專業領域）任務中落后于 GPT 3.5。在 Gemini Pro 更擅長的兩個任務中，領先優勢也很微弱。

圖 4：Gemini Pro 和 GPT 3.5 在 MMLU 上的優勢任務。

Gemini Pro 在特定任務上的表現不佳可以歸因于兩個原因。首先，在某些情況下，Gemini 無法返回答案。在大多數 MMLU 子任務中，API 響應率超過 95%，但在道德（響應率 85%）、人類性別（響應率 28%）這兩個任務的相應率明顯較低。這表明 Gemini 在一些任務中性能較低可能是由于輸入的內容過濾器。其次，Gemini Pro 在解決形式邏輯和基礎數學任務所需的基本數學推理方面的表現稍差。

作者還分析了思維鏈提示中的輸出長度如何影響模型性能，如圖 5 所示。一般來說，更強大的模型傾向于進行更復雜的推理，因此會輸出更長的回答。與「對手」相比，Gemini Pro 有一個值得注意的優勢：它的準確性受輸出長度的影響較小。當輸出長度超過 900 時，Gemini Pro 甚至優于 GPT 3.5。然而，與 GPT 4 Turbo 相比，Gemini Pro 和 GPT 3.5 Turbo 很少能輸出長推理鏈。

圖 5：被測模型在 MMLU 上的輸出長度分析。

通用推理（General-purpose Reasoning）

在 BIG-Bench Hard 測試集中，作者對被測對象展開了通用推理能力的測評。BIG-Bench Hard 包含 27 個不同的推理任務，如算術、符號和多語言推理、事實知識理解等任務。大多數任務由 250 個問題 - 答案對組成，少數任務的問題數量稍少一些。

圖 6 中展示的是被測模型的整體準確率。可以看出，Gemini Pro 的準確率略低于 GPT 3.5 Turbo，遠低于 GPT 4 Turbo。相比之下，Mixtral 模型的準確率還要低得多。

圖 6：被測模型在 BIG-Bench-Hard 上的整體準確率。

作者更深入地探討了為什么 Gemini 通用推理整體表現不佳。首先，他們按問題的長度檢查了準確率。如圖 7 所示，Gemini Pro 在更長、更復雜的問題上表現不佳。而 GPT 模型，特別是 GPT 4 Turbo，即使在非常長的問題中， GPT 4 Turbo 的退步也非常小。這表明它的魯棒性很強，能夠理解更長和更復雜的提問和查詢。GPT 3.5 Turbo 的魯棒性一般。Mixtral 在問題長度方面表現穩定，但整體準確率較低。

圖 7：被測模型在 BIG-Bench-Hard 上按問題長度劃分的準確率。

作者分析了被測模型在 BIG-Bench-Hard 具體任務中是否存在準確率的差異。圖 8 中展示了 GPT 3.5 Turbo 在哪些任務上比 Gemini Pro 表現更好。

在「追蹤變換物體的位置」的任務中，Gemini Pro 的表現特別糟糕。這些任務涉及人們交換物品并追蹤誰是某項物品的擁有者，但 Gemini Pro 經常難以保持正確的順序。

圖 8：GPT 3.5 Turbo 優于 Gemini Pro 的 BIG-Bench-Hard 子任務。

在需要多步解的算術題、查找翻譯中的錯誤等任務中，Gemini Pro 遜于 Mixtral。

也有 Gemini Pro 優于 GPT 3.5 Turbo 的任務。圖 9 展示了 Gemini Pro 以最大優勢領先于 GPT 3.5 Turbo 的六個任務。這些任務是異構的，包括需要世界知識的（sports_understanding）、操作符號堆棧（dyck_languages）、按字母順序對單詞進行排序（word_sorting）以及解析表格（penguins_in_a_table）等。

圖 9：Gemini Pro 優于 GPT 3.5 的 BIG-Bench-Hard 子任務。

作者進一步分析了被測模型在不同答案類型中的魯棒性，如圖 10 所示。Gemini Pro 在「Valid/Invalid」答案類型中的表現最差，該答案類型屬于任務 formal_fallacies。有趣的是，該任務有 68.4% 的問題沒有回答響應。然而，在其它（由 word_sorting 和 dyck_language 任務組成）的答案類型中，Gemini Pro 表現優于所有 GPT 模型與 Mixtral。即 Gemini Pro 特別擅長重新排列單詞和按正確順序生成符號。另外，對于 MCQ 答案，有 4.39% 的問題被 Gemini Pro 阻止回應。GPT 模型在這方面表現出色，Gemini Pro 難以與它們競爭。

圖 10：被測模型在 BIG-Bench-Hard 上按答案類型劃分的準確性。

總之，似乎沒有哪個模型在特定任務上一馬當先。因此，在執行通用推理任務時，不妨在 Gemini 和 GPT 模型中都嘗試一下，然后再決定使用哪個模型。

數學能力

為了評估被測模型的數學推理能力，作者選擇了四個數學問題基準測試集：

（1）GSM8K：小學數學基準測試；

（2）SVAMP ：通過改變單詞順序生成問題來檢查魯棒推理能力；

（3）ASDIV：具有不同的語言模式和問題類型；

（4）MAWPS：包含算術和代數詞問題。

作者比較了 Gemini Pro 、GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 在四個數學問題測試集上的準確性，檢查了它們的整體性能、不同問題復雜度下的性能以及不同思維鏈深度下的性能。

圖 11 呈現了整體結果，Gemini Pro 在包含不同語言模式的 GSM8K、SVAMP 和 ASDIV 的任務中，準確性略低于 GPT 3.5 Turbo，遠低于 GPT 4 Turbo。對于 MAWPS 中的任務，盡管所有被測模型的準確性都超過 90%，但 Gemini Pro 仍然略遜于 GPT 模型。在這個任務中，GPT 3.5 Turbo 以微弱的優勢勝過了 GPT 4 Turbo。相比之下，Mixtral 模型的準確性遠低于其他模型。

圖 11：被測模型在四個數學推理測試集任務中的整體準確性。

圖 12 中展示了每個模型對問題長度的魯棒性。與 BIG-Bench Hard 中的推理任務類似，被測模型在回答較長的問題時，準確性有所下降。GPT 3.5 Turbo 在較短的題目上表現優于 Gemini Pro，但退步的速度更快，Gemini Pro 在較長的題目的準確性上與 GPT 3.5 Turbo 類似，但仍稍稍落后。

圖 12：被測模型在四個數學推理測試集任務中，對于不同問題長度的生成答案的準確性。

此外，作者還觀察到當答案需要更長的思維鏈時，被測模型的準確性也有不同。如圖 13 所示，即使使用長推理鏈時，GPT 4 Turbo 也非常魯棒，而 GPT 3.5 Turbo、Gemini Pro 和 Mixtral 在 COT 長度不斷增加時表現出力不從心。通過分析，作者還發現，在 COT 長度超過 100 的復雜例子中，Gemini Pro 優于 GPT 3.5 Turbo，但在較短的例子中表現不佳。

圖 13：不同思維鏈長度下，各模型在 GSM8K 上的準確性。

圖 14 顯示了被測模型對于不同數字數量在生成答案時的準確性。作者根據答案中的數字數量是 1 個、2 個還是 3 個以上創建了三個「桶」（除了 MAWPS 任務，該任務的答案沒有超過兩位數的數字）。如圖所示，GPT 3.5 Turbo 似乎對多位數的數學問題更加魯棒，而 Gemini Pro 在更多數字的問題上有所退化。

圖 14：各個模型在四個數學推理測試集任務中在答案數字數量不同時的準確性。

代碼生成

在這一部分，作者使用兩個代碼生成數據集 ——HumanEval 和 ODEX—— 來檢驗模型的編碼能力。前者測試模型對 Python 標準庫中有限的一組函數的基本代碼理解能力，后者測試模型使用整個 Python 生態系統中更廣泛的庫集的能力。這兩個問題的輸入都是用英語編寫的任務說明（通常帶有測試用例）。這些問題用來評估模型的語言理解能力、算法理解能力和初等數學能力。總的來說，HumanEval 有 164 個測試樣本，ODEX 有 439 個測試樣本。

首先，從圖 15 所示的總體結果中，可以看到 Gemini Pro 在兩項任務上的 Pass@1 分數均低于 GPT 3.5 Turbo，也遠低于 GPT 4 Turbo。這些結果表明，Gemini 的代碼生成能力還有待提高。

圖 15：各個模型在代碼生成任務中的總體準確性。

其次，作者在圖 16 (a) 中分析了 gold solution 長度與模型性能之間的關系。解的長度可以在一定程度上說明相應代碼生成任務的難度。作者發現，Gemini Pro 在解的長度低于 100 時（如較容易的情況），實現了與 GPT 3.5 相當的 Pass@1 分數，但當解的長度變長時，它就會大幅落后。這與前幾節的結果形成了有趣的對比，在前幾節中，作者發現一般情況下，Gemini Pro 在英語任務中對較長的輸入和輸出都能表現穩健。

作者還在圖 16 (b) 中分析了每個解所需的庫對模型性能的影響。在大多數庫用例中，如 mock、pandas、numpy 和 datetime，Gemini Pro 的性能比 GPT 3.5 差。不過，在 matplotlib 的用例中，它的性能要優于 GPT 3.5 和 GPT 4，這表明它在通過代碼執行繪圖可視化時具有更強的能力。

最后，作者展示了幾個具體的失敗案例，在這些案例中，Gemini Pro 在代碼生成方面的表現比 GPT 3.5 差。首先，他們注意到 Gemini 在正確選擇 Python API 中的函數和參數方面略遜一籌。例如，給定以下提示：

Gemini Pro 生成了以下代碼，結果出現了類型不匹配錯誤：

相比之下，GPT 3.5 Turbo 使用了以下代碼，達到了預期效果：

此外，Gemini Pro 的錯誤比例較高，在這種情況下，執行的代碼在語法上是正確的，但不能正確地與更復雜的意圖相匹配。例如，關于以下提示：

Gemini Pro 創建了一種實現方法，只提取唯一的數字，而不刪除那些出現多次的數字。

機器翻譯

這組實驗使用 FLORES-200 機器翻譯基準評估了模型的多語言能力，特別是在各種語言對之間的翻譯能力。作者將重點放在 Robinson et al. (2023) 的分析所使用的 20 種語言的不同子集上，這些語言涵蓋不同程度的資源可用性和翻譯難度。作者對所有選定語言對的測試集中的 1012 個句子進行了評估。

在表 4 和表 5 中，作者對 Gemini Pro、GPT 3.5 Turbo 和 GPT 4 Turbo 與谷歌翻譯等成熟系統進行了比較分析。此外，他們還對 NLLB-MoE 進行了基準測試，NLLB-MoE 是領先的開源機器翻譯模型，以其廣泛的語種覆蓋而著稱。結果表明，谷歌翻譯總體上優于其他模型，在 9 種語言上表現出色；其次是 NLLB，在 0/5-shot 設置下，在 6 種 / 8 種語言上表現出色。通用語言模型顯示出具有競爭力的性能，但在翻譯成非英語語言方面尚未超越專用機器翻譯系統。

表 4：各模型使用 0-shot 提示對所有語言進行機器翻譯的性能（chRF (%) 分數）。最佳分數以粗體顯示，次佳分數以下劃線顯示。

表 5：各模型使用 5-shot 提示對所有語言進行機器翻譯的性能（chRF (%) 分數）。最佳分數以粗體顯示，次佳分數以下劃線顯示。

圖 17 顯示了通用語言模型在不同語言對中的性能比較。與 GPT 3.5 Turbo 和 Gemini Pro 相比，GPT 4 Turbo 與 NLLB 表現出一致的性能偏差。GPT 4 Turbo 在低資源語言方面也有較大改進，而在高資源語言方面，兩種 LLM 的性能相似。相比之下，在 20 種語言中的 8 種語言上，Gemini Pro 的性能優于 GPT 3.5 Turbo 和 GPT 4 Turbo，并在 4 種語言上取得了最高性能。不過，Gemini Pro 在大約 10 種語言對中表現出強烈的屏蔽響應（block response）傾向。

圖 17：按語言對劃分的機器翻譯性能（chRF (%) 分數）。

圖 18 顯示，Gemini Pro 在這些語言中的性能較低，這是因為它傾向于在置信度較低的場景中屏蔽響應。如果 Gemini Pro 在 0-shot 或 5-shot 配置中產生「Blocked Response」錯誤，則該響應被視為「屏蔽」。

圖 18：被 Gemini Pro 屏蔽的樣本數量。

仔細觀察圖 19 可以發現，Gemini Pro 在置信度較高的無屏蔽樣本中略微優于 GPT 3.5 Turbo 和 GPT 4 Turbo。具體來說，它在 5-shot 和 0-shot 設置下分別比 GPT 4 Turbo 多出 1.6 chrf 和 2.6 chrf，比 GPT 3.5 Turbo 多出 2.7 chrf 和 2 chrf。不過，作者對 GPT 4 Turbo 和 GPT 3.5 Turbo 在這些樣本上的性能進行的初步分析表明，這些樣本的翻譯通常更具挑戰性。Gemini Pro 在這些特定樣本上表現不佳，尤其明顯的是，Gemini Pro 0-shot 會屏蔽響應，而 5-shot 則不會，反之亦然。

圖 19：屏蔽和非屏蔽樣本的 chrf 性能（%）。

在對模型的整個分析過程中，作者觀察到，few-shot 提示一般都能適度提高平均性能，其 variance pattern 依次遞增：GPT 4 Turbo < GPT 3.5 Turbo < Gemini Pro。雖然 Gemini Pro 的 5-shot 提示在置信度高的語言中比 0-shot 提示有進步，但在某些語言中，如 hau_Latin，該模型的置信度明顯降低，導致應答受阻（參見表 5）。

圖 20 顯示了按語系或 script 分類的明顯趨勢。一個重要的觀察結果是，Gemini Pro 在西里爾文字上的表現與其他機型相比具有競爭力，但在其他文字上的表現卻不盡如人意。GPT-4 在各種 script 上的表現突出，優于其他模型，其中 few-shot 提示尤為有效。這種效果在使用梵文的語言中尤為明顯。

圖 20：各個模型在不同 script 上的表現 (chrf (%))。

Web 智能體

最后，作者考察了每個模型作為網絡導航智能體的能力，這是一項需要長期規劃和復雜數據理解的任務。他們使用了模擬環境 WebArena，該環境成功的標準是執行結果。賦予智能體的任務包括信息搜索、網站導航以及內容和配置操作。任務涉及各種網站，包括電子商務平臺、社交論壇、協同軟件開發平臺（如 gitlab）、內容管理系統和在線地圖。

作者測試了 Gemini-Pro 的總體成功率、不同任務的成功率、響應長度、軌跡步數以及預測任務無法完成的傾向。表 6 列出了總體性能。Gemini-Pro 的表現與 GPT-3.5-Turbo 接近，但略遜一籌。與 GPT-3.5-Turbo 類似，當提示提到任務可能無法完成時（UA hint），Gemini-Pro 的表現更好。在有 UA hint 的情況下，Gemini-Pro 的總體成功率為 7.09%。

表 6：各個模型在 WebArena 上的表現。

如果按網站類型進行細分，如圖 21 所示，可以看到 Gemini-Pro 在 gitlab 和地圖上的表現不如 GPT-3.5-Turbo，而在購物管理、reddit 和購物網站上的表現則接近 GPT-3.5-Turbo。在多站點任務上，Gemini-Pro 的表現優于 GPT-3.5-Turbo，這與之前的結果一致，即 Gemini 在各種基準的更復雜子任務上表現更好一些。

圖 21：模型在不同類型網站上的 Web 智能體成功率。

如圖 22 所示，一般來說，Gemini-Pro 把更多的任務預測為無法完成，尤其是在給出一個 UA hint 的情況下。Gemini-Pro 在給出 UA hint 的情況下，預測 80.6% 以上的任務無法完成，而 GPT-3.5-Turbo 只預測了 47.7%。需要注意的是，數據集中僅有 4.4% 的任務實際上是無法完成的，因此兩者都遠遠高估了無法完成的任務的實際數量。

圖 22：UA 預測數量。

同時，作者觀察到，Gemini Pro 更傾向于用較短的短語做出回應，在得出結論前采取較少的步驟。如圖 23 (a) 所示，Gemini Pro 有一半以上的軌跡少于 10 步，而 GPT 3.5 Turbo 和 GPT 4 Turbo 的大多數軌跡在 10 到 30 步之間。同樣，Gemini 的大部分回復長度不到 100 個字符，而 GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 的大部分回復長度超過 300 個字符（圖 23 (b)）。Gemini 傾向于直接預測行動，而其他模型則會先進行推理，然后給出行動預測。

圖 23：模型在 WebArena 上的行為。

更多細節請參考原論文。

責任編輯：張燕妮來源：機器之心

模型數據