陶哲軒評測GPT-5 Pro:企業R&D團隊如何借鑒人機協作模式
隨著OpenAI在2025年發布其GPT-5系列模型,其中被明確標注為“研究級智能”的GPT-5 Pro版本,在多項基準測試中取得了驚人的成績。然而,標準化的基準測試,與真實世界中充滿不確定性的前沿科研探索,存在著本質的區別。一個更具深遠意義的問題是:當今最頂尖的人類智慧,與最頂尖的AI模型協作時,會發生什么?
近期,菲爾茲獎得主、著名數學家陶哲軒,為我們提供了一個極其珍貴的觀察樣本。他選擇了一個自己并不熟悉的開放性數學問題(關于曲率有界的球面幾何),并詳細記錄了使用GPT-5 Pro進行探索的全過程。這次人機協作的深度復盤,為我們揭示了當前AI在頂尖科研中的真實能力邊界,以及未來高效人機協作的可能模式。
一個能力強大的計算與知識引擎
在任務的微觀執行層面,GPT-5 Pro展現出了作為“超級助手”的強大價值。陶哲軒的記錄顯示,在處理具體的、有明確目標的子任務時,AI的表現高度可靠。
這包括完成繁瑣但必要的符號計算、根據指令進行邏輯推導、以及在浩如煙海的文獻中快速查找并引入用戶可能不熟悉的關鍵工具。例如,在這次探索中,AI就準確地引入了“Minkowski第一積分公式”,并完成了所有必要的計算,甚至給出了一個特定情形的完整證明。在這些環節,GPT-5 Pro極大地釋放了研究者的認知資源。頂尖科學家可以將寶貴的精力從具體的計算和驗證工作中解放出來,更專注于宏觀的戰略思考和創造性的路徑探索。
對于廣大的科研工作者和開發者而言,這意味著AI在微觀尺度上,已經可以成為一個高度可靠的協作伙伴。無論是幫助博士生進行文獻綜述,還是協助軟件工程師編寫和驗證某個具體的算法模塊,GPT-5 Pro都能顯著提升工作效率和準確性。它就像一個基于其龐大訓練數據集、不知疲倦且計算能力超群的助理,能夠可靠地執行所有明確的指令。

策略制定的挑戰與模型對用戶假設的依賴
然而,當任務從微觀的“執行”上升到中觀的“策略制定”層面時,GPT-5 Pro的局限性便開始顯現,甚至在某些時刻,它的“幫助”反而可能成為一種干擾。
陶哲軒在評測中敏銳地指出了一個核心問題:模型表現出對用戶假設的過度依賴。當他提出一個基于直覺但實際上存在問題的假設時,GPT-5 Pro并未提出質疑或指出其潛在的矛盾,反而會順著這個思路,給出看似合理但實則基于錯誤前提的推導。它贊同了用戶的思路,從而強化了專家的錯誤直覺。
這揭示了當前AI的一個根本性局限:它擁有強大的推理能力,但缺乏真正的、獨立的批判性思維。它可以在一個給定的框架內進行高效的演繹,但很難跳出這個框架,去審視框架本身是否合理。對于研究者而言,這種缺乏批判性反饋的特性是需要警惕的,因為它可能讓你在一個錯誤的方向上投入大量的時間和精力。
這也為開發者在設計復雜AI應用時敲響了警鐘。在構建需要進行自主決策的AI Agent時,必須意識到模型可能會盲目遵循用戶的隱含假設。因此,引入“批判性反饋回路”變得至關重要。例如,開發者可以設計一個Agent,讓它在執行關鍵決策前,主動進行一次“反方論證”,即明確提示模型“請從反對的角度審視這個計劃,并列出潛在的風險和問題”。另一種更穩健的工程實踐是采用多模型驗證,讓一個獨立的模型實例來審查第一個模型的策略規劃,從而通過交叉驗證來降低風險。
作為探索催化劑的價值
盡管在中觀策略層面存在局限,但在整個科研探索的宏觀尺度上,GPT-5 Pro的價值又重新得以體現,但這種價值并非直接的“答案提供者”,而是“探索催化劑”。
在科研的無人區中,探索本身就是一個不斷試錯的過程。研究者需要提出大量的假設,然后快速地驗證或證偽它們。在這個過程中,GPT-5 Pro憑借其強大的計算和推理能力,可以極大地加速這個循環。陶哲軒指出,即便AI有時會跟著他走入死胡同,但這個“進入并走出死胡同”的過程,因為AI的參與而變得前所未有的快。
AI幫助他快速地探索、驗證并舍棄了大量不合適的思路,從而更快地逼近問題的核心難點。從這個角度看,AI扮演了一個高效的“思想實驗模擬器”。它讓研究者能夠以極低的成本,進行大規模的探索,從而加深對問題整體結構和內在困難的理解。
這種價值模式,對于軟件開發等工程領域同樣適用。開發者可以利用AI快速地構建和測試多種不同的架構原型,評估其優劣,即便最終采納的方案與AI最初的建議完全不同,這個由AI加速的“原型驗證”過程本身,也已經創造了巨大的價值。
構建高效互補的人機協作新范式
陶哲軒的這次深度實踐,為我們描繪了一幅真實且具啟發性的人機協作圖景。它告訴我們,當前最強大的AI,并非一個可以取代頂尖專家的“全知全能者”,而是一個能力邊界清晰、優缺點極其鮮明的強大工具。
未來最高效的人機協作模式,或許是一種“專家飛行員與AI副駕駛”的關系。人類專家憑借其深厚的領域知識、直覺和批判性思維,負責制定宏觀戰略、判斷核心方向和審視關鍵假設。而AI則作為最強大的副駕駛,負責執行所有復雜的微觀操作、處理海量的信息、并加速探索過程中的試錯循環。
理解并善用這種協作模式,將是未來所有知識工作者和開發者釋放AI潛力的關鍵。這要求我們在工作流中主動設計驗證環節,保持必要的批判性審視,并利用多模型交叉驗證等工程手段來確保結果的可靠性。只有這樣,我們才能在人與機器之間,建立起一種真正高效且互補的信任關系。

















