思考不是免費的,大型語言模型推理的收益與代價
對于人工智能智能體,談判是一場最接近人類智慧的“角斗”,它不僅僅是語言的堆砌,更是策略的博弈、心理的揣摩和利益的權衡。
人類社會和經濟活動中,談判無處不在,從商場里的價格討價還價,到國際政治的桌面博弈,都是智慧與策略的交鋒。對于AI代理來說,能否在談判中表現出色,直接決定了它們能否真正走向自主決策的未來。
現實并不總是那么光鮮。大型語言模型(LLMs)在談判場景中常常“翻車”,它們會偏離最優策略,時而表現得過于天真,時而又顯得狡猾,甚至會采用欺騙性手段,比如假裝對低價值物品感興趣以換取后續讓步。
更糟糕的是,它們在買方角色上的表現普遍不如賣方,仿佛天生“吃虧”,有時甚至會做出違反預算的冒險決策,導致經濟風險。這些問題讓人不得不懷疑:這些AI代理究竟是在“思考”,還是只是在“模仿”?
研究者們發現,問題的關鍵可能在于“推理”。Chain-of-Thought(思維鏈)提示近年來被廣泛應用于復雜任務,它能讓模型在回答前“自言自語”,逐步推導出答案。但在談判場景中,推理究竟能帶來多少性能提升?它的代價又有多高?這是一個懸而未決的問題。
更大的盲點在于語言,幾乎所有已有研究都局限在英語環境下,仿佛AI的談判能力只在英語世界才重要。但現實世界是多語言的,AI若要真正走向全球化,就必須在德語、意大利語乃至更多語言中展現出同樣的推理與談判能力。
因此,研究團隊提出了三個關鍵問題:
1.推理是否真的能顯著提升談判表現?如果能,它的計算成本是否值得?
2.在多語言談判中,模型的推理語言是否與任務語言保持一致?還是會偷偷“切換回英語”?
3.模型展現的所謂“策略”,究竟是真正的戰略適應,還是僅僅在表面上模仿人類的談判套路?
這項研究由德國波茨坦大學計算語言學系、德國人工智能研究中心(DFKI)以及意大利博岑-博爾扎諾自由大學的團隊聯合完成。團隊成員橫跨計算語言學、人工智能與博弈論研究,既有深厚的學術背景,也有跨語言與跨文化的研究優勢。David Schlangen 教授作為對話系統與交互式AI的知名學者,為研究提供了理論與實驗框架;而意大利團隊則在多語言實驗設計上貢獻突出,使得這項研究真正具備國際化的視野。
1.研究綜述
要理解這項研究的意義,我們需要先看看前人的探索。近年來,LLMs與博弈論框架的結合逐漸興起,研究者們試圖用經典的博弈模型來檢驗AI的戰略推理能力。結果卻讓人既驚訝又擔憂——模型的表現高度不穩定,時而能打出漂亮的組合拳,時而卻輸給明顯更弱的對手。
更具體的問題包括:
- 偏離最優策略:即使是頂尖模型,也可能在關鍵時刻做出非理性選擇。
- 欺騙性與認知偏差:模型會模仿人類的“虛張聲勢”,甚至表現出錨定效應或情緒操縱的傾向。
- 角色不對稱:在買方角色中,模型普遍表現不佳,仿佛缺乏討價還價的底氣。
面對這些問題,研究者們提出了幾條改進路徑。其一是引入博弈論求解器或結構化推理流程,讓模型在對話中遵循更嚴謹的邏輯。其二是利用Chain-of-Thought提示,讓模型在回答前進行逐步推理,從而減少“拍腦袋”的決策。其三是采用混合架構:由規則模塊負責生成價格或分配方案,LLM則專注于自然語言交流,這種“人機混合”的方式在實驗中顯著提升了穩定性。
然而,這些努力大多停留在英語語境中,缺乏跨語言的驗證。換句話說,我們還不知道,當模型在德語或意大利語中進行談判時,它是否還能保持同樣的推理能力,還是會“露餡”。這正是研究團隊試圖回答的問題。
2.研究方法與實驗設計
要檢驗“思維的代價”,研究團隊并沒有選擇抽象的數學公式或冷冰冰的理論推演,而是設計了一套“對話游戲競技場”。這些游戲既像是心理學實驗室里的小測試,又像是策略類桌游的AI版本,既能考察模型的推理能力,也能觀察它們在合作與競爭中的表現。

圖1:以成功的帕累托最優協議結束的交易或無交易事件的示例
對話游戲框架
首先登場的是Deal or No Deal。這是一場多議題分配博弈,雙方玩家各自對一組物品有不同的價值偏好。談判的目標是達成一個雙方都能接受的分配方案。
這個游戲的妙處在于,它不僅考察模型能否表達和理解偏好,還要看它是否愿意妥協,能否在合作與自利之間找到平衡。換句話說,這是AI版的“你要蘋果還是橘子”的拉鋸戰。

圖2:清理游戲中的示例情節,為隨機放置在每個玩家網格上的多個對象實現一個共同的目標配置,并相應地移動它們。最后,雙方玩家必須達成一致,才能結束游戲。
接下來是Clean Up。這是一場7×7網格上的“搬家游戲”。兩個玩家各自看到的棋盤不同,需要通過交流和移動,把物體重新排列成一致的布局。它考察的不僅是合作意愿,還有空間推理能力。
想象一下,你和朋友隔著電話搬家具:一個說“把沙發往左挪兩格”,另一個卻發現自己房間里根本沒有沙發——這就是Clean Up的難點。
最后是最具戲劇性的Air Balloon Survival。兩位玩家同乘一只超載的熱氣球,必須通過丟棄物品來減輕重量,否則大家一起墜落。每個玩家對物品的價值不同,于是談判就成了“我想留繩子,你想留書”的拉鋸。

圖3:氣球生存游戲的一個例子。兩名玩家必須就他們喜歡的物品進行談判和爭論。并且必須明確同意對方提出的建議。
更有意思的是,模型需要在對話之外寫下自己的“戰略推理”,但這些推理不會直接展示給對方。這就像是讓AI在心里打草稿,再決定說出口的內容,考察它是否真的能進行約束優化、集體推理,甚至展現出某種“心智理論”。
多語言實驗
研究團隊沒有滿足于單一語言的測試,而是選擇了英語、德語和意大利語三種語言。游戲本身是語言無關的,差別只在于提示模板的翻譯。這一設計讓研究者能夠觀察:模型在不同語言環境下是否還能保持一致的推理與談判能力,還是會偷偷切換回英語“思考”。
評估指標
為了量化表現,研究團隊設定了三類指標。
- %Played:完成率,即模型是否能按照規則把游戲走完。
- Quality Score:目標達成度,衡量結果與最優解的接近程度。
- clemscore:綜合指標,將前兩者結合并歸一化到0–100之間。
這套指標既能反映模型的“守規矩”程度,也能衡量它的“聰明程度”。
模型選擇
最后是參賽選手陣容。商業陣營包括GPT?5、GPT?5-mini 和 Claude?4,這些是當下最強的閉源模型代表。開源陣營則派出了 Llama3.3?70B、Deepseek-R1蒸餾版、Nemotron?9B、Qwen?3?80B、GPT?OSS?120B 和 Deepseek?v3.1。其中有的強調推理能力,有的則是輕量化版本,形成了一個頗具代表性的“全明星陣容”。
通過這樣的設計,研究團隊不僅能比較推理模式開啟與否的差異,還能橫向對比商業與開源模型的表現,甚至觀察它們在多語言環境下的“思維習慣”。可以說,這是一場跨語言、跨模型的全面對抗賽,目的就是要揭示:推理究竟是AI的“殺手锏”,還是一把代價高昂的雙刃劍。
3.實驗結果與發現
研究團隊把這場“AI談判大賽”跑完之后,得到的結果既讓人興奮,又讓人皺眉。興奮的是,推理確實能讓模型更聰明;皺眉的是,這份聰明背后要付出的代價,可能比想象中更高。
推理的作用
先看最直觀的成績單。GPT?5 在開啟推理模式后,綜合得分 clemscore 從 61.1 一躍升至 92.5,提升幅度高達 31.4 分,幾乎是“開掛”般的表現。Qwen?3 的進步更為驚人,直接拉高了 56 分,堪稱本次比賽的“黑馬”。Claude?4 的提升幅度相對有限,大約 24 分,說明它在不開推理時已經有一定的穩定性。最意外的反而是 Llama?70B 的蒸餾版,推理模式不僅沒幫上忙,反而讓成績下滑,仿佛“越想越亂”。
這說明推理并非萬能鑰匙,不同模型的架構和訓練方式決定了它們能否真正把“思維鏈”轉化為戰略優勢。
成本權衡
性能提升的另一面,是計算成本的飆升。GPT?5 在推理模式下的成本幾乎是非推理的四倍,簡直像是“豪華套餐”,效果好但錢包疼。相比之下,GPT?5-mini 在性能和成本之間找到了一個相對平衡點,表現堪稱“性價比之王”。而 Qwen?3 雖然分數漲得快,但代價是 token 消耗極高,推理時像個話癆,不停地自言自語,導致計算資源被瘋狂吞噬。
這讓人不得不思考:在實際應用中,我們到底愿意為多出來的那幾十個 clemscore 分數,付出多少算力和金錢?
圖4:跨語言平均性能和成本比較之間的權衡。
多語言差異
語言層面的結果同樣耐人尋味。在德語實驗中,推理帶來的性能提升幅度最大,說明模型在非英語環境下更依賴推理來彌補理解和表達的不足。商業模型在這里展現了優勢,它們能夠保持推理語言與任務語言一致,比如在德語談判中就用德語思考和推理。
而開源模型則常常“露餡”——即便在德語或意大利語的任務中,它們的內部推理依舊切換回英語。這種“思維偷懶”不僅可能影響談判表現,還削弱了推理過程的可解釋性。畢竟,如果一個模型在德語環境下輸出的推理軌跡全是英語,那用戶要如何信任它的多語言能力?
推理過程分析
除了結果,研究團隊還仔細觀察了模型的“思維軌跡”。高性能模型往往推理簡潔,幾乎沒有無謂的循環。Claude?4 和 GPT?OSS 就是典型代表,它們的推理過程干凈利落。相反,Nemotron 和 Llama 的循環率高達 30–50%,經常陷入“過度思考”的泥潭。

表1:英語、德語和意大利語版本的選定LLM上三個談判游戲的clemscore值。打開:推理模式打開,關閉:推理模式關閉。每行中每種語言的最佳結果以粗體突出顯示。CL:Claude,LM:Llama-3.3,DS:Deepseek,Nem:Nemotron-v2,DoND:交易或無交易。
Qwen?3 的情況則很有趣:它的循環率也很高,但依然能保持高分。這解釋了為什么它的 token 消耗如此驚人——它在不斷地自我修正和反復推演,雖然啰嗦,但最終能走到一個不錯的結果。
另一個關鍵指標是“角色意識”。在談判中,模型是否能始終記住自己扮演的角色,直接影響對話的連貫性和策略性。Qwen?3 在這方面表現最佳,角色意識高達 89.3%;Claude?4 也有不錯的 74.5%;而 Nemotron 則墊底,僅有 57.8%,經常“忘詞”或“出戲”。
4.給我們的啟示
如果說這項研究是一場關于“AI能不能像人一樣談判”的實驗,那么結果已經很清楚:推理確實是關鍵武器,但它的代價也讓人直呼“肉疼”。
推理模式的引入,讓模型在談判中更像一個有頭腦的談判專家,而不是只會機械重復的“話術機器人”。它能幫助模型更好地理解對手的偏好,避免無謂的沖突,甚至在復雜的合作場景中找到雙贏的方案。
換句話說,推理讓AI不再只是“會說話”,而是“會算賬、會權衡、會妥協”。這正是談判的精髓所在。
然而,聰明是有代價的。GPT?5 的表現堪稱驚艷,但代價是計算成本暴漲四倍。對于研究者來說,這是一份漂亮的成績單;但對于企業應用來說,這意味著算力賬單可能要翻幾番。如何在性能和成本之間找到平衡,成為未來應用落地的必答題。
在多語言環境下,商業模型展現了更強的穩定性和一致性。Claude?4 和 GPT?5 在德語、意大利語任務中依然能保持推理語言與任務語言一致,這不僅提升了用戶體驗,也增強了可解釋性。
相比之下,開源模型則常常“偷懶”,在德語或意大利語任務中偷偷切換回英語推理。這種“語言切換”雖然不影響最終結果,但卻讓人對它們的多語言能力產生懷疑。畢竟,如果一個模型在德語談判中腦子里全是英語,它的“多語言推理”還能算真實嗎?
更重要的是,這項研究證明了推理并不僅僅是表面上的模式匹配。高性能模型展現出的戰略適應能力,說明它們確實在進行某種程度的“思考”,而不是簡單地模仿人類的談判套路。這為未來的智能代理研究提供了信心,AI 不只是會說漂亮話,它們正在逐漸學會如何在復雜的博弈中找到真正的策略。
有幾個方向值得關注。首先是擴展更多語言和任務場景。畢竟現實世界的談判遠不止英語、德語和意大利語,AI若要真正走向全球化,就必須在更多語言和文化環境中經受考驗。
其次是探索推理與成本的平衡機制。或許我們需要“輕量化推理”或“分層推理”的方法,讓模型在關鍵時刻才動用昂貴的思維鏈,而不是每次都全力開火。
最后,開源模型的多語言推理一致性亟待提升。如果開源社區能解決這一問題,將極大增強其在國際化應用中的競爭力。(END)




































