卡帕西大模型橫評方法太好玩了！四大AI匿名參賽評分，最強出乎意料

2025-11-24 08:54:00

卡帕西剛把這個應用的安裝部署教程分享出來，就立馬被不少網(wǎng)友碼住。

卡帕西又來發(fā)布趣味編程項目了～

這次直接整了一個“大模型議會”（LLM Council）web app。

界面看起來和ChatGPT的聊天形式別無二致，但實際上當用戶輸入問題后，系統(tǒng)會通過OpenRouter調(diào)起多個大模型開會商議。

有意思的是，它們不僅會一起答題，而且還會互相評分、排序，最終將由主席模型給出一個統(tǒng)一答案。

卡帕西剛把這個應用的安裝部署教程分享出來，就立馬被不少網(wǎng)友碼住：

更有甚者表示，或許以后模型自己評價模型本身就能變成一種新的“自動benchmark”：

暢銷書《Python機器學習》作者也很看好這個思路：

LLM議會怎么玩

具體來說，卡帕西的這個LLM議會系統(tǒng)，主要可分為三步流程：

Step 1：讓多個模型同時回答一個問題。

首先使用中間層OpenRouter同時調(diào)用多個大模型，包括：

然后在同一問題下逐個收集它們的回復，并以標簽視圖的形式展示，以便用戶進行檢查。

Step 2：所有模型進行匿名互評。

這時，每個LLM都會收到其他LLM的回復。

為避免偏袒，對它們的身份都做了匿名化處理。

然后要求模型根據(jù)準確性和洞察力對其他模型的回答質(zhì)量進行評估，需要給出評分和詳細理由。

Step 3：主席模型匯總最終回答。

LLM委員會將指定一名主席，將所有模型的回復匯總，并形成一個最終的答案，再轉交給用戶。

于是通過這個過程，就能直接對比不同模型，在處理同一個問題時的風格差異，而且能夠直觀地看到模型之間互相評價的過程。

這套系統(tǒng)，其實是延續(xù)了卡帕西最近分享的用LLM分階段深度閱讀的項目。

PS：在GitHub上也收獲了1.8k Stars。

該項目將傳統(tǒng)的閱讀流程重塑為與LLM協(xié)作的流程，通常閱讀一篇文章內(nèi)容也分為三個階段：

1、先人工自己通讀一次，獲得整體感知和直覺理解。

2、然后將內(nèi)容交給大模型處理，讓它理解重難點、提取結構、總結內(nèi)容等。

3、對文章細節(jié)進行深度追問，例如“為什么作者這里會這樣寫？”

最終就是將寫作對象從人類讀者轉變?yōu)長LM讀者，讓LLM作為中介理解內(nèi)容，再個性化翻譯給不同的讀者聽。

當將大模型議會融入其中后，大模型們的商議結果也很有意思。

卡帕西發(fā)現(xiàn)，大模型一致認為最強、最有洞見的答案來自GPT-5.1，而Claude被公認為最弱，Gemini 3和Grok-4則排名位于中間。

但顯然他對這個答案并不認同，在卡帕西的個人主觀評價中，GPT-5.1內(nèi)容豐富但是結構不夠緊湊；Gemini 3答案更簡潔凝練、信息處理得更好；而Claude答案過于簡略。

此外，令人出乎意料的是，模型幾乎很少出現(xiàn)明顯的偏見，它們通常會愿意承認自己的答案不如另一個模型好。

總的來說，卡帕西認為雖然模型內(nèi)部自評不一定與人類主觀一致，但類似的多模型集成或許將成為一個巨大的可探索空間，甚至可能成為未來LLM產(chǎn)品的一個突破點。

責任編輯：張燕妮來源：量子位