卡帕西大模型橫評方法太好玩了!四大AI匿名參賽評分,最強出乎意料
卡帕西又來發(fā)布趣味編程項目了~
這次直接整了一個“大模型議會”(LLM Council)web app。
界面看起來和ChatGPT的聊天形式別無二致,但實際上當用戶輸入問題后,系統(tǒng)會通過OpenRouter調(diào)起多個大模型開會商議。
有意思的是,它們不僅會一起答題,而且還會互相評分、排序,最終將由主席模型給出一個統(tǒng)一答案。

卡帕西剛把這個應用的安裝部署教程分享出來,就立馬被不少網(wǎng)友碼住:

更有甚者表示,或許以后模型自己評價模型本身就能變成一種新的“自動benchmark”:

暢銷書《Python機器學習》作者也很看好這個思路:

LLM議會怎么玩
具體來說,卡帕西的這個LLM議會系統(tǒng),主要可分為三步流程:
Step 1:讓多個模型同時回答一個問題。
首先使用中間層OpenRouter同時調(diào)用多個大模型,包括:
- GPT-5.1
- Gemini 3 Pro Preview
- Claude Sonnet 4.5
- Grok-4
然后在同一問題下逐個收集它們的回復,并以標簽視圖的形式展示,以便用戶進行檢查。
Step 2:所有模型進行匿名互評。
這時,每個LLM都會收到其他LLM的回復。
為避免偏袒,對它們的身份都做了匿名化處理。
然后要求模型根據(jù)準確性和洞察力對其他模型的回答質(zhì)量進行評估,需要給出評分和詳細理由。
Step 3:主席模型匯總最終回答。
LLM委員會將指定一名主席,將所有模型的回復匯總,并形成一個最終的答案,再轉交給用戶。
于是通過這個過程,就能直接對比不同模型,在處理同一個問題時的風格差異,而且能夠直觀地看到模型之間互相評價的過程。
這套系統(tǒng),其實是延續(xù)了卡帕西最近分享的用LLM分階段深度閱讀的項目。

PS:在GitHub上也收獲了1.8k Stars。

該項目將傳統(tǒng)的閱讀流程重塑為與LLM協(xié)作的流程,通常閱讀一篇文章內(nèi)容也分為三個階段:
1、先人工自己通讀一次,獲得整體感知和直覺理解。
2、然后將內(nèi)容交給大模型處理,讓它理解重難點、提取結構、總結內(nèi)容等。
3、對文章細節(jié)進行深度追問,例如“為什么作者這里會這樣寫?”
最終就是將寫作對象從人類讀者轉變?yōu)長LM讀者,讓LLM作為中介理解內(nèi)容,再個性化翻譯給不同的讀者聽。
當將大模型議會融入其中后,大模型們的商議結果也很有意思。
卡帕西發(fā)現(xiàn),大模型一致認為最強、最有洞見的答案來自GPT-5.1,而Claude被公認為最弱,Gemini 3和Grok-4則排名位于中間。
但顯然他對這個答案并不認同,在卡帕西的個人主觀評價中,GPT-5.1內(nèi)容豐富但是結構不夠緊湊;Gemini 3答案更簡潔凝練、信息處理得更好;而Claude答案過于簡略。
此外,令人出乎意料的是,模型幾乎很少出現(xiàn)明顯的偏見,它們通常會愿意承認自己的答案不如另一個模型好。
總的來說,卡帕西認為雖然模型內(nèi)部自評不一定與人類主觀一致,但類似的多模型集成或許將成為一個巨大的可探索空間,甚至可能成為未來LLM產(chǎn)品的一個突破點。























