S1-Bench:評估大型推理模型中的系統(tǒng) 1 思維
介紹
大型推理模型 (LRM) 在解決復(fù)雜問題方面表現(xiàn)出了令人印象深刻的能力,但它們常常難以處理人類憑直覺就能解決的簡單任務(wù)。這種悖論是名為 S1-Bench 的新基準(zhǔn)測試的核心,該基準(zhǔn)測試專門針對評估 LRM 中的“系統(tǒng) 1”思維能力。
與大多數(shù)側(cè)重于復(fù)雜推理任務(wù)的現(xiàn)有基準(zhǔn)測試不同,S1-Bench 考察了 LRM 如何有效地處理簡單、直觀的問題,這些問題應(yīng)該只需要最少的思考。該基準(zhǔn)測試表明,當(dāng)前的 LRM 傾向于“過度思考”簡單問題,從而導(dǎo)致效率低下,有時甚至降低準(zhǔn)確性。

S1-Bench 性能圖圖 1:各種 LRM 在 S1-Bench 上的性能比較,繪制了準(zhǔn)確率與平均響應(yīng) token 的關(guān)系。該圖表明,許多較大的模型會生成明顯更多的 token,但沒有相應(yīng)的準(zhǔn)確率提升,這表明它們在處理簡單任務(wù)時效率低下。
雙系統(tǒng)框架
該研究基于認(rèn)知心理學(xué)的雙系統(tǒng)框架,該框架將人類思維分為兩個系統(tǒng):
1.系統(tǒng) 1(直覺思維):快速、自動且毫不費力的處理,以最少的有意識思考來處理日常任務(wù)和模式識別。
2.系統(tǒng) 2(審慎思維):緩慢、費力且分析性的處理,解決需要仔細(xì)推理和逐步分析的復(fù)雜問題。
雖然人類會根據(jù)任務(wù)的復(fù)雜性自然地在這兩個系統(tǒng)之間切換,但 LRM 的主要設(shè)計和訓(xùn)練目標(biāo)是在系統(tǒng) 2 思維方面表現(xiàn)出色。當(dāng)它們遇到可以通過更直觀的方法受益的簡單任務(wù)時,這會產(chǎn)生效率低下。作者認(rèn)為,真正智能的系統(tǒng)應(yīng)該能夠根據(jù)任務(wù)要求動態(tài)選擇合適的認(rèn)知系統(tǒng)。
S1-Bench 設(shè)計與方法
S1-Bench 經(jīng)過精心設(shè)計,以確保其問題真正簡單直觀。該基準(zhǔn)測試包括 380 個問題,涵蓋四個主要類別和 28 個子類別,包括英語和中文。

S1-Bench 構(gòu)建過程圖 2:S1-Bench 的構(gòu)建工作流程,展示了生成、驗證和完善問題的迭代過程,以確保簡單性和準(zhǔn)確性。
基準(zhǔn)測試的構(gòu)建過程包括:
1.問題生成:創(chuàng)建跨多個類別的各種問題。
2.質(zhì)量控制:使用判別器過濾掉模棱兩可或復(fù)雜的問題。
3.簡單性驗證:驗證小型語言模型是否可以輕松回答問題,以確認(rèn)其簡單性。
4.迭代改進(jìn):修改過于復(fù)雜的問題,直到它們滿足簡單性標(biāo)準(zhǔn)。
S1-Bench 中的問題刻意簡短,大多數(shù)問題僅包含 6-17 個 token:

問題 Token 長度分布圖 3:S1-Bench 中問題 token 長度的分布,表明大多數(shù)問題簡潔明了。
S1-Bench 中的四個主要類別是:
1.推理問題:簡單的邏輯或數(shù)學(xué)問題(例如,“7減去7是多少?”)
2.知識問題:基本的事實查詢(例如,“化學(xué)家瑪麗·居里的性別是什么?”)
3.指令遵循:需要特定輸出格式或約束的任務(wù)
4.分析問題:簡單的分類或識別任務(wù)
評估指標(biāo)
該研究使用幾個關(guān)鍵指標(biāo)評估了 22 種不同的 LRM:
1.格式指標(biāo):
?L-Corr:衡量模型將思維過程與最終答案分離的程度
?S-Corr:評估對特定輸出格式要求的遵守情況
2.效率指標(biāo):
?ART(平均響應(yīng)Token數(shù)) :量化模型輸出的長度,較短的響應(yīng)表示更高的效率
3.準(zhǔn)確性指標(biāo):
?pass@1:衡量首次嘗試的答案是否正確
?acc@k:評估采樣 k 次并選擇最常見答案時的準(zhǔn)確性
這些指標(biāo)提供了對 LRM 在簡單任務(wù)上的效率和有效性的全面評估。
主要發(fā)現(xiàn)
該研究揭示了關(guān)于 LRM 處理簡單任務(wù)的幾個關(guān)鍵見解:
1.低效性:在解決相同的簡單問題時,LRM 生成的輸出比小型語言模型長 15.5 倍。這表明在處理直觀任務(wù)時存在顯著的低效率。
2.低準(zhǔn)確性:盡管采用了復(fù)雜的推理過程,但與小型模型相比,大型模型有時在簡單問題上獲得的準(zhǔn)確性較低。這表明過度思考實際上會阻礙在簡單任務(wù)上的表現(xiàn)。
3.與模型大小沒有明確的相關(guān)性:該研究發(fā)現(xiàn)模型大小與響應(yīng)長度之間沒有直接關(guān)系,表明低效率不僅僅是參數(shù)數(shù)量的函數(shù)。
4.任務(wù)特定的變化:LRM 在處理指令遵循問題時表現(xiàn)出最顯著的 token 低效率,這表明它們尤其難以將簡單的指令映射到簡潔的行動。
不同問題類別中 token 使用情況的綜合熱圖說明了這些低效率:

Token Usage Heatmap圖 4:熱圖顯示了每個模型在不同子類別中的 token 使用情況。較深的顏色表示使用的 token 更多,揭示了不同任務(wù)類型中的低效率模式。
過度思考分析
該研究提供了對 LRM 中“過度思考”現(xiàn)象的詳細(xì)分析。作者將模型響應(yīng)分解為兩個組成部分:
1.初始思考:用于啟動推理過程的 token
2.額外思考:在完成基本推理后生成的額外 token

Initial vs. Additional Thinking圖 5:比較了不同 LRM 之間的初始思考與額外思考,表明許多模型在不必要的額外思考上花費了不成比例的 token。
該研究發(fā)現(xiàn),大多數(shù) LRM 在處理簡單問題時會進(jìn)行多輪“解決方案”。這種迭代推理通常會引入冗余,因為模型會在不同的推理段中重復(fù)相似的信息。相似性分析表明,內(nèi)容相似性隨著每個額外的推理段而增加,表明信息價值正在降低:

Reasoning Redundancy Analysis圖 6:不同問題類型之間推理段的最大相似性得分,顯示隨著推理的進(jìn)行冗余度增加。
這種模式表明 LRM 缺乏一種有效的機制來識別它們何時達(dá)到了足夠的推理水平,并且應(yīng)該提供一個簡潔的答案。
錯誤模式
一個特別有趣的發(fā)現(xiàn)是,LRMs有時會在推理的早期階段得出正確的答案,但隨后會偏離并產(chǎn)生不正確的最終答案。錯誤分析揭示了幾種模式:
1.正確的思考,錯誤的結(jié)論:模型有時會在整個思考過程中進(jìn)行正確的推理,但卻莫名其妙地給出一個錯誤的最終答案。
2.不正確的中間結(jié)論:準(zhǔn)確率較低的模型通常在其推理鏈中包含不正確的步驟。
3.答案識別失敗:一些模型在推理過程中正確地提到了答案,但未能將其識別為最終答案。

錯誤模式分析圖 7:錯誤模式分析,顯示了思考過程 (TP) 和最終答案 (FA) 之間的關(guān)系。該圖表揭示了模型在思考中提供正確信息但得出不正確最終答案的情況。
這些錯誤模式表明,LRMs 的擴展推理過程有時可能會引入混亂而不是清晰性,尤其是在應(yīng)該憑直覺回答的問題上。
簡單性預(yù)判
一個有趣的發(fā)現(xiàn)是,許多 LRMs 能夠識別出一個問題何時簡單,但它們?nèi)匀粫M(jìn)行冗長的推理過程。該研究分析了模型明確評論問題簡單性的案例:

簡單性預(yù)判分析圖 8:分析模型識別問題簡單性的能力以及對 Token 使用的影響。上面的圖表顯示了每個模型明確識別問題為簡單的頻率,而下面的圖表比較了有和沒有這種識別時的 Token 使用情況。
該分析揭示了模型識別簡單性的能力與其響應(yīng)簡單問題的行為之間存在脫節(jié)。即使模型明確承認(rèn)問題很簡單,它們通常仍然會產(chǎn)生冗長的響應(yīng)——這表明對簡單性的識別并不能有效地觸發(fā)更有效的響應(yīng)策略。
意義和未來方向
該研究指出了未來工作的一些重要意義和方向:
1.雙系統(tǒng) LRMs:研究結(jié)果強調(diào),需要能夠根據(jù)任務(wù)要求在系統(tǒng) 1 和系統(tǒng) 2 思考之間動態(tài)切換的 LRMs。這樣的模型將更有效率,并且在更廣泛的任務(wù)中可能更準(zhǔn)確。
2.利用預(yù)判:由于許多 LRMs 可以識別出一個問題何時簡單,未來的工作應(yīng)側(cè)重于開發(fā)允許模型利用這種識別來產(chǎn)生更簡潔響應(yīng)的機制。
3.訓(xùn)練數(shù)據(jù)考慮:作者認(rèn)為,這個問題可能源于訓(xùn)練數(shù)據(jù)強調(diào)對所有類型的問題進(jìn)行冗長的推理。未來的訓(xùn)練方法應(yīng)包括復(fù)雜問題的詳細(xì)推理示例和簡單問題的簡潔響應(yīng)示例。
4.更復(fù)雜的提示:研究表明,當(dāng)前的提示策略可能無法有效地指導(dǎo)模型根據(jù)任務(wù)復(fù)雜性調(diào)整其推理深度。開發(fā)更好的提示技術(shù)可能有助于解決過度思考問題。
5.認(rèn)知框架:作者建議開發(fā)更細(xì)致的認(rèn)知框架,使 LRMs 能夠更好地將其推理方法與任務(wù)要求相匹配。
結(jié)論
S1-Bench 代表了對 LRMs 的評估和理解的重要貢獻(xiàn),它強調(diào)了一個關(guān)鍵的局限性:過度思考簡單問題的趨勢。這種低效率不僅導(dǎo)致不必要的計算成本,而且還可能導(dǎo)致簡單任務(wù)的準(zhǔn)確性降低。
該基準(zhǔn)測試為評估當(dāng)前和未來大型語言模型的系統(tǒng) 1 思維能力提供了一個有價值的工具。通過量化大型語言模型與理想雙系統(tǒng)模型之間的性能差距,S1-Bench 激發(fā)了對更具認(rèn)知靈活性的 AI 系統(tǒng)的開發(fā),這些系統(tǒng)可以高效地處理簡單和復(fù)雜的任務(wù)。
研究結(jié)果表明,真正先進(jìn)的 AI 系統(tǒng)需要發(fā)展出根據(jù)任務(wù)復(fù)雜性動態(tài)調(diào)整其推理深度的能力——就像人類一樣。這代表著一個重大的挑戰(zhàn),同時也為人工智能的未來研究提供了一個令人興奮的方向。
本文轉(zhuǎn)載自??芝士AI吃魚??,作者:芝士AI吃魚

















