中科院、百度提出新架構：突破參數限制，實現高效推理

發布于 2025-3-4 09:50

瀏覽

0收藏

有不少研究證明，大模型在不斷增加參數的情況下，其性能提升卻逐漸趨于飽和，特別是在受限的數據可用性和計算資源預算下，這種情況非常明顯。

為了解決這一難題，中國科學院信息工程研究所、百度、北京師范大學AI學院的研究人員聯合提出了Inner Thinking Transformer架構（簡稱ITT），通過動態分配計算資源給單個標記，增強了測試性能而無需增加參數。

中科院、百度提出新架構：突破參數限制，實現高效推理-AI.x社區

ITT 的設計基于一個關鍵假設：Transformer 的每一層可以被視為對輸入信息的一次隱式推理。研究人員提出將單個token的生成過程分解為多個內部思考步驟，模型從初始狀態開始，通過一系列的思考步驟逐步更新隱藏狀態，最終生成輸出token。

這種設計允許模型在遇到復雜推理任務時，通過增加思考步驟來提升性能，而無需擴展模型的參數規模。

中科院、百度提出新架構：突破參數限制，實現高效推理-AI.x社區

為了實現這一目標，ITT 引入了 Residual Thinking Connection (RTC) 機制。RTC 的作用是通過迭代累積每個思考步驟的輸出，逐步細化token的表示。與傳統的循環神經網絡相比，RTC 不僅能夠實現深度思考，還能通過學習每個步驟的重要性編碼來衡量和整合不同思考步驟的結果。這種機制使得模型能夠在訓練過程中逐步優化思考過程，并在推理時根據需要動態調整思考步驟的數量。

為了進一步提升計算效率，ITT 引入了 Adaptive Token Routing (ATR) 機制。ATR 的核心思想是動態選擇需要進一步思考的關鍵token，避免對所有token進行不必要的深度處理。模型通過一個路由網絡為每個token分配一個權重，權重較高的token會被選中進行額外的思考步驟。這種選擇性處理不僅減少了計算開銷，還能使模型更加專注于對任務至關重要的信息。

中科院、百度提出新架構：突破參數限制，實現高效推理-AI.x社區

在訓練過程中，路由網絡會根據當前token的表示和思考步驟的編碼來決定是否對其進行進一步處理，使得模型能夠在訓練時學習到最優的思考模式，并在推理時根據需要靈活調整計算資源的分配。通過這種方式，ITT 實現了在不增加模型參數的情況下，對關鍵token進行深度處理的目標。

除了動態思考步驟和計算資源分配，ITT 還引入了 Thinking Step Encoding 機制。該機制通過為每個思考步驟分配一個獨特的編碼，幫助模型區分不同的思考階段。這種編碼不僅能夠衡量每個步驟的重要性，還能指導模型如何將不同步驟的結果進行整合。

在優化過程中，ITT 的設計使得模型能夠通過多步優化來替代傳統的單步優化。每個思考步驟的參數更新是基于全局損失的梯度乘以局部映射的導數。這種設計使得模型在反向傳播時能夠更穩定地收斂，并避免了梯度消失或爆炸的問題。通過這種方式，ITT 實現了在不增加模型參數的情況下，通過動態擴展思考步驟來提升模型的推理能力和性能。

中科院、百度提出新架構：突破參數限制，實現高效推理-AI.x社區