AAAI前主席Subbarao Kambhampati:LLM-Modulo框架助力大模型完成規劃任務! 原創
研究人員對大型語言模型(LLMs)在規劃和推理任務中的作用存在相當大的困惑。一方面存在過于樂觀的說法,即LLMs只需適當的提示或自我驗證策略就能夠完成這些任務。另一方面,可能存在過于悲觀的說法,即LLMs在規劃/推理任務中的唯一作用就是將問題規范從一種語法格式轉換為另一種,并將問題轉移到外部符號求解器。
Subbarao Kambhampati教授認為這兩種極端觀點都是錯誤的。自回歸LLMs本身不能完成規劃或自我驗證(畢竟后者是一種推理形式),并對文獻中存在誤解的原因進行了一些解釋。Subbarao Kambhampati教授還將主張將LLMs視為具有更有意義角色的通用近似知識源,超越簡單的前端/后端格式轉換器,在規劃/推理任務中發揮更多作用。Subbarao Kambhampati教授提出了一個LLM-Modulo框架的愿景,將LLMs的優勢與外部基于模型的驗證器結合在一個更緊密的雙向交互體制中。Subbarao Kambhampati教授展示如何使用LLMs的幫助來獲取驅動外部驗證器的模型本身,與僅僅將LLMs和符號組件串聯起來不同,這種LLM-Modulo框架提供了更好的神經符號方法,提供了LLMs和符號組件之間更緊密的集成,并允許將基于模型的規劃/推理體制擴展到更靈活的知識、問題和偏好規范。
簡介
大型語言模型(LLMs)實質上是在大規模語言語料庫上訓練的N元模型,可以說是被訓練在網絡規模的語言語料庫上(或者說是我們的集體意識),這些模型展現出了讓人意想不到的語言行為,超乎了人們對文本補全系統的預期。它們看似多才多藝的特性引起了許多研究人員的興趣,讓他們想知道這些模型是否也能在通常與第二系統能力相關的規劃和推理任務中表現出色。表面上看,這似乎不太可能,因為從訓練和操作來看,LLMs最好被視為一個巨大的偽第一系統。即使從純工程的角度來看,一個需要恒定時間產生下一個標記的系統也不可能自行進行有原則的推理。毫不奇怪,基于LLMs在推理任務上的軼事表現引起的最初的興奮情緒在最近一系列質疑這種行為魯棒性的研究(如規劃)。盡管如此,文獻中仍然不斷有關于LLMs規劃和推理能力的聲稱。與對LLMs規劃和推理能力的不合理樂觀態度形成鮮明對比的是,關于LLMs在規劃/推理任務中可以發揮的作用的不合理悲觀態度也在存在。一些努力主張僅將LLMs用作華麗的翻譯工具——將嵌入文本格式的推理問題轉換為符號表示,然后將其交給外部經典符號求解器(帶有所有相關的表達能力和搜索復雜性挑戰。

事實上,LLMs遠不止是機器翻譯工具。它們是一種近似知識源,是在我們的集體意識上訓練的。雖然它們不太可能擁有第二系統的能力,但它們仍然可以成為解決第二系統任務的寶貴資源。換句話說,往昔的煉金術問題不在于化學是無用的,而是人們想要欺騙自己,認為化學——本身就是一門相當了不起的學科——只要適當引導就可以成為核物理學。關于LLMs能力的困惑,或者說LLMs煉金術,似乎并沒有那么大的不同——在忽視它們擅長的方面和賦予它們沒有的能力之間搖擺不定。
LLM-Modulo魯棒規劃框架
Subbarao Kambhampati教授提出了一個通用的“LLM-Modulo”框架。

上圖給出了設想的LLM-Modulo框架的示意圖。可以很容易地看出,底層架構是一個生成-測試-評價循環,LLM生成候選計劃,一組評論家對候選進行評論。循環以LLM獲取問題規范并生成其第一個計劃候選開始。請注意,在這種架構中,LLM幫助生成的計劃具有由外部可靠評論家提供的合理性保證。這意味著通過這種架構產生的計劃將構成更好的合成數據語料庫,用于任何旨在改進/定制LLM生成能力的微調階段。
首先,注意到LLM-Modulo架構是一種涉及LLMs與外部評論家而不是求解器進行交互的“生成-測試”架構。這是一個有意識的決定——因為這樣可以讓LLM猜測/生成候選方案以滿足評論家,而不是處理求解器的表達能力和搜索復雜性問題。其次,該框架明確承認LLMs不僅可以生成關于計劃候選人的近似想法,還可以生成關于領域模型、問題簡化策略和問題規范的修正。該框架還承認LLMs擅長格式/語法變化。因此,該框架利用了LLMs的所有這些能力,讓它們在規劃中扮演多種角色。最后,該架構精心限制了人類的角色——領域專家與LLM進行交互,以揭示(部分)評論家使用的模型,而最終用戶與LLM協作完善任何不完整的問題規范。一個值得注意的、有意為之的缺失是人類參與規劃的內循環——例如,通過迭代提示。除了給復雜規劃問題的人類帶來不可行的負擔外,這種迭代提示策略還以其“聰明的漢斯”效應而臭名昭著。
論文:https://arxiv.org/pdf/2402.01817
誰是Subbarao Kambhampati?

Subbarao Kambhampati(簡稱Rao)教授是亞利桑那州立大學計算機科學教授,曾任人工智能促進協會(AAAI)主席。他的研究重點是自動化規劃和決策制定,特別是在人類感知的人工智能系統背景下。他是一位備受贊譽的教師,花費大量時間思考人們對人工智能的公眾認知和社會影響。他曾是美國國家科學基金會的年輕研究員,并且是AAAI的會士。他在多個角色中為人工智能社區提供服務,包括擔任IJCAI 2016的程序主席和AAAI 2005的程序聯合主席。Rao畢業于印度理工學院馬德拉斯分校獲得學士學位,后在馬里蘭大學學院公園分校獲得博士學位。
本文轉載自公眾號AIGC最前線

















