精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024 精華

發布于 2024-5-13 10:25
瀏覽
0收藏

遇到一個問題用不同表達方式prompt時,大模型往往會給出兩種不同的答案。


比如,「秘魯的首都是什么」,「利馬是秘魯的首都嗎」。


對于這種回答不一致的問題,科學家們紛紛為大模型的「智商」擔憂起來。


正如了LeCun所言:

LLM確實比狗積累了更多的事實知識和語言能力。但是它們對物理世界的理解能力,以及推理規劃能力,遠遠不及狗。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

那么,有沒有一種方式,能夠破解大模型幻覺,讓結果更加準確、高效?


來自MIT的研究人員,將「博弈論」的思想引入大模型的改進中。


他們共同設計了一個游戲,在游戲中,讓模型的兩種模式(生成式和判別式)相互對抗,努力找到它們可以達成一致的答案。


這個簡單的博弈過程,被稱為「共識博弈」(CONSENSUS GAME)。


也就是,讓模型自我對抗,以提升LLM準確性和內部一致性。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

論文地址:??https://openreview.net/pdf?id=n9xeGcI4Yg??


具體來說,這是一種免訓練,基于博弈論的語言模型解碼過程。


新方法將語言模型解碼,視為一種正則化的不完全信息序列信號博弈游戲——稱之為CONSENSUS GAME(共識博弈)。


其中,生成器(GENERATOR)試圖使用自然語言句子,向一個判別器(DISCRIMINATOR)傳達抽象的正確性參數。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

然后,研究人員開發了計算程序,以尋找博弈的近似均衡,從而得到一種名為「均衡排序」(EQUILIBRIUM-RANKING)的解碼算法。


在多個基準測試中,「均衡排序」策略在LLaMA-7B的表現中,明顯超越LLaMA-65B,并與PaLM540B相媲美。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

最新論文已被ICLR 2024接收。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

谷歌研究科學家Ahmad Beirami表示,「幾十年來,LLM對提示的響應方式一直如出一轍。MIT研究人員提出了將博弈論引入這一過程的新穎想法,開創了一個全新的范式,這有可能帶來大量新的應用」。

游戲,不再單純是衡量AI的標準

以往,通過機器學習在游戲競賽中的表現,去判斷某個AI系統是否取得成功。

而這樣的案例,比比皆是。


1997年,IBM深藍計算機擊敗了國際象棋特級大師Garry Kasparov,創下了所謂的「思考機器」的里程碑。


19年后,谷歌DeepMind發明的AlphaGo,在圍棋比賽中一舉戰勝李世石。


五局比賽中獲勝四局,揭示了人類在某些領域已不再獨占鰲頭。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

不僅如此,AI還在跳棋、雙人撲克,以及其他的「零和游戲」中超越了人類。


與以往不同的是,MIT團隊而是選擇從另一個角度來看問題——用游戲去改進人工智能。


對于AI研究人員來說,一款稱為「Diplomacy」的游戲,提出了一個更大的挑戰。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

由Allan B. Calhamer于1959年設計的經典桌游

與只有2個對手玩家的游戲不同,Diplomacy游戲有7個玩家參與,每個人的動機都很難看透。


要想獲勝,玩家必須談判,締結合作關系,但不得不提防的是,任何時候任何人都可能遭到背叛。


這款游戲如此復雜,以至于2022年,Meta團隊發布的Cicero在40局游戲后,達到「人類水平」時,引發一陣轟動。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

論文地址:https://www.science.org/doi/10.1126/science.ade9097

盡管Cicero沒能戰勝世界冠軍,但它在與人類參與者的比賽中進入了前10%,表現足夠優秀。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

現在,論文作者Athul Paul Jacob是MIT的博士生,曾在Meta實習期間參與了這次研究。


研究期間,Jacob對Cicero依賴語言模型,與其他玩家進行對話的事實感到震驚。


他感受到了,尚未開發出的AI潛力。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

Athul Paul Jacob幫助設計了「共識博弈」——為LLM提供了一種提高其準確性和可靠性的方法


于是,他便提出,如果將重點轉移到,利用游戲來提高LLM的性能上會怎樣?

1000場比賽,讓LLM自我對抗

為了追尋這一問題的答案,2023年Jacob與麻省理工學院的Yikang Shen、Gabriele Farina,以及導師Jacob Andreas一起研究,什么可以促進「共識博弈」。


這一思想的核心是,將兩個人之間的對話想象成一個合作游戲。


當聽者理解說話者想要傳達的東西時,就成功了。


尤其是,「共識博弈」的目的是,旨在協調LLM的兩個系統——生成器和辨別器。


眾所周知,生成器負責處理生成性問題,而辨別器負責處理辨別性問題。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

經過幾個月的研究,他們終于將這一原則,構建成了一場完整的比賽。


首先,生成器收到一個問題——可以來自人類,也可以來自預存在的名單中,比如「奧巴馬出生在哪里」。


然后,生成器會得到一些候選響應,比如火奴魯魯(Honolulu)、芝加哥(Chicago)、內羅畢(Nairobi)。


同樣,這些響應的選項,可以來自人類、列表,或是由語言模型本身執行搜索。


但在回答之前,生成器會先根據一次公平的隨機擲幣的結果,被指示生成正確或錯誤的答復。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

如果結果為正面,那么生成器就會嘗試給出正確的答案。


然后,生成器將原始問題,及其選擇的回答,一并發送給判別器。


如果判別器判定生成器,是有意地發送了正確的回答,作為一種激勵,它們每人得到一分。


而如果結果為反面,生成器就會給出它認為是錯誤的答案,那判別器看出它故意給了錯誤答案,它們將在分別得到一分。


這就體現了策略的核心點,即通過激勵,讓它們達成一致。


在這個博弈過程開始時,生成器和判別器都有自己對答案的「先驗信念」。


這些「信念」以概率分布的形式體現,比如,生成器基于從互聯網獲取的信息,可能會認為:

奧巴馬出生在火奴魯魯的概率是80%,芝加哥10%,內羅畢5%,其他地方5%。


當然判別器,也會有不同概率分布的「先驗信念」。


雖然兩個「玩家」會因達成一致而獲得獎勵,但如果偏離自己「先驗信念」太多時,也會被扣分。


這樣一來,可以鼓勵「玩家」將從互聯網獲取的知識,融入到回答中,從而讓模型更加準確。


如果沒有這種機制,它們可能會就一個完全錯誤的答案(如Delhi)上達成一致,卻仍然獲得分數。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

對于每個問題,這兩個系統相互之間進行了大約1000場比賽。


在無數次迭代的過程中,雙方都了解了對方的「信念」,并相應地修改了自己的戰略。


最終,生成器和判別器開始達成更多共識,因為它們逐漸進入了一種稱為「納什均衡」(Nash equilibrium)的狀態。


這可以說是博弈論的核心概念。


「納什均衡」代表了游戲中的一種平衡狀態,在這點上,任何玩家都無法通過改變策略,來改善個人結果。


比如,在石頭剪刀布游戲中,當玩家選擇三個選項的概率正好都是1/3時,才能獲得最佳結果,任何其他策略都會導致更糟糕的結果。


在「共識博弈」中,「納什均衡」可以通過多種方式實現。


比如,判別器可能會觀察到,每當生成器將奧巴馬的出生地回答為「火奴魯魯」時,它就會得分。


經過多輪博弈,生成器和判別器會學習到,繼續這種作答方式會得到獎勵,而沒有動機改變策略。


這種一致的作答方式,就代表了對于該問題的一種可能的「納什均衡」。

70B參數Llama,媲美5400億參數PaLM

除此之外,還可能存在其他「納什均衡」的解。


MIT團隊還依賴于一種改進的「納什均衡」形式,結合了玩家們的「先驗信念」,有助于讓回答結果更加貼近現實。


為了測試「共識博弈」的效果,研究團隊在一些中等參數規模的語言模型(70億-130億參數)上進行了一系列標準問題測試。


經過訓練后的這些模型,正確答案的比例明顯高于未經訓練的模型,甚至高于一些擁有高達5400億參數的大型模型PaLM。


這不僅提高了模型的答案準確性,也增強了模型的內部一致性。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

另外,在TruthfulQA(生成)的結果上,具有ER-G的LLaMA-13B優于或與所有基線持平。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

研究人員在GSM8K測試集上,對不同方法的平均準確率進行了評估和對比。


除了greedy外,都是對20個候選回答進行了采樣。


基于「均衡排序」的方法,其性能與多數投票基線相當,或者稍微好一些。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

一般來說,任何LLM都可以通過與自身進行「共識博弈」從中獲益。


最重要的是,研究人員成,只需在一臺筆記本上,進行的1000輪「共識博弈」僅需幾毫秒的時間,計算代價很小。


Omidshafiei表示,「這種方法非常高效,不需要對基礎語言模型進行訓練或修改」。

下一步,大小模型一起游戲

在「共識博弈」取得初步成功后,Jacob現在正在探索將博弈論,應用到LLM研究中的其他方式。


在這個基礎上,他現在又提出了一種新的方法,暫稱為「集成博弈」(ensemble game)。


在「集成博弈」中,有一個主模型(primary LLM),與若干個小型模型進行博弈互動。

這些小型模型中,至少有一個扮演「盟友」角色,至少有一個扮演「對手」角色。


問題出現時,比如法國首都是什么,如果主模型與「盟友」模型給出相同答案,主模型會獲得分數。

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024-AI.x社區

如果與「對手」模型給出不同答案,也會獲得分數。


通過這種與小模型的博弈互動,并不需要對主模型進行額外訓練或改變參數,就可以進一步提升主模型的性能表現。


這種將大模型與多個小模型集成互動的新范式,讓大模型可以借鑒小模型的優點。


同時還能相互制約,從而提高整體的準確性和一致性。


在未來,它將為提升LLM性能開辟了一種全新的思路和方法。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/Am7N1CF5miK4vOcrf1-igA??

收藏
回復
舉報
回復
相關推薦
熟妇熟女乱妇乱女网站| 欧美在线亚洲一区| 欧美熟妇另类久久久久久多毛| av在线free| 成人免费视频视频| 秋霞成人午夜鲁丝一区二区三区| 小早川怜子久久精品中文字幕| 成人精品国产| 亚洲一区二区三区影院| 蜜桃视频日韩| 国产精品无码专区av免费播放| 影音先锋亚洲电影| 亚洲天堂av在线免费| 一区二区久久精品| 国内激情视频在线观看| 国产精品午夜电影| 国产精品一区二区三区在线| 五月天激情四射| 亚洲综合专区| 亚洲少妇中文在线| 亚洲精品久久久久久| 日本.亚洲电影| 亚洲二区在线视频| 亚洲视频在线二区| 蜜芽tv福利在线视频| 黄色小说综合网站| 国产成人亚洲精品| 国产在线一区视频| 日本电影一区二区| 亚洲国产91色在线| 波多野结衣网页| 91tv亚洲精品香蕉国产一区| 午夜精品免费在线| 一区二区不卡在线| 国产在线视频网站| 99久久婷婷国产| 亚洲综合在线小说| 在线免费a视频| 久久欧美肥婆一二区| 高清一区二区三区四区五区| 超碰在线国产97| 日韩免费视频| 在线国产精品视频| 中文字幕丰满乱子伦无码专区| 国产精品视频一区二区三区| 欧美日免费三级在线| 日本三级免费网站| 涩涩涩视频在线观看| 亚洲一区二区影院| 国产一区二区三区小说| 成年人黄视频在线观看| 国产精品国产a级| 亚洲精品日韩精品| seseavlu视频在线| 中文字幕国产精品一区二区| 日产精品久久久一区二区| 日韩午夜影院| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 欧洲美女7788成人免费视频| 国产无码精品视频| 影音先锋亚洲精品| 国内精品一区二区三区| 久久精品这里有| 日韩图片一区| 日本高清不卡在线| 天天干天天色综合| 久久激情中文| 国产精品高精视频免费| 最近中文字幕在线免费观看| 久久精品国产精品亚洲红杏 | 国产曰肥老太婆无遮挡| heyzo高清国产精品| 午夜天堂影视香蕉久久| jizzjizz国产精品喷水| 欧美国产大片| 欧美羞羞免费网站| 天天操狠狠操夜夜操| 欧美1区2区3| 亚洲精品ady| japanese中文字幕| 亚洲综合婷婷| 午夜精品视频网站| 樱花视频在线免费观看| 极品销魂美女一区二区三区| αv一区二区三区| 天堂网www中文在线| 久久精品夜色噜噜亚洲aⅴ| 亚洲精品9999| 韩国日本一区| 在线视频欧美精品| 两女双腿交缠激烈磨豆腐| 国产乱人伦精品一区| 亚洲欧美综合图区| 91嫩草丨国产丨精品| 99综合在线| 国产精品久久婷婷六月丁香| 国产免费高清av| 91天堂素人约啪| 中文字幕制服丝袜在线| 91www在线| 欧美日韩国产首页在线观看| 男女一区二区三区| 色喇叭免费久久综合网| 高清欧美性猛交xxxx| 影音先锋国产资源| 成年人国产精品| 亚洲在线观看一区| 蜜桃视频在线观看播放| 欧美精品高清视频| 免费在线观看成年人视频| 久久久国产精品| 日本在线观看天堂男亚洲| 99er热精品视频| 中文字幕精品一区| 欧美 日韩精品| 欧美三级一区| 自拍亚洲一区欧美另类| 天天操天天摸天天干| 国产精品中文字幕欧美| 日韩影片在线播放| 欧美日韩国产观看视频| 日韩一区二区在线观看| 在线小视频你懂的| 99精品国产99久久久久久福利| 国产日韩视频在线观看| 九一国产在线| 无吗不卡中文字幕| 深夜视频在线观看| 亚洲精品国产首次亮相| 国产精品video| 亚洲aⅴ在线观看| 亚洲综合男人的天堂| 欧美一级xxxx| 成人3d精品动漫精品一二三| 欧美一区二区三区免费视| 国产91绿帽单男绿奴| 亚洲色图欧美偷拍| 亚洲美女爱爱视频| 凹凸成人精品亚洲精品密奴| 26uuu国产精品视频| 日本韩国在线观看| 亚洲一区二区五区| 国产原创剧情av| 激情视频一区二区三区| 岛国一区二区三区高清视频| av毛片在线免费看| 91精品国产综合久久久久久久久久 | 综合视频在线观看| 国产a亚洲精品| 在线看福利67194| 亚洲精品国产精品国自产网站按摩| 99久久久久免费精品国产| 精品视频在线观看一区| 国产伦精品一区二区三区在线播放 | 久久综合九色| 热舞福利精品大尺度视频| 美女福利一区二区三区| 亚洲九九九在线观看| 国产成人亚洲精品自产在线| av在线不卡观看免费观看| 欧美三级在线观看视频| 欧美午夜寂寞| 国产mv免费观看入口亚洲| 国产精品秘入口| 精品视频1区2区| 永久免费未视频| 国产麻豆成人精品| 久艹在线免费观看| 亚洲国产合集| 国产精品女视频| 成人免费视屏| 亚洲电影av在线| 成人毛片在线播放| 欧美国产精品久久| 亚洲精品一二三四| 亚洲精选在线| 日韩精品欧美专区| 亚洲人成777| 久久久久久久久中文字幕| 日本大片在线观看| 欧美日韩国产片| 久久午夜无码鲁丝片午夜精品| 99久久国产综合色|国产精品| av动漫在线观看| 91综合在线| 国产精品永久入口久久久| 日韩精品99| 久久综合伊人77777尤物| 欧洲成人一区二区三区| 91成人免费网站| 亚洲综合网在线| 91在线精品一区二区| 日本人视频jizz页码69| 黄色成人精品网站| 色播五月综合| 美国十次综合久久| 日韩av免费在线播放| av在线免费观看网址| 日韩电视剧免费观看网站| 91中文字幕在线视频| 午夜免费久久看| 亚洲色图100p| 97久久超碰国产精品| 亚洲视频一二三四| 国产精品毛片一区二区三区| 日本三日本三级少妇三级66| 亚洲区小说区图片区qvod| 97se亚洲综合在线| 欧美国产日韩电影| 午夜精品理论片| www免费在线观看| 一二美女精品欧洲| 日本免费一区视频| 正在播放亚洲一区| 中文字幕精品无码一区二区| 一区二区三区不卡视频| 亚洲欧美日韩第一页| 91女人视频在线观看| 国产裸体视频网站| 久久99国产精品久久99| 午夜肉伦伦影院| 亚洲黄色免费| 小泽玛利亚av在线| 久久一区二区三区电影| 欧美日韩电影一区二区| 欧美男人操女人视频| 99re6在线| 在线不卡一区| 国产精品久久久久7777婷婷| 成人教育av| 午夜免费日韩视频| 亚洲资源一区| 久久夜精品香蕉| 在线国产情侣| 中文字幕精品av| 免费看男男www网站入口在线 | 欧美成人精品一区二区综合免费| 老鸭窝一区二区久久精品| 蜜臀视频一区二区三区| 久久精品观看| 国产亚洲天堂网| 亚洲一区二区动漫| 欧美国产激情视频| aa国产精品| 国产成人无码a区在线观看视频| 国内揄拍国内精品久久| 4444亚洲人成无码网在线观看| 国产精品久久天天影视| 最近看过的日韩成人| 91中文字幕精品永久在线| 亚洲欧洲在线一区| 99视频精品全国免费| 三年中文高清在线观看第6集| 久久社区一区| 欧美爱爱视频网站| 亚洲第一偷拍| www.一区二区.com| 亚洲激精日韩激精欧美精品| 水蜜桃色314在线观看| 国产欧美精品久久| 999香蕉视频| 免费黄网站欧美| 五月天视频在线观看| 国产在线一区观看| www.四虎精品| 久久综合视频网| 91资源在线播放| 亚洲欧洲av在线| 激情综合网五月天| 欧美日韩国产麻豆| 黄色污污视频软件| 欧美二区三区的天堂| 亚洲a视频在线| 精品亚洲一区二区三区在线观看| 国产在线自天天| 久久久精品影院| 99热99re6国产在线播放| 2024亚洲男人天堂| 欧美jizz18| 91日韩久久| 天堂在线精品| 亚洲视频导航| 亚洲电影成人| 亚洲 欧美 日韩系列| 国产精品夜夜嗨| 人人妻人人澡人人爽人人精品| 中文字幕欧美激情一区| 欧美日韩在线观看免费| 欧美性xxxx极品hd满灌| 91麻豆视频在线观看| 欧美精品一区二区三区在线播放| 男人天堂亚洲二区| 另类色图亚洲色图| 国模冰冰炮一区二区| 成人欧美在线观看| 啄木系列成人av电影| 青青草原国产免费| 老鸭窝亚洲一区二区三区| 天天久久综合网| 91网站最新网址| 黄色片子在线观看| 欧美视频中文字幕在线| 国产乱色精品成人免费视频| 亚洲精品福利免费在线观看| 欧美精品videos另类| …久久精品99久久香蕉国产| 999色成人| 日本精品一区二区三区不卡无字幕| 欧美在线三区| 国产精品一区二区羞羞答答| 99热在这里有精品免费| 永久免费看片直接| 色噜噜狠狠成人网p站| 后进极品白嫩翘臀在线视频| 日韩中文字幕视频在线| 日韩欧美另类一区二区| 国产精品亚洲综合| 久久精品亚洲人成影院 | 亚洲电影一二三区| 99精品视频免费| 91丨porny丨九色| 国产精品美日韩| 欧美超碰在线观看| 精品成a人在线观看| 成人福利片网站| 国产欧美日韩高清| 国产欧美一区二区三区精品观看 | 欧洲美女女同性互添| 色先锋aa成人| 亚洲av片在线观看| 久久久久久久久久久网站| 国产精品高清一区二区| 亚洲欧美国产不卡| 日韩高清不卡在线| 18禁裸乳无遮挡啪啪无码免费| 一区二区三区欧美日| 国产强被迫伦姧在线观看无码| 日日骚av一区| 成人涩涩视频| 午夜免费电影一区在线观看| 久久伊人亚洲| 91网站免费入口| 色婷婷综合久久久久中文| 先锋av资源站| 欧美亚洲激情在线| 色先锋久久影院av| 91精品91久久久中77777老牛| 99久久99久久精品国产片果冻| 久久精品国产亚洲av香蕉| 欧美变态tickling挠脚心| 日本在线视频网址| 国产精品免费视频一区二区| 精品1区2区3区4区| 中文字幕第3页| 欧美日韩亚洲91| 精品视频二区| 国产精品偷伦视频免费观看国产| 欧美手机视频| 天堂在线中文在线| 亚洲美女少妇撒尿| www.日韩高清| 91国产精品视频在线| 亚洲另类春色校园小说| 污网站免费在线| 亚洲欧美激情一区二区| 午夜精品久久久久久久96蜜桃 | 日韩av综合网| 成人看片在线观看| 在线观看成人一级片| 国产成人精品网址| 成人精品在线看| 在线日韩第一页| 精品一区二区三区在线观看视频| 大荫蒂性生交片| 久久久精品免费免费| 一级黄在线观看| 久久久久久久久电影| 亚欧洲精品视频在线观看| 牛夜精品久久久久久久| 亚洲精品视频在线观看网站| 色香蕉在线视频| 国产精品视频午夜| 欧美福利网址| 久久精品视频18| 日韩欧美区一区二| 亚洲午夜天堂| 免费成人进口网站| 97国产精品videossex| 中文字幕制服诱惑| 久久免费国产视频| 成人黄色小视频| 男女一区二区三区| 欧美日韩和欧美的一区二区| 国产三级伦理在线| 日韩欧美精品久久| 成人综合在线网站| 中文字幕在线视频第一页| 欧美—级高清免费播放| 成人女性视频| 小毛片在线观看|