精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

70億LLaMA媲美5400億PaLM!MIT驚人研究用「博弈論」改進大模型|ICLR 2024

人工智能 新聞
大模型回答如何更可靠?MIT研究團隊設計出「共識博弈」,將數學家常用的博弈論引入LLM改進中。沒想到,LLaMA-7B的表現,擊敗了LLaMA-65B,甚至與PaLM-540B相媲美。

遇到一個問題用不同表達方式prompt時,大模型往往會給出兩種不同的答案。

比如,「秘魯的首都是什么」,「利馬是秘魯的首都嗎」。

對于這種回答不一致的問題,科學家們紛紛為大模型的「智商」擔憂起來。

正如了LeCun所言:

LLM確實比狗積累了更多的事實知識和語言能力。但是它們對物理世界的理解能力,以及推理規劃能力,遠遠不及狗。

圖片

那么,有沒有一種方式,能夠解開大模型幻覺,讓結果更加準確、高效?

來自MIT的研究人員,將「博弈論」的思想引入大模型的改進中。

他們共同設計了一個游戲,在游戲中,讓模型的兩種模式(生成式和判別式)相互對抗,努力找到它們可以達成一致的答案。

這個簡單的博弈過程,被稱為「共識博弈」(CONSENSUS GAME)。

也就是,讓模型自我對抗,以提升LLM準確性和內部一致性。

圖片

論文地址:https://openreview.net/pdf?id=n9xeGcI4Yg

具體來說,這是一種免訓練,基于博弈論的語言模型解碼過程。

新方法將語言模型解碼,視為一種正則化的不完全信息序列信號博弈游戲——稱之為CONSENSUS GAME(共識博弈)。

其中,生成器(GENERATOR)試圖使用自然語言句子,向一個判別器(DISCRIMINATOR)傳達抽象的正確性參數。

圖片

然后,研究人員開發了計算程序,以尋找博弈的近似均衡,從而得到一種名為「均衡排序」(EQUILIBRIUM-RANKING)的解碼算法。

在多個基準測試中,「均衡排序」策略在LLaMA-7B的表現中,明顯超越LLaMA-65B,并與PaLM540B相媲美。

圖片

最新論文已被ICLR 2024接收。

圖片

谷歌研究科學家Ahmad Beirami表示,「幾十年來,LLM對提示的響應方式一直如出一轍。MIT研究人員提出了將博弈論引入這一過程的新穎想法,開創了一個全新的范式,這有可能帶來大量新的應用」。

游戲,不再單純是衡量AI的標準

以往,通過機器學習在游戲競賽中的表現,去判斷某個AI系統是否取得成功。

而這樣的案例,比比皆是。

1997年,IBM深藍計算機擊敗了國際象棋特級大師Garry Kasparov,創下了所謂的「思考機器」的里程碑。

19年后,谷歌DeepMind發明的AlphaGo,在圍棋比賽中一舉戰勝李世石。

五局比賽中獲勝四局,揭示了人類在某些領域已不再獨占鰲頭。

不僅如此,AI還在跳棋、雙人撲克,以及其他的「零和游戲」中超越了人類。

與以往不同的是,MIT團隊而是選擇從另一個角度來看問題——用游戲去改進人工智能。

對于AI研究人員來說,一款稱為「Diplomacy」的游戲,提出了一個更大的挑戰。

由Allan B. Calhamer于1959年設計的經典桌游

與只有2個對手玩家的游戲不同,Diplomacy游戲有7個玩家參與,每個人的動機都很難看透。

要想獲勝,玩家必須談判,締結合作關系,但不得不提防的是,任何時候任何人都可能遭到背叛。

這款游戲如此復雜,以至于2022年,Meta團隊發布的Cicero在40局游戲后,達到「人類水平」時,引發一陣轟動。

圖片

論文地址:https://www.science.org/doi/10.1126/science.ade9097

盡管Cicero沒能戰勝世界冠軍,但它在與人類參與者的比賽中進入了前10%,表現足夠優秀。

圖片

現在,論文作者Athul Paul Jacob是MIT的博士生,曾在Meta實習期間參與了這次研究。

研究期間,Jacob對Cicero依賴語言模型,與其他玩家進行對話的事實感到震驚。

他感受到了,尚未開發出的AI潛力。

圖片

Athul Paul Jacob幫助設計了「共識博弈」——為LLM提供了一種提高其準確性和可靠性的方法

于是,他便提出,如果將重點轉移到,利用游戲來提高LLM的性能上會怎樣?

1000場比賽,讓LLM自我對抗

為了追尋這一問題的答案,2023年Jacob與麻省理工學院的Yikang Shen、Gabriele Farina,以及導師Jacob Andreas一起研究,什么可以促進「共識博弈」。

這一思想的核心是,將兩個人之間的對話想象成一個合作游戲。

當聽者理解說話者想要傳達的東西時,就成功了。

尤其是,「共識博弈」的目的是,旨在協調LLM的兩個系統——生成器和辨別器。

眾所周知,生成器負責處理生成性問題,而辨別器負責處理辨別性問題。

圖片

經過幾個月的研究,他們終于將這一原則,構建成了一場完整的比賽。

首先,生成器收到一個問題——可以來自人類,也可以來自預存在的名單中,比如「奧巴馬出生在哪里」。

然后,生成器會得到一些候選響應,比如火奴魯魯(Honolulu)、芝加哥(Chicago)、內羅畢(Nairobi)。

同樣,這些響應的選項,可以來自人類、列表,或是由語言模型本身執行搜索。

但在回答之前,生成器會先根據一次公平的隨機擲幣的結果,被指示生成正確或錯誤的答復。

圖片

如果結果為正面,那么生成器就會嘗試給出正確的答案。

然后,生成器將原始問題,及其選擇的回答,一并發送給判別器。

如果判別器判定生成器,是有意地發送了正確的回答,作為一種激勵,它們每人得到一分。

而如果結果為反面,生成器就會給出它認為是錯誤的答案,那判別器看出它故意給了錯誤答案,它們將在分別得到一分。

這就體現了策略的核心點,即通過激勵,讓它們達成一致。

在這個博弈過程開始時,生成器和判別器都有自己對答案的「先驗信念」。

這些「信念」以概率分布的形式體現,比如,生成器基于從互聯網獲取的信息,可能會認為:

奧巴馬出生在火奴魯魯的概率是80%,芝加哥10%,內羅畢5%,其他地方5%。

當然判別器,也會有不同概率分布的「先驗信念」。

雖然兩個「玩家」會因達成一致而獲得獎勵,但如果偏離自己「先驗信念」太多時,也會被扣分。

這樣一來,可以鼓勵「玩家」將從互聯網獲取的知識,融入到回答中,從而讓模型更加準確。

如果沒有這種機制,它們可能會就一個完全錯誤的答案(如Delhi)上達成一致,卻仍然獲得分數。

對于每個問題,這兩個系統相互之間進行了大約1000場比賽。

在無數次迭代的過程中,雙方都了解了對方的「信念」,并相應地修改了自己的戰略。

最終,生成器和判別器開始達成更多共識,因為它們逐漸進入了一種稱為「納什均衡」(Nash equilibrium)的狀態。

這可以說是博弈論的核心概念。

「納什均衡」代表了游戲中的一種平衡狀態,在這點上,任何玩家都無法通過改變策略,來改善個人結果。

比如,在石頭剪刀布游戲中,當玩家選擇三個選項的概率正好都是1/3時,才能獲得最佳結果,任何其他策略都會導致更糟糕的結果。

在「共識博弈」中,「納什均衡」可以通過多種方式實現。

比如,判別器可能會觀察到,每當生成器將奧巴馬的出生地回答為「火奴魯魯」時,它就會得分。

經過多輪博弈,生成器和判別器會學習到,繼續這種作答方式會得到獎勵,而沒有動機改變策略。

這種一致的作答方式,就代表了對于該問題的一種可能的「納什均衡」。

70B參數Llama,媲美5400億參數PaLM

除此之外,還可能存在其他「納什均衡」的解。

MIT團隊還依賴于一種改進的「納什均衡」形式,結合了玩家們的「先驗信念」,有助于讓回答結果更加貼近現實。

為了測試「共識博弈」的效果,研究團隊在一些中等參數規模的語言模型(70億-130億參數)上進行了一系列標準問題測試。

經過訓練后的這些模型,正確答案的比例明顯高于未經訓練的模型,甚至高于一些擁有高達5400億參數的大型模型PaLM。

這不僅提高了模型的答案準確性,也增強了模型的內部一致性。

圖片

另外,在TruthfulQA(生成)的結果上,具有ER-G的LLaMA-13B優于或與所有基線持平。

圖片

研究人員在GSM8K測試集上,對不同方法的平均準確率進行了評估和對比。

除了greedy外,都是對20個候選回答進行了采樣。

基于「均衡排序」的方法,其性能與多數投票基線相當,或者稍微好一些。

圖片

一般來說,任何LLM都可以通過與自身進行「共識博弈」從中獲益。

最重要的是,研究人員成,只需在一臺筆記本上,進行的1000輪「共識博弈」僅需幾毫秒的時間,計算代價很小。

Omidshafiei表示,「這種方法非常高效,不需要對基礎語言模型進行訓練或修改」。

下一步,大小模型一起游戲

在「共識博弈」取得初步成功后,Jacob現在正在探索將博弈論,應用到LLM研究中的其他方式。

在這個基礎上,他現在又提出了一種新的方法,暫稱為「集成博弈」(ensemble game)。

在「集成博弈」中,有一個主模型(primary LLM),與若干個小型模型進行博弈互動。

這些小型模型中,至少有一個扮演「盟友」角色,至少有一個扮演「對手」角色。

問題出現時,比如法國首都是什么,如果主模型與「盟友」模型給出相同答案,主模型會獲得分數。

如果與「對手」模型給出不同答案,也會獲得分數。

通過這種與小模型的博弈互動,并不需要對主模型進行額外訓練或改變參數,就可以進一步提升主模型的性能表現。

這種將大模型與多個小模型集成互動的新范式,讓大模型可以借鑒小模型的優點。

同時還能相互制約,從而提高整體的準確性和一致性。

在未來,它將為提升LLM性能開辟了一種全新的思路和方法。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-17 13:32:46

AI代碼代碼生成工具

2023-10-07 13:43:00

AI訓練

2023-06-07 14:08:00

計算機代碼

2023-03-15 10:26:00

模型開源

2023-05-19 10:26:01

谷歌模型

2015-03-02 10:35:25

百度專利經費

2023-07-19 15:01:14

GPT-4LaMA2參數

2023-09-26 14:21:33

模型開源Qwen-14B

2009-07-06 18:12:07

金融危機創新博科資訊

2023-04-21 10:37:40

語言模型

2023-08-03 19:11:45

2023-03-16 12:18:48

谷歌瀏覽器模型

2022-04-06 09:47:55

AI谷歌人工智能

2021-08-25 08:23:51

AI數據機器學習

2023-09-04 12:58:05

2023-10-17 19:43:03

RACE排序數據

2023-10-12 14:40:10

AI模型

2015-10-15 14:13:56

博弈論數據科學家

2024-08-19 08:00:00

LLM模型
點贊
收藏

51CTO技術棧公眾號

91精品国产一区二区| 国产精品美女www爽爽爽| 久久久人成影片一区二区三区| 国模无码视频一区| 桃子视频成人app| 亚洲桃色在线一区| 精品国产福利| 亚洲永久精品视频| 欧美成人久久| 亚洲人永久免费| 亚洲一区二区三区四区精品| 成人影院在线视频| 国产精品久久久久久亚洲毛片 | 亚洲国产成人在线| 91成人伦理在线电影| 六月丁香在线视频| 综合视频在线| 色婷婷综合成人av| 精品人妻一区二区三区视频| 国产亚洲久久| 欧美亚洲动漫另类| 欧美三级在线观看视频| 看女生喷水的网站在线观看| 久久精品在这里| 国产精品国产三级国产专区53 | 国产一区久久久| 日本久久久久久久久| 久草国产在线视频| 午夜精品一区二区三区国产 | 日韩三级高清在线| 色播五月综合网| 成人小电影网站| 亚洲成a人v欧美综合天堂| 黄色一级片网址| av中文在线| 久久精品男人天堂av| 国产一区免费观看| 亚洲精品视频91| 国产精品中文字幕日韩精品| 国产精品香蕉在线观看| 潘金莲一级淫片aaaaaa播放| 亚洲美女黄网| 高清在线视频日韩欧美| 免费中文字幕在线| 自拍欧美日韩| 欧美另类xxx| 中文字幕影音先锋| 欧美精品一卡| 欧美国产精品va在线观看| 蜜桃av.com| 91九色精品| xxx一区二区| www深夜成人a√在线| 99久久夜色精品国产亚洲狼| 日韩中文字幕久久| 国产免费嫩草影院| 水蜜桃精品av一区二区| 日韩最新中文字幕电影免费看| 男人的天堂官网| 北条麻妃国产九九九精品小说| 国产亚洲欧洲黄色| 欧美激情 一区| 久久亚洲影视| 欧美成人自拍视频| 久久久久久久久97| 国产日韩高清一区二区三区在线| 91国产高清在线| 国产精品人人人人| 老牛嫩草一区二区三区日本| 国产极品jizzhd欧美| 中国老头性行为xxxx| 六月婷婷色综合| 亚洲综合在线播放| 欧美77777| 久久久亚洲欧洲日产国码αv| 日本一区二区视频| 免费在线看黄网站| 亚洲一区二区三区四区在线免费观看 | 午夜视频www| 国产欧美日本一区二区三区| 一级全黄肉体裸体全过程| 丝袜在线视频| 欧美日韩免费在线观看| 午夜两性免费视频| av日韩在线播放| 亚洲欧美国产视频| 欧美丰满熟妇bbbbbb| 最新成人av网站| 国产精品高清免费在线观看| 91久久久久久久久久久久| 高清成人免费视频| 日本中文不卡| 日韩另类在线| 在线观看亚洲一区| 韩国av中国字幕| 精品国产视频| 久久久亚洲精选| 无码久久精品国产亚洲av影片| 国产一区二三区| 欧美成人一区二区在线| 国产激情视频在线观看| 日韩欧美亚洲范冰冰与中字| 欧洲美女亚洲激情| 亚洲区小说区| 欧美二区在线播放| 伊人亚洲综合网| av在线综合网| 久久免费一级片| 日韩av一级| 日韩大陆毛片av| 欧美成人黄色网| 免费在线观看不卡| 精品乱码一区| 香蕉成人app免费看片| 欧美性生活久久| 伊人网综合视频| 欧美成人69| 国产日韩精品入口| 国模吧精品人体gogo| 五月天网站亚洲| 杨幂一区二区国产精品| 日韩毛片视频| 国产成人精品一区二区三区| 成人爽a毛片一区二区| 亚洲视频图片小说| 欧美午夜aaaaaa免费视频| 欧美三级午夜理伦三级在线观看| 欧美成人免费全部| 亚洲最大成人av| 中文乱码免费一区二区| 国产免费人做人爱午夜视频| 另类图片第一页| 欧美日韩高清在线观看| ,亚洲人成毛片在线播放| 国产亚洲欧美色| 日本三级免费观看| 性欧美lx╳lx╳| 97在线观看免费| 亚洲国产www| 洋洋成人永久网站入口| 亚洲日本黄色片| 88国产精品视频一区二区三区| 国产精品视频一| av在线中文| 欧美猛男gaygay网站| 在线观看天堂av| 久久精品国产亚洲高清剧情介绍| 天堂√在线观看一区二区| 亚洲伊人av| 亚洲午夜未满十八勿入免费观看全集| 六月丁香在线视频| 久久久久亚洲蜜桃| 国产精品入口免费软件| 欧美色女视频| 成人黄色在线免费| 中文字幕资源网在线观看| 日韩欧美国产电影| 久久精品视频9| 97se狠狠狠综合亚洲狠狠| 2022亚洲天堂| 国产永久精品大片wwwapp| 国产精品日韩久久久久| 日本中文在线| 日韩三级视频中文字幕| 久久9999久久免费精品国产| av一区二区三区| 成人中文字幕av| 日本成人小视频| 成人午夜一级二级三级| 青草av在线| 亚洲美女喷白浆| 中文在线观看免费高清| 亚洲精品视频自拍| 性欧美丰满熟妇xxxx性久久久| 蜜乳av另类精品一区二区| 亚洲精品日韩在线观看| 亚洲一区 二区| 欧美一级大片在线免费观看| 日韩美女网站| 欧美不卡一区二区| 亚洲成人av影片| 综合久久久久久| 91丨porny丨对白| 日本一区中文字幕| 亚洲一区 在线播放| 神马香蕉久久| 成人网在线观看| 牛牛精品一区二区| 精品国偷自产在线视频99| 欧美天堂在线视频| 欧美色图12p| 日本少妇性高潮| 国产精品女主播av| 妖精视频一区二区| 久久99精品久久久久婷婷| 欧美精品卡一卡二| 婷婷综合久久| 麻豆av一区二区三区| 亚洲狼人综合| 日本欧美在线视频| 制服丝袜在线播放| 在线观看国产欧美| 五月婷婷久久久| 91麻豆精品国产91久久久久| 一区二区三区在线观看av| 亚洲精品国产一区二区三区四区在线| 欧美色图亚洲激情| 高清在线观看日韩| 亚洲欧美偷拍另类| 久久男女视频| 东北少妇不带套对白| 无码一区二区三区视频| 日本视频精品一区| 精品欠久久久中文字幕加勒比| 国产欧美中文字幕| 欧美va在线| 日韩av电影在线播放| 2018av在线| 欧美美女操人视频| 日本电影在线观看网站| 亚洲人成免费电影| 色就是色亚洲色图| 亚洲精品在线免费观看视频| 国产又粗又猛又爽| 欧美视频中文一区二区三区在线观看| 国产一级精品视频| 精品久久久久久久中文字幕| www青青草原| 亚洲日韩欧美一区二区在线| 999福利视频| 欧美极品少妇xxxxⅹ高跟鞋 | 国产精品久久久久久久久久久免费看| 800av在线播放| 国产91精品一区二区麻豆网站 | 久久九九久久九九| 中出视频在线观看| hitomi一区二区三区精品| www.四虎精品| 成人午夜碰碰视频| 久久久久久久久久久影视| 天堂一区二区在线免费观看| 久久久999视频| 亚洲免费中文| 成人久久久久久久久| 国产亚洲在线| 国产中文字幕免费观看| 99riav1国产精品视频| 免费看黄在线看| 制服诱惑一区二区| 六月丁香婷婷激情| 久久亚洲色图| 浮妇高潮喷白浆视频| 国产精品久久777777毛茸茸| 国产精品宾馆在线精品酒店| 亚洲深夜福利| www.欧美日本| 久久精品国产久精国产| 51自拍视频在线观看| 国产成人av电影在线观看| 95视频在线观看| 99国产欧美久久久精品| 精品无码人妻一区二区免费蜜桃| 日本一区二区三区视频视频| 欧美成人久久久免费播放| 亚洲免费毛片网站| 日本一级淫片免费放| 日韩欧美在线观看| 黄色一区二区视频| 欧美一区二区二区| 熟妇人妻一区二区三区四区| 亚洲男人av在线| 色影视在线观看| 欧美激情欧美激情| 韩漫成人漫画| 成人一区二区电影| 9l视频自拍蝌蚪9l视频成人| 久久亚洲午夜电影| 99久久婷婷这里只有精品 | 看欧美日韩国产| 性欧美69xoxoxoxo| 分分操这里只有精品| 久久久久久网| 最新av免费在线观看| 成人久久视频在线观看| 国产午夜福利一区| 一区二区三区在线免费观看| 4438国产精品一区二区| 欧美日韩1234| 日韩资源在线| 欧美成人午夜激情视频| 涩涩视频在线播放| 国产欧美日韩中文字幕| jazzjazz国产精品久久| 久久精品二区| 一精品久久久| 成人av一级片| 国产成a人亚洲| wwwww黄色| 午夜av区久久| 国产情侣在线播放| 亚洲欧洲一区二区三区久久| 18+激情视频在线| 国产精品吹潮在线观看| 北条麻妃在线一区二区免费播放| 日韩影视精品| 一区二区久久| 国产精品欧美性爱| 中文字幕一区二区三区四区| 久草手机在线视频| 精品国一区二区三区| 日本电影全部在线观看网站视频| 欧美中文字幕在线播放| 一区中文字幕| 免费成人进口网站| 免费观看在线综合| 亚洲熟妇无码av| 午夜精品视频在线观看| 国产黄色片免费观看| 上原亚衣av一区二区三区| 亚洲国产欧美日本视频| 成人欧美一区二区三区视频 | 国产成人tv| 日韩中文在线字幕| 精品一区二区三区在线播放| 无码少妇一区二区| 欧美日韩亚洲天堂| 亚洲欧美日韩精品永久在线| 欧美大片免费看| 日韩免费一级| 丰满人妻一区二区三区53号 | 在线精品视频小说1| 神马午夜电影一区二区三区在线观看| 色综合久久悠悠| 欧美经典影片视频网站| 最新精品视频| 韩国成人精品a∨在线观看| 色www亚洲国产阿娇yao| 欧美色手机在线观看| 最新真实国产在线视频| 国产精品一区二区久久国产| av资源久久| 亚洲这里只有精品| 国产精品卡一卡二卡三| 一区二区三区黄| 久久成人这里只有精品| 精品一区二区三区亚洲| 国产情侣第一页| 丁香桃色午夜亚洲一区二区三区| 九九视频免费在线观看| 欧美成人乱码一区二区三区| 久久久久黄久久免费漫画| 国产女主播一区二区| 一本一道久久综合狠狠老精东影业| 国产激情视频网站| 欧美性猛交xxxx乱大交3| 可以直接在线观看的av| 国产精品无av码在线观看| 欧美激情黄色片| 国产精品19p| 五月天亚洲精品| av网站无病毒在线| 91欧美激情另类亚洲| 国内久久精品| 亚洲一区二区三区四区五区六区| 一本久道中文字幕精品亚洲嫩| 国产在线观看黄| 亚洲影院色在线观看免费| 亚洲承认在线| 一级在线观看视频| 日韩亚洲欧美成人一区| 91九色美女在线视频| 欧美在线播放一区二区| 精品一区二区三区影院在线午夜| 久久免费视频播放| 亚洲女人天堂av| 国产亚洲精aa在线看| 欧美国产亚洲一区| 国产精品乱人伦| 粉嫩av一区二区夜夜嗨| 日本欧美一二三区| 午夜国产精品视频| 亚洲综合网在线观看| 欧美精品一二三| 女厕盗摄一区二区三区| 一本一道久久a久久综合精品| 国产不卡一区视频| 免费精品一区二区| 欧美黑人xxxx| 欧美一区二区三区激情视频| 久久人妻少妇嫩草av蜜桃| 91福利视频网站| 色爱综合区网| 亚洲一区二区高清视频| caoporn国产一区二区| 91欧美日韩麻豆精品| 2018国产精品视频| 欧美在线看片| 粉嫩精品久久99综合一区| 亚洲成**性毛茸茸| 国产中文欧美日韩在线|