精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界

發布于 2024-6-17 09:15
瀏覽
0收藏

一直以來,對LLM的支持觀點之一,就是模型可以集成海量事實知識,作為通往「世界模擬器」的基礎。


雖然也有不少人提出反對,但沒有真憑實據。


那么,LLM可以作為世界模擬器嗎?


最近,亞利桑那大學、微軟、霍普金斯大學等機構聯合發布了一篇論文,從實證的角度得出了否定的結論。


最新研究已被ACL 2024頂會接收。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

論文地址:??https://arxiv.org/pdf/2406.06485??


研究發現,GPT-4在模擬基于常識任務的狀態變化時,比如燒開水,準確度僅有60%。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

論文認為,盡管GPT-4這樣的模型表現很驚艷,但如果沒有進一步創新,它就不能成為可靠的世界模型。


為了量化LLM的規劃能力,作者提出了一個全新的基準測試——bytesized32-state-prediction,并在上面運行了GPT-4模型。


基準測試的代碼和數據也已經在GitHub上開源,可以幫助未來的研究繼續探查LLM的能力優缺點。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

??https://github.com/cognitiveailab/GPT-simulator??


一向對自回歸語言模型無感的LeCun也轉發了這篇論文。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

他用了非常強硬的語氣表示,「沒有世界模型,就沒有規劃能力」。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

雖然如此,只憑一篇論文又怎么能平息LLM界的重大分歧?支持語言模型的網友很快就在評論區下面反駁LeCun——

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

網友:目前的LLM能達到約60%的準確率(不專門為任務進行訓練),這至少是某種「世界模型」了,而且每一代LLM都在提升。


LeCun:世界模型不會是LLM。


網友:也許吧。但這并不意味著LLM內部不存在某種(不準確的)世界模型。

不過,在Hinton看來,AI已經不再是僅僅依賴于過去,基于統計模型做下一個token的預測,而是展現出更高的「理解」能力。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

然而,大模型想要成為世界終極模擬器,還很遠。


LLM是「世界模擬器」嗎?


模擬世界,對于AI學習和理解世界至關重要。


以往,多數情況下,可用模擬的廣度和深度受到現實的限制。因需要人類專家耗費數周,甚至數月的時間做大量的工作。


而現在,大模型提供了一種替代的方法,即通過預訓練數據集中大量知識,獲得對世界的深刻理解。


但是,它們準備好,直接用作模擬器了嗎?


對此,這項研究的團隊在「文本游戲」這一領域,來檢驗這一問題。


一般來說,在世界建模和模擬的背景下,應用LLM有兩種方式:一是神經符號化方法;二是直接模擬。


論文中,作者們首次對LLM直接模擬虛擬環境的能力,進行了量化分析。


他們利用JSON模式的結構化表示作為腳手架(scaffold),不僅提高了模擬精度,還可以直接探查LLM在不同領域的能力。


結果發現,GPT-4普遍無法捕捉與智能體行為無直接關聯的「狀態轉移」(state transition)。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

甚至還包括,涉及算術、常識,或科學推理的狀態轉移。


在各種不同條件下,對于模擬一些復雜環境變化時,GPT-4的準確率不及59.9%。


同時也表明,LLM還不足以可靠地充當世界模擬器。


那么,研究人員具體如何實現的?


研究方法


在文本環境中,智能體通過自然語言,完成特定的目標。


他們將文本的虛擬環境形式化,建模為一種馬爾可夫決策過程(POMDP),共有7個元組:S, A, T , O, R, C, D。


其中,S表示狀態空間,A表示行動空間,T:S×A→S表示狀態轉移函數,O表示觀測函數,R:S×A→R表示獎勵函數,C表示用自然語言描述目標和動作語義的「上下文信息」,

D:S×A→{0,1}表示二元指示函數,用0或1標記智能體是否完成任務。


其中,上下文C為模型提供了除環境外的額外信息,比如行動規則、物體屬性、打分規則和狀態轉換規則等等。


然后,研究人員還提出了一個預測任務,稱為LLM-as-a-Simulator(LLM-Sim),作為定量評估大模型作為可靠模擬器的能力的一種方法。


LLM-Sim任務被定義為實現一個函數

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

作為世界模擬器,將給定的上下文、狀態和動作(即

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

)映射到后續的狀態、獎勵和游戲完成狀態(即

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

)。

每個狀態轉移用如下的九元組表示:

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

實際上,整個狀態轉換模擬器F,應該考慮兩種類型的狀態轉移:行為驅動和環境驅動的轉移。


對于圖1中的示例,行為驅動的狀態轉移是在執行「打開水槽」動作后,水槽被打開。而環境驅動的轉移是,當水槽打開時,水將填滿槽中的杯子。


此外,LLM的預測模式也分為兩種:預測下一步的完整狀態,或者預測兩個時刻之間的狀態差。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

為了更好地理解LLM對于每種狀態轉移的建模能力,研究人員進一步將模擬器函數F分解為三種類型:

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

評估結果


建模了LLM的決策過程后,作者也同樣用文本構建了一個虛擬人物場景。


Bytesized32-SP基準測試的數據來源于公開的Bytesized32語料庫,其中有32個人類編寫的文字游戲。


留出一個游戲作為gold label后,測試集總共涉及31個游戲場景,7.6萬多個狀態轉換。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

LLM根據上下文和前一個狀態進行單步預測,給出下一步時的物體屬性、任務進展等信息。


規則方面,研究人員也提出了三種設定:由游戲作者撰寫、由LLM自動生成,或者根本不提供規則。


設定好虛擬環境和任務規則后,作者運行GPT-4進行預測得到了如下結果。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

為了嚴謹起見,作者根據狀態轉移前后預測結果是否變化,分成static和dynamic兩類分開統計。如果前后兩個狀態中,結果并沒有發生變化,LLM也會更容易預測。


不出意料,static一欄的準確率基本都高于dynamic。


對于「靜態」轉移,模型在預測狀態差時表現更好。「動態轉移」則相反,在完整狀態預測中得分更高。


作者猜測,這可能是由于預測狀態差時需要減少潛在的格式錯誤,這會為任務輸出帶來額外的復雜性。


還可以看到,預測動作驅動的狀態轉移的準確率往往高于環境驅動類。在dynamic欄,前者預測最高分有77.1,而后者最高只有49.7。


此外,游戲規則如何制定會很大程度上影響LLM的表現。


如果不提供游戲規則,LLM預測的性能會有明顯的大幅下降,但規則由人類制定或LLM自動生成并不會顯著影響準確率。


相比之下,規則制定對游戲進度預測的影響更加明顯。


相比人類規則,LLM生成規則時,GPT-4的預測有超過10個百分點的提升。難道真的是LLM之間更能相互理解?

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

以上結果都只是針對LLM在不同設定下的性能比較。和人類預測相比,結果如何呢?

為此,4位論文作者親自上陣和GPT-4一較高下。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

不知道李世石看到這個結果會不會有所安慰。人類的總體準確率在80%左右,遠高于GPT-4在50%附近徘徊的成績,這顯示了規劃能力上的重大差距。


對于規劃任務中的單步預測模型,每一步的模擬誤差都會累積并向后傳播,單步的低性能會很大程度上影響全局表現。


因此LLM較低的準確率說明了,它并不能成為可靠的「文本世界模擬器」。


此外,人類準確率的波動幅度基本不大,說明任務設定比較簡單、直接,適合人類的思維模式。


GPT-4這種較差的性能表現給我們提供了一個寶貴的機會,可以更具體地剖析LLM究竟在哪方面出現了能力缺陷。


因此,論文作者將LLM的預測結果拆開仔細分析,發現在二元布爾值屬性上(is開頭的屬性),模型通常可以做得很好。

GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界-AI.x社區

預測表現比較糟糕的,通常是一些非平凡屬性,比如需要算術運算的temprature(溫度)、需要常識的current_aperture(當前照相機光圈),或者需要科學知識的on(燈泡是否打開)。


相比之前的基準測試,這似乎更準確地暴露了LLM在常識和科學推理方面的缺陷。

此外,這也能反映出模型一些行為的「偏執」之處。


在進行完整預測時,它通常過于關注動作驅動的狀態轉移而忽略了環境驅動,出現了很多「未改變值」的錯誤。但是可以在分開預測的結果中看到,這些錯誤是本可以避免的。


作者提出,這篇文章的局限性之一是只使用了GPT模型進行測試,也許其他模型可以有不同的表現。


這項研究的意義更在于基準測試的提出,為探索LLM在「世界模擬器」方面的潛力提供了一套可行的問題形式定義和測試流程。

標簽
收藏
回復
舉報
回復
相關推薦
heyzo高清在线| 精品久久久无码中文字幕| 少妇精品久久久一区二区三区| 欧洲精品一区二区三区在线观看| 午夜免费电影一区在线观看| a网站在线观看| 欧美专区18| 毛片精品免费在线观看| 自拍偷拍亚洲天堂| 亚洲三区欧美一区国产二区| 91福利区一区二区三区| 狠狠干视频网站| 黄色av网址在线免费观看| 国产精品自拍网站| 国产精品高潮呻吟久久av黑人| 69xx绿帽三人行| 国模精品一区| 亚洲国产成人精品久久| 五月天婷婷在线观看视频| 国产精品专区免费| 亚洲妇女屁股眼交7| 一区二区三区四区五区精品| 欧美另类自拍| 成人不卡免费av| 91久久精品国产| 精产国品一区二区| 妖精视频成人观看www| 大胆人体色综合| 91社区视频在线观看| 欧美18xxxx| 精品精品欲导航| 特级西西444www| 国产极品一区| 日韩欧美在线视频免费观看| 国产一区二区三区乱码| www在线免费观看视频| 中文字幕欧美三区| 日韩av电影免费在线观看| 色婷婷av一区二区三区之红樱桃| 国产综合成人久久大片91| 国产精品视频1区| 天堂免费在线视频| 欧美亚洲一区| 欧美最顶级丰满的aⅴ艳星| 国产无码精品在线观看| 欧美日本一区| 欧美高清在线视频观看不卡| 强乱中文字幕av一区乱码| 中文字幕日韩欧美精品高清在线| 色偷偷av一区二区三区乱| 激情五月深爱五月| 日韩av在线播放网址| 在线观看不卡av| 亚洲av毛片基地| 精品国产1区| 国产小视频国产精品| 免费黄色在线视频| 国产精品一区二区99| 亚洲免费成人av电影| 无码人妻aⅴ一区二区三区 | 午夜亚洲激情| 97在线看免费观看视频在线观看| 国产精品不卡av| 樱桃成人精品视频在线播放| 久久久噜噜噜久噜久久| 国产性生活网站| 日韩一级在线| 日本成人精品在线| 国产在线一级片| 久久精品久久综合| 亚洲一区二区三区四区在线播放 | 亚洲成人久久电影| 亚洲男女在线观看| 国产videos久久| 中文字幕在线观看日韩| 三上悠亚作品在线观看| 欧美日韩一区二区国产| 91国产精品91| 五月激情丁香网| 国产原创一区二区三区| 国产精品久久亚洲7777| 免费在线观看污视频| 国产精品伦理一区二区| 国产在线观看欧美| 最新中文字幕在线播放| 欧美猛男男办公室激情| 精品少妇人妻av一区二区三区| 神马香蕉久久| 久久精品99久久久久久久久| 日韩黄色在线视频| 日韩高清不卡一区| 99电影网电视剧在线观看| 亚洲日本国产精品| 亚洲丝袜精品丝袜在线| 浮妇高潮喷白浆视频| 欧美大片网站| 日韩精品在线免费播放| 成人免费精品动漫网站| 国产欧美日韩一级| 51国产成人精品午夜福中文下载| 日韩精品福利| 亚洲综合一区二区三区| www.色偷偷.com| 成人资源在线播放| 日韩中文字幕视频| 国产午夜麻豆影院在线观看| 国产一区二区三区免费播放| 欧美一二三区| 91福利在线免费| 91精品国产色综合久久| 制服 丝袜 综合 日韩 欧美| 亚洲天堂成人| 亚洲bt欧美bt日本bt| 国产原创av在线| 婷婷综合五月天| 在线观看日本www| 欧美色爱综合| 2020欧美日韩在线视频| 国产黄色一区二区| 国产精品国产三级国产aⅴ中文| 成人免费毛片网| 无码国模国产在线观看| 久久精品人人爽| 中文字幕网址在线| 国产日韩欧美高清| 女人和拘做爰正片视频| 国产极品模特精品一二| 美女精品久久久| 又骚又黄的视频| 国产日韩综合av| 18岁网站在线观看| 久久97精品| 久久久久久久久久久网站| 国产av一区二区三区| 亚洲欧美在线高清| 天堂网在线免费观看| 国产精品一区二区三区av麻| 欧美在线视频观看免费网站| 午夜视频在线播放| 天天综合色天天综合色h| 亚洲欧美日韩色| 亚洲美女黄色| 国产日韩欧美综合精品| a毛片不卡免费看片| 精品久久国产97色综合| 国产中文字字幕乱码无限| 懂色av中文字幕一区二区三区| www.国产亚洲| 99a精品视频在线观看| 欧美精品电影免费在线观看| 精品人妻一区二区三区日产乱码| 伊人一区二区三区| 久久国产免费视频| 影音先锋久久| 蜜桃导航-精品导航| 综合久久2023| 亚洲天堂色网站| 中文字幕一区二区三区免费看| 亚洲国产成人一区二区三区| 污污的网站免费| 中出一区二区| 国产一区二区三区无遮挡| 天堂√中文最新版在线| 亚洲一区av在线播放| 一区二区视频网| 亚洲欧美激情在线| 国产人妻黑人一区二区三区| 国产免费成人| 亚洲精品一区二区三| 激情综合五月| 91精品国产乱码久久久久久久久| 久久伊伊香蕉| 欧美精品免费视频| 国产在线一二区| 国产亚洲一二三区| 污网站在线免费| 今天的高清视频免费播放成人| 免费一区二区三区| 少妇高潮一区二区三区99| 欧美激情国内偷拍| 久久综合九色综合久| 欧美一区二区三区免费视频| 成人午夜视频精品一区| 亚洲国产精品高清| 杨幂一区二区国产精品| 欧美中文日韩| 一区二区三区日韩视频| 极品束缚调教一区二区网站| 国产精品露脸av在线| 少妇视频在线| 亚洲网站视频福利| 亚洲欧美高清视频| 欧美手机在线视频| 久久久精品视频免费| 亚洲国产精品高清| 久久一区二区电影| 国产乱色国产精品免费视频| 欧美激情国产精品日韩| 综合国产精品| 手机成人在线| 老牛精品亚洲成av人片| 亚洲tv在线观看| 成人免费av电影| 午夜精品蜜臀一区二区三区免费| 永久免费在线观看视频| 亚洲欧美视频在线| 女人18毛片一区二区三区| 欧美乱熟臀69xxxxxx| 久久亚洲天堂网| 综合在线观看色| 日韩视频在线观看免费视频| 99久久久久久| av影片在线播放| 精品一区二区三区日韩| 最近免费中文字幕中文高清百度| 国内精品福利| 欧美与动交zoz0z| 欧美日韩有码| 日韩动漫在线观看| 日本亚洲不卡| 国产一区二区三区无遮挡| 国产美女精品视频免费播放软件 | 国产精久久久| 国产精品美女主播| 欧美xx视频| 欧美中文在线观看国产| 国产精品yjizz视频网| 欧美俄罗斯乱妇| 青青草原av在线| 久久综合免费视频影院| 麻豆av免费在线观看| 中文字幕在线成人| 91这里只有精品| 伊人伊成久久人综合网站| 久久米奇亚洲| 亚洲色图美腿丝袜| 久久精品a一级国产免视看成人| 亚洲国产美女精品久久久久∴| 日本精品一二区| 亚洲国产精久久久久久| 天堂在线资源网| 日韩高清欧美高清| 青青草免费在线视频| 日韩久久精品电影| 九九九伊在人线综合| 亚洲欧美精品一区| 岛国在线大片| 永久免费精品影视网站| 麻豆91在线| 色综合久久久888| 91福利在线尤物| 欧美在线视频一区| 少妇精品视频一区二区免费看| 日本精品视频在线播放| 精品欧美一区二区三区在线观看| 国产精品成人品| 亚洲男男av| http;//www.99re视频| 给我免费播放日韩视频| 精品国产一区二区三区麻豆小说 | 999在线精品视频| 国产一区二区在线电影| 性折磨bdsm欧美激情另类| 成人午夜在线免费| 久久久亚洲av波多野结衣| 国产欧美一区二区三区网站| 亚洲色图27p| 一区二区三区高清在线| 国产五月天婷婷| 色综合久久久久综合99| 亚洲永久精品视频| 精品日韩欧美在线| 韩日视频在线| 久久亚洲春色中文字幕| 华人av在线| 国产美女久久精品| 福利电影一区| 五月天亚洲综合情| 午夜精品电影| 日日摸天天爽天天爽视频| 国内精品视频一区二区三区八戒| 国产a级片视频| 国产女主播在线一区二区| 欧美日韩精品一区二区三区视频播放| 欧美性猛交xxxx黑人| 国产绿帽刺激高潮对白| 国产婷婷成人久久av免费高清| 欧美成人精品一区二区男人看| 午夜精品久久久久久久99热浪潮| 久久国产三级| 精品91免费| 午夜激情久久| www黄色av| 国产大片一区二区| 在线看片中文字幕| 亚洲超丰满肉感bbw| 一区二区www| 国产视频在线观看一区二区| 黄色av网站在线播放| 日韩av大片免费看| 97人人澡人人爽91综合色| 日韩精品电影网站| 亚洲在线观看| 亚洲av无码一区东京热久久| 国产精品入口麻豆原神| 麻豆久久久久久久久久| 日韩欧美一区二区视频| 最新97超碰在线| 青草成人免费视频| 综合伊人久久| av不卡在线免费观看| 久久亚洲影院| 久久久久成人精品无码中文字幕| 亚洲男同性视频| 中文字幕一二三四| 亚洲无线码在线一区观看| f2c人成在线观看免费视频| 亚洲精品欧美极品| 91亚洲国产高清| 爱情岛论坛成人| 国产无人区一区二区三区| 日产精品久久久久| 精品久久久久久久久久久院品网| 黄页视频在线播放| 国产精品亚洲аv天堂网| 伊人久久大香线蕉综合网蜜芽| 国产一级爱c视频| 丁香婷婷综合网| 青青草手机在线视频| 欧美一级日韩免费不卡| 免费大片在线观看www| 国产精品视频白浆免费视频| 最新国产一区| 人妻有码中文字幕| 久久久久国产成人精品亚洲午夜| 国产 欧美 日韩 在线| 亚洲国产私拍精品国模在线观看| 久久大胆人体| 国产91一区二区三区| 国产精品vip| 亚洲一级Av无码毛片久久精品| 又紧又大又爽精品一区二区| www.色日本| 欧美激情视频播放| 精品久久ai| 国产午夜伦鲁鲁| 久久精品欧美一区二区三区麻豆| 亚洲成熟少妇视频在线观看| 伊人精品在线观看| 亚洲成人高清| 天天干天天色天天爽| 国产成人综合在线观看| 久久久久久久99| 日韩精品亚洲视频| 国产亚洲一区二区手机在线观看| 日本中文不卡| 久久国产综合精品| 少妇久久久久久被弄高潮| 欧美成人一区二区三区| 538视频在线| 任我爽在线视频精品一| 美女国产一区二区| 一级黄色录像视频| 亚洲国语精品自产拍在线观看| 新版的欧美在线视频| 午夜精品福利一区二区| 狠狠色丁香久久婷婷综合_中 | 欧美性淫爽ww久久久久无| 日本在线观看| 国产精品免费一区二区三区四区 | 国模私拍在线观看| 91福利小视频| av中文字幕在线观看| 精品日本一区二区三区在线观看| 久久久综合网| 欧美一区免费观看| 亚洲韩国青草视频| 久久99久久99精品免观看软件| 小说区视频区图片区| 成人app下载| 伊人网av在线| 欧美极品在线视频| 国产中文字幕一区二区三区| 国产九九九视频| 色天天综合久久久久综合片| 成人国产免费电影| 欧美日韩综合网| 国产精品一二三区| 中文字幕永久在线| 久久久久久久成人| 视频在线不卡免费观看| 95视频在线观看| 欧美日韩国产成人在线免费| 男人av在线播放| 日本精品福利视频| 国产精品素人视频| 亚洲色图21p| 99在线观看| 精品一区二区三区视频在线观看| 久久国产欧美精品|