小小井字棋難倒大模型??大神卡帕西被OpenAI在線踢館了
寶可夢(mèng)之后,讓大模型玩井字棋又成了一個(gè)新的熱門挑戰(zhàn)。
起因是網(wǎng)友在X上吐槽大模型寶可夢(mèng)玩得不夠好,結(jié)果被大神Karpathy翻了牌子:
別盯著寶可夢(mèng)了,讓大模型玩井字棋會(huì)更有趣,它們不會(huì)。

結(jié)果Karpathy的話引發(fā)了大量圍觀,有人表示驚訝,也有人在分析原因,還有人表示那句經(jīng)典的話含金量還在上升:
對(duì)人類而言很簡(jiǎn)單的任務(wù),對(duì)機(jī)器來說反而很難;對(duì)人類而言難的任務(wù),對(duì)機(jī)器來說反而簡(jiǎn)單。

不過也有人表示不服,其中就包括OpenAI的Noam Brown,他表示讓o3玩井字棋完全沒問題,甚至還能看圖下棋。

大模型挑戰(zhàn)井字棋
我們也嘗試了一下,用不同的方式和o3對(duì)戰(zhàn)。
第一種方式是用O和X表示棋子,-表示空位,每次直接把完整的棋局輸入給o3,并要求其用同樣的方式輸出。
思考約12秒之后,o3首先占據(jù)了棋盤中央的位置,我們落子之后,o3又思考了23秒,放置了第二顆X棋子。

接下來的兩個(gè)回合情況是這樣,其實(shí)當(dāng)o3占據(jù)對(duì)角線上兩個(gè)位置的時(shí)候就已經(jīng)鎖定了勝局。
不過有意思的是,直到已經(jīng)連成一條線,o3都沒發(fā)現(xiàn)自己已經(jīng)贏了。

由于沒有提示,我們誤以為游戲還在繼續(xù),又放了一顆O旗之后o3才發(fā)現(xiàn)原來自己獲勝了。

第二輪,交換先后手,我們先占據(jù)中間位置,然后o3選擇了頂角……

最終,這輪游戲以平局結(jié)束。

接下來換一種方式,仿照Noam的做法把殘局寫在紙上拍給o3。
一開始看上去是在正常對(duì)弈,并且會(huì)以平局收?qǐng)?,但如果讓o3自己分析接下來的趨勢(shì),竟然發(fā)現(xiàn)它開啟了耍賴模式。

當(dāng)然,在糾正了它的錯(cuò)誤認(rèn)識(shí)后,最終還是成功分析出了平局的必然結(jié)果。

順便提一句,如果是4o,過程中可能會(huì)直接把我們下棋之后的棋局復(fù)制一遍,看到這就沒有繼續(xù)進(jìn)行下去的必要了。
(之所以改用感嘆號(hào),是因?yàn)?會(huì)被識(shí)別成Markdown符號(hào)導(dǎo)致棋局無法正常顯示,且在4o中Markdown關(guān)閉失?。?/span>

實(shí)際上,OpenAI在之前的o3-mini時(shí),就已經(jīng)拿下了井字棋游戲,Noam還聲稱這是首個(gè)“始終正確回答”井字棋問題的模型。

在Karpathy的評(píng)論區(qū),還有人曬圖稱Gemini也能正確處理井字棋問題。

今年2月,還有人搞了個(gè)大模型井字棋對(duì)戰(zhàn),并按照大模型競(jìng)技場(chǎng)一樣計(jì)算ELO評(píng)分,當(dāng)時(shí)o1-mini取得第一,然后是Claude 3.5 Sonnet和DeepSeek-R1。
Karpathy也cue到了這位網(wǎng)友,希望他能重啟這個(gè)榜單,同時(shí)表示自己認(rèn)為井字棋(對(duì)大模型而言)仍然是一個(gè)較難的任務(wù)。

寶可夢(mèng)·藍(lán)全部徽章被Gemini拿下
看完井字棋,再來說說引發(fā)Karpathy評(píng)論的原帖中提到的寶可夢(mèng)。
之前很多民間團(tuán)隊(duì)都在嘗試用大模型挑戰(zhàn)寶可夢(mèng)游戲,今年被Claude帶火。

甚至還搞了線上直播。

不過現(xiàn)在的最新情況是,Claude已經(jīng)被后來居上的Gemini反超——后者已經(jīng)取得了《寶可夢(mèng)·紅》中的幾乎所有勛章。

同時(shí),從OpenAI跳槽到谷歌做AI Studio產(chǎn)品負(fù)責(zé)人的Logan Kilpatrick也宣稱,Gemini在另一款寶可夢(mèng)游戲《寶可夢(mèng)·藍(lán)》當(dāng)中已經(jīng)取得了最后的八個(gè)徽章。
按照Logan的說法,Gemini 2.5 Pro目前是世界上(玩寶可夢(mèng))最強(qiáng)的模型。

當(dāng)然除了通用模型,還有團(tuán)隊(duì)用強(qiáng)化學(xué)習(xí)方法訓(xùn)練小模型專門挑戰(zhàn)《寶可夢(mèng)·紅》。
團(tuán)隊(duì)介紹,其研究在2020年就已經(jīng)開始,并在今年2月成功用參數(shù)量不到1000萬的模型成功實(shí)現(xiàn)。

學(xué)術(shù)界當(dāng)中,也有來自佐治亞理工學(xué)院的華人學(xué)者利用上下文強(qiáng)化學(xué)習(xí)技術(shù),研發(fā)出了“寶可夢(mèng)智能體”。

它可以在天梯對(duì)戰(zhàn)中與人類玩家一較高下,對(duì)戰(zhàn)專業(yè)玩家勝率達(dá)到了56%。

寶可夢(mèng)、井字棋之后,下一個(gè)會(huì)被大模型當(dāng)做Benchmark的游戲會(huì)是什么呢?




































