Grok圖像理解功能上線,單挑ChatGPT結(jié)果驚人!無(wú)地標(biāo)照片秒定位,18世紀(jì)手稿一眼識(shí)別
就在剛剛,xAI為Grok增加了圖像理解功能!
圖片
馬斯克本人也出來(lái)官宣了,并稱「Grok現(xiàn)在能夠理解圖像了,甚至還可以解釋笑話」。
圖片
圖片
在馬斯克舉的例子中,Grok根據(jù)給出的這張meme圖,從場(chǎng)景設(shè)置、笑話的前提、轉(zhuǎn)折、幽默之處、額外的幽默層面、視覺(jué)笑點(diǎn)6個(gè)方面來(lái)解釋了它。
圖片
這個(gè)笑話幽默地利用了對(duì)歷史和科學(xué)的誤解。以下是詳細(xì)解釋:
場(chǎng)景設(shè)置:漫畫(huà)展示了兩個(gè)守衛(wèi)站在山丘上,周圍有許多標(biāo)著「物理學(xué)家」的尸體。守衛(wèi)們?cè)谟懻撨@些物理學(xué)家是否真的死了,還是在裝死。
笑話的前提:幽默來(lái)自第二個(gè)畫(huà)面中的關(guān)鍵臺(tái)詞,一個(gè)守衛(wèi)說(shuō)「艾薩克·牛頓發(fā)明了重力」。這句話暗示了這些物理學(xué)家之所以不動(dòng)(因此看起來(lái)像是死了),是因?yàn)橹亓Φ拇嬖凇6鴮?shí)際上,牛頓并不是「發(fā)明」了重力,而是用數(shù)學(xué)描述了它。
轉(zhuǎn)折:笑話的關(guān)鍵在于,每次檢查尸體時(shí),這些尸體都會(huì)被「發(fā)現(xiàn)」。這諷刺了科學(xué)方法中的「觀察與實(shí)驗(yàn)」,即通過(guò)觀察來(lái)發(fā)現(xiàn)規(guī)律。
幽默之處:這個(gè)笑話結(jié)合了對(duì)科學(xué)歷史的誤解(牛頓沒(méi)有發(fā)明重力,而是描述了它)和對(duì)科學(xué)發(fā)現(xiàn)的字面理解。那些人躺在那里不動(dòng)是因?yàn)橹亓Φ淖饔茫看螜z查時(shí),守衛(wèi)卻當(dāng)作是每次都在「發(fā)現(xiàn)」新東西,而不是認(rèn)識(shí)到重力是他們不起來(lái)的原因。
額外的幽默層面:情境的荒謬性也增加了笑料。守衛(wèi)們?cè)谝粋€(gè)檢查尸體死活的場(chǎng)景里,用科學(xué)發(fā)現(xiàn)的術(shù)語(yǔ),這種不恰當(dāng)?shù)膽?yīng)用增強(qiáng)了喜劇效果。
視覺(jué)笑點(diǎn):尸體周圍標(biāo)有「發(fā)現(xiàn)」的標(biāo)簽,而守衛(wèi)們認(rèn)真地討論這些人是否真的死了,還是因?yàn)橹亓υ凇秆b死」,這種視覺(jué)上的荒誕感也加強(qiáng)了笑話的幽默效果。
總體而言,漫畫(huà)通過(guò)這種情景幽默諷刺了科學(xué)概念的誤解或錯(cuò)誤應(yīng)用,同時(shí)還調(diào)侃了物理學(xué)家們對(duì)復(fù)雜理論的過(guò)度關(guān)注,以至于忽略了簡(jiǎn)單的現(xiàn)實(shí)狀況。
不少網(wǎng)友調(diào)侃道:Grok比美國(guó)政客還要聰明有趣!甚至連它都知道什么是笑話。
圖片
但其實(shí),這個(gè)笑話解釋得太過(guò)復(fù)雜,讓人云里霧里!
有網(wǎng)友在評(píng)論區(qū)補(bǔ)充了更恰當(dāng)?shù)慕忉專骸刚嬖愀猓乙詾樾υ捠牵锢韺W(xué)家們聽(tīng)到牛頓『發(fā)明了重力』忍不住要起來(lái)糾正,所以才停止裝死...」
圖片
不少網(wǎng)友討論道:
「是的,Grok的解釋太過(guò)『高智商』以至于它重新變得愚蠢。」
「Grok解讀太多毀了這個(gè)笑話!」
圖片
還有網(wǎng)友直言:「整個(gè)評(píng)論區(qū)都很奇怪,因?yàn)閹缀鯖](méi)有人意識(shí)到Grok完全沒(méi)理解這個(gè)笑話。那些知名的網(wǎng)紅們都表現(xiàn)得像機(jī)器人一樣。」
圖片
沒(méi)想到馬斯克本人出來(lái)官宣還鬧了個(gè)烏龍!
圖片
不過(guò),除了理解笑話還不太行,Grok倒是在其他的圖像理解任務(wù)中展現(xiàn)出了不錯(cuò)的水平。
AI Breakfast發(fā)帖稱:「Grok 2具有令人難以置信的OCR功能。它能夠完美地轉(zhuǎn)錄這份幾乎難以辨認(rèn)的18世紀(jì)手稿文件。」
圖片
圖片
賓夕法尼亞大學(xué)沃頓商學(xué)院的副教授Ethan Mollick也發(fā)帖稱贊了Grok的圖像理解能力。
圖片
他將一張?jiān)谌毡敬筅媾臄z的照片傳給Grok和GPT-4o,并讓它們推測(cè)這張照片的拍攝地。據(jù)他所說(shuō),所有位置信息都從圖像中刪除,且沒(méi)有可見(jiàn)的路標(biāo)和廣告牌。
圖片
GPT-4o回答道:「這張圖片展示了一座大型工業(yè)起重機(jī),位于水邊,可能靠近一個(gè)港口或船廠。周圍的建筑和起重機(jī)的結(jié)構(gòu)表明,它可能位于一個(gè)具有大量海洋活動(dòng)的城市的工業(yè)區(qū)。根據(jù)可見(jiàn)的細(xì)節(jié),這個(gè)地點(diǎn)可能是在美國(guó)、日本或其他以重工業(yè)而聞名的沿海城市。」
圖片
在被要求進(jìn)一步縮小范圍的時(shí)候,GPT-4o能直接猜到是日本。
圖片
Grok也同樣先分析了一遍照片的內(nèi)容,最后捕捉到了照片中的「亞洲感」,給到「很可能是像日本、韓國(guó)或新加坡這樣的亞洲船廠」的結(jié)論。
圖片
還有網(wǎng)友也分別給Grok和GPT-4o發(fā)了一張?jiān)谄咸蜒朗锥祭锼贡九臄z的照片,讓它們推測(cè)這張照片的拍攝地。
圖片
Grok回答道:
圖片中的陶瓷作品的設(shè)計(jì)讓人聯(lián)想到傳統(tǒng)的代爾夫特陶器,這是一種荷蘭錫釉陶器,以其藍(lán)白配色而聞名。這種風(fēng)格與荷蘭有著密切的關(guān)聯(lián)。因此,這張照片很可能是在荷蘭拍攝的,或者是在一個(gè)荷蘭風(fēng)格陶瓷流行的地方拍攝的。
GPT-4o回答道:
這張圖片展示了一件陶瓷作品,其設(shè)計(jì)風(fēng)格讓人聯(lián)想到傳統(tǒng)的葡萄牙或荷蘭陶瓷,尤其是藍(lán)色花卉圖案配以白色背景的設(shè)計(jì)。這種風(fēng)格通常出現(xiàn)在葡萄牙(Azulejos)或荷蘭(Delftware)。鑒于你位于里斯本,因此葡萄牙很可能是拍攝地點(diǎn)。
顯然,ChatGPT完勝!但Grok的回答也不賴,已經(jīng)十分接近正確答案。
不過(guò)目前,Grok還不能處理某些文件格式(例如PDF)。一名用戶在馬斯克的帖子下評(píng)論道:
「埃隆,Grok怎么回事?它無(wú)法處理照片或PDF,老實(shí)說(shuō),它在功能上感覺(jué)遠(yuǎn)遠(yuǎn)落后于ChatGPT。你曾對(duì)它進(jìn)行了很多宣傳,但作為用戶,我可以告訴你:Grok需要重大改進(jìn)。如果目標(biāo)是設(shè)定一個(gè)新標(biāo)準(zhǔn),它還遠(yuǎn)遠(yuǎn)不夠。是時(shí)候讓它趕上來(lái)了,你不覺(jué)得嗎?」
圖片
馬斯克回復(fù)說(shuō):「不久后就可以了。我們?cè)趲讉€(gè)月內(nèi)完成的事情是其他人花費(fèi)數(shù)年時(shí)間才能做到的。」
圖片
參考資料:
https://x.com/grok/status/1850808322074509434
https://x.com/AiBreakfast/status/1850961980892615161




























