古早費(fèi)曼論文手寫公式也能轉(zhuǎn)LaTeX，還能看懂梗圖，馬斯克Grok新功能上線就火了

作者：機(jī)器之心 2024-10-29 14:30:00

馬斯克旗下的人工智能公司 xAI 發(fā)布的 Grok 大模型有助于實(shí)現(xiàn)這一目標(biāo) —— 在經(jīng)歷了最近的一次更新后，Grok 大模型終于能看懂圖像了，甚至還能做公式 OCR、解釋笑話。

設(shè)想一下，如果我們能夠?qū)⑺?LaTeX 時代之前的文本資料輸入到先進(jìn)的大型語言模型（LLM）中，并從中獲得格式規(guī)范的 LaTeX 文檔庫，這無疑將極大地推動科學(xué)文獻(xiàn)的數(shù)字化進(jìn)程和標(biāo)準(zhǔn)化工作。對于科研工作者而言，這不僅僅是技術(shù)層面的飛躍，它更標(biāo)志著知識管理和信息傳播方式的一次重大變革。

AI 銷售和營銷自動化平臺 Amplemarket 創(chuàng)始人 Luis Batalha 在試用后表示：借助 Grok，他能把理論物理學(xué)家 Feynman 博士論文中的公式轉(zhuǎn)換成 LaTeX。

轉(zhuǎn)化之前的文本長這樣：

可以看出，里面的公式基本都是手寫的，肉眼辨認(rèn)尚有難度。而 Grok 可以把它們轉(zhuǎn)化成如此工整的結(jié)果，而且準(zhǔn)確率令人驚嘆。

圖源：https://x.com/luismbat/status/1850925670408544355

這個帖子吸引了眾多研究人員的關(guān)注，整個帖子的瀏覽量已經(jīng)突破 100 萬。

還有人曬出了自己用 Grok 識別出的 18 世紀(jì)文件：

在識別其他圖像方面，Grok 表現(xiàn)也非常不錯。比如網(wǎng)友上傳了一張手表的照片，Grok 根據(jù)表殼形狀和表帶設(shè)計(jì)猜出了表的品牌（對手表有研究的讀者可以看下猜得對不對）。

你還可以讓 Grok 點(diǎn)評圖片，它能從時尚、風(fēng)格、表情等多個角度進(jìn)行描述。比如針對下面這張圖，Grok 回答：「圖片中描述了一位動漫風(fēng)格的人物，這位人物擁有中等長度的棕色頭發(fā)，戴著眼鏡，并且正在彈奏貝斯吉他。該角色展現(xiàn)了一種休閑、現(xiàn)代的造型，穿著一件格子衫外套和深色褲子，以及帶有紅色裝飾的白色運(yùn)動鞋。這種裝扮表明這是一個年輕的、可能還在上學(xué)的角色，給人一種悠閑的藝術(shù)氛圍……」

圖源 https://x.com/ItsZeramy/status/1850810276784054313

馬斯克表示，Grok 其實(shí)也可以用來解釋笑話（梗圖）。

今年三月，Grok-1 正式亮相，在數(shù)學(xué)、推理等能力上取得了不錯的成績。之后，xAI 迅速推出 Grok 1.5，新一代模型實(shí)現(xiàn)了長上下文理解和高級推理能力。8 月，Grok 2 上線，在常識、數(shù)學(xué)競賽問題 (MATH)、研究生水平科學(xué)知識 (GPQA) 等領(lǐng)域與其他前沿模型相媲美。

如今，在 xAI 不斷完善下，大家終于可以體驗(yàn) Grok 的圖像理解能力了。為了驗(yàn)證各路網(wǎng)友的說法，機(jī)器之心在第一時間進(jìn)行了測試。

公式 OCR 能力實(shí)測

首先，機(jī)器之心測試了一下 Grok 對公式的處理能力。我們輸入經(jīng)典論文《 Attention Is All You Need 》中的一張公式截圖，要求轉(zhuǎn)換成 LaTeX 代碼。

輸入的公式截圖，對應(yīng)論文中的公式（1）。

然后，我們將 LaTeX 表達(dá)式輸入到在線 LaTeX 公式編輯器中進(jìn)行轉(zhuǎn)換，比對之后發(fā)現(xiàn)結(jié)果完全正確。

公式來源：https://arxiv.org/pdf/1706.03762

之后，我們上了點(diǎn)難度，用手寫公式進(jìn)行測試，輸入的公式截圖看起來不是很規(guī)范，但 Grok 還是給出了結(jié)果。

梗圖理解能力實(shí)測

接著，我們再看看 Grok 對圖片的理解能力。

不知大家是否 get 到小女孩吃蛋糕這張圖的笑點(diǎn)。如果沒有，當(dāng)你看完 Grok 的解釋，有種恍然大悟的感覺。

不過，Grok 并不是總懂幽默。我們輸入如下圖片，圖片原來的意思應(yīng)該是想表達(dá)打工人的一天似乎都很疲憊，但到了深夜卻格外精神。但 Grok 給出的結(jié)果并不是。

經(jīng)過測試，我們還發(fā)現(xiàn) Grok 對圖片中的中文理解的不是很好，比如錯把中文字符「我的精神狀態(tài)」轉(zhuǎn)換成「敵人的精神狀態(tài)」。

Grok vs. ChatGPT，誰的識圖能力更強(qiáng)？

雖然識圖是 Grok 的新功能，效果也很驚艷，但在眾多 AI 模型中，這實(shí)在算不上一項(xiàng)新穎的功能。因此，有人在馬斯克的評論區(qū)發(fā)出靈魂拷問，「Grok 到底進(jìn)展到什么程度了？感覺遠(yuǎn)遠(yuǎn)落后于 ChatGPT 啊」。對此，馬斯克耐心回復(fù)說，「我們只用了幾個月就完成了其他人花了幾年時間的工作。」言下之意似乎是不著急，慢慢打磨新功能。

還有網(wǎng)友上傳了一張飲料圖片，讓 Grok 和 ChatGPT 進(jìn)行回答。從上傳的資料來看，圖片內(nèi)容并不清晰，而且還不是中文，對于不懂外語的小伙伴可能有點(diǎn)難度。但是 Grok 和 ChatGPT 都給出了回答。

Grok 回答：圖片中的飲料是「???（Baekseju）」，這是一種傳統(tǒng)的韓國酒精飲料。它是一種用人參和其他草藥浸泡的米酒，以其假定的健康益處而聞名。瓶子上的標(biāo)簽顯示了 D，這可能是 Baekseju 的某個特定品牌或變種。由于其濃烈的風(fēng)味和藥用屬性，通常只消費(fèi)少量。

ChatGPT 回答：這款飲料是 Bacchus-D，一種在韓國流行的能量飲料。它通常包含咖啡因、牛磺酸和維生素 B2、B6、B12，這些成分被認(rèn)為可以提升能量水平。在韓國，它常被用作快速提神的飲品。

熟悉這款飲料的小伙伴，可以點(diǎn)評一下，這兩個模型，哪個回答的更好。

圖源：https://x.com/chrisfirsttt/status/1850745853843001418

對于 Grok 沒有理解的梗圖，我們在 ChatGPT 上也做了測試。ChatGPT 的回答明顯更勝一籌，中文識別能力也更強(qiáng)。

經(jīng)過一番測試以及網(wǎng)友給出的示例來看，Grok 在輸出 LaTeX 表達(dá)式方面確實(shí)不錯，對圖片中出現(xiàn)的主體和場景解釋的非常到位，但對梗圖的解釋時好時壞，有時能完全解釋笑點(diǎn)，有時會解釋錯誤，此外，Grok 對中文字符的識別能力也不是很好。

最后提醒大家一下，Grok 并不是免費(fèi)的，付費(fèi)用戶才能體驗(yàn)。可以使用的小伙伴，可以進(jìn)行測試了。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型