聊聊理解&生成多模態大模型的「技術難點」和「技術突破」思路
你有沒有過這種經歷?讓AI畫一只"戴紅圍巾的黑貓",出來的卻是只"穿紅衣服的黑貓"。明明AI已經能寫論文、編代碼,怎么看個圖、畫個畫還這么不靠譜?
最近突然想通了這個問題,未來2-3年,多模態領域會迎來兩個堪比GPT-4的"大爆發"時刻——這可能意味著,過不了多久,AI不僅能看懂你的圖、聽懂你的話,甚至能像人一樣"邊想邊畫"、"自主學習"。
為什么多模態理解生成難突破?
先從一個奇怪的現象說起:現在的AI,語言能力和視覺能力像是"兩條平行線"。
比如你讓大模型寫一篇"如何養多肉"的文章,它能把澆水頻率、光照需求說得頭頭是道;但你讓他“生成養殖多肉的教程圖片”,卻發現最后只是生成了一盆多肉的圖片,根本沒有教程。
這不是因為AI"笨",而是它的"語言腦"和"視覺腦"沒打通。團隊做過一個實驗:訓練一個能同時處理文字和圖片的模型,結果發現一個尷尬的事——模型的"理解模塊"(看懂圖片)和"生成模塊"(畫出圖片)幾乎互不影響。就像一個人左眼看書、右眼畫畫,左眼看到的內容,右眼完全用不上。
為什么會這樣?打個比方:語言就像精準的坐標,每個詞都有明確的含義("紅色"就是波長620-750nm的光);但視覺更像一團模糊的印象,你說"夕陽紅",有人想到橘色,有人想到粉色。AI想用語言精準控制視覺,就像用筷子夾水里的魚——總差那么一點。
更麻煩的是數據問題。互聯網上的圖文數據看似多,實則"水分"很大。比如一篇講"貓咪減肥"的文章,配的可能是一張貓咪睡覺的圖;一個"如何修自行車"的教程,圖片和步驟完全對不上。AI學了這些"錯位數據",自然容易"說一套、畫一套"。
大模型越大,數學越差?問題出在"跳步"
如果說多模態的問題是"協調能力差",那語言模型自身的問題就更有意思了:模型越大,數學越差。
團隊做過一個極端實驗:訓練了一個萬億參數的大模型,發現它寫散文、答常識題的能力遠超小模型,但做數學題時,正確率居然比70億參數的小模型還低。
這就像班里的"學霸",背課文、寫作文樣樣第一,偏偏做數學題總跳步——3+5×2,他直接寫16(其實正確答案是13)。不是不會,而是懶得寫步驟,覺得"反正差不多"。
為什么會這樣?核心問題出在大模型的"生存邏輯"上。現在的大模型都靠"Next Token Prediction"(下一個詞預測)工作,簡單說就是"猜下一個詞最可能是什么"。這種邏輯本質是"壓縮信息",就像記筆記時總愛簡寫——能少寫一個字,絕不多寫。
但數學題偏偏需要"一步都不能少"。比如算1234×5678,你必須一步步拆開來算,跳過任何一步都可能錯。大模型為了"壓縮信息",天生就愛跳步,遇到需要精確推理的任務,自然容易掉鏈子。
o1模型為什么突然變聰明了?因為它會"反悔"
今年OpenAI的o1模型橫空出世,突然把數學題正確率提了一大截。很多人以為是參數更大了,其實是因為它學會了"反悔"。
就像做數學題時,你寫著寫著發現"這步算錯了",于是劃掉重寫——o1就有這能力。傳統大模型推理時像"單行道",一旦寫錯一個詞,后面全跟著錯;o1卻能在關鍵節點"拐回頭",換條路重新走。
這叫做"Meta CoT思維鏈"或是“覺醒時刻”。打個比方:傳統模型像只會"直走"的導航,哪怕前面是死胡同,也硬著頭往前沖;o1則像會"掉頭"的司機,發現走錯了就倒回來,換條路再試。
更妙的是,o1不是瞎試。它會在"關鍵岔路口"多停留一會兒——比如解幾何題時,先想"要不要做輔助線",想不清楚就先試一條,不對再換一條。這種"試錯-修正"的模式,其實和人類解難題的思路一模一樣。
多模態的下一個爆發點:讓AI"邊想邊畫"
o1的突破給了多模態一個重要啟發:要讓AI"看懂圖、畫對圖",光靠"語言指揮視覺"不夠,還得讓它在視覺空間里"慢慢想"。
你有沒有發現,人看復雜圖片時,總會"動手動腳"?比如數圖片里有幾只鳥,會用手指著數;走迷宮時,會在紙上畫路線。這些動作不是多余的,而是"視覺思考"的一部分——就像算數學題要打草稿。
但現在的AI看圖片,就像被綁住手腳的人在做題——只能"盯著看",不能做標記、畫輔助線。團隊做過一個嘗試:給AI加了"在圖片上圈點、連線"的能力,結果它數數、走迷宮的正確率一下子提高了30%。
這還只是開始。真正的"多模態推理時刻",應該是AI能像設計師一樣"邊想邊畫":比如你讓它設計一個"帶書架的書桌",它會先畫個草圖,自言自語"這里書架太矮了",然后擦掉重畫,直到滿意為止。
這個時刻可能一年內就會到來。可以挖掘教學視頻里的"寶藏"——那些老師用激光筆指重點、在黑板上打草稿的畫面,恰恰是AI最需要的"視覺思考教材"。
比"看懂圖"更重要的:AI能自己"找東西學"
如果說多模態推理是"讓AI會思考",那另一個"關鍵時刻"就是"讓AI愛思考"——自主學習。
現在的AI就像被家長盯著寫作業的孩子:你給它一套題,它會做;但你不給題,它就坐著發呆。想讓它學新知識?必須人工整理好數據、定好目標,否則它根本不知道"該學什么"。
但人類的學習不是這樣的。小孩看到螞蟻搬家,會蹲在地上看一下午,自己琢磨"它們去哪";你第一次用新手機,會自己點點戳戳,摸索功能。這種"自己找目標、自己總結經驗"的能力,才是智能的核心。
自主學習的關鍵是讓AI有"內生動力"。現在的AI學習靠"外部獎勵"(比如做對題給高分),就像孩子靠"考100分買玩具"驅動;未來的AI應該像成年人"為了成長而學習",自己判斷"這件事有沒有價值",自己調整學習方向。
比如一個自主學習的AI,看到你總在晚上查菜譜,可能會自己去學"如何根據季節推薦菜譜";發現自己畫動物總比例失調,會主動找解剖學資料補課。這聽起來有點像"AI有了好奇心",但本質是它能從環境中"提煉目標",而不是等著人類給指令。
最后說點實在的:這對我們意味著什么?
可能不用等太久,你手機里的AI助手會發生幾個明顯變化:
它看圖片會更"仔細"——你拍張家電故障圖,它能圈出"這里的電容燒了";你讓它畫"公司年會海報",它會先問你"要突出抽獎還是表演",改幾版直到你點頭。
它會更"主動"——你說"想給孩子做科學小實驗",它不僅會列材料,還會自己查最近的天氣,提醒你"今天有風,不適合做氣球實驗"。
當然,AI還會犯錯。但就像GPT-4的出現讓我們重新定義"智能",這兩個"多模態時刻"可能會讓我們重新思考:當AI能"看懂世界、自主學習",人和機器的邊界會在哪里?
參考資料:???專訪張祥雨:多模態推理和自主學習是未來的 2 個 「GPT-4」 時刻??
本文轉載自?????旺知識??,作者:旺知識

















