這大概是我見過最通俗易懂的 AI 發展歷程科普詳文了
作者: 丁亮亮/smallniding
本文將求根溯源,從歷史時間線發展的角度一起來看看AI是如何誕生的,以及在誕生后這幾十年的發展過程中經歷了哪些變革和演進,在演進的過程中我會介紹大量涉及到的細分技術模塊,希望大家對AI整體的技術模塊及互相之間的關系都有系統化的了解(由于篇幅有限,不會非常深入垂直的去講某一個技術,大家對任一細分技術感興趣可以單獨交流)。最后,我會結合自己親自參與的一些AI案例來一起看如何更好的應用AI來幫助我們的業務提升價值,同時,展望AI未來的前景及發展。

在如今信息爆炸及互聯網飛速發展的時代,AI成為了這幾年全世界最炙手可熱的科技話題,而我們每天會面對無數的AI資訊,無論是大模型、智能體還是各行各業的AI應用,而這都被動的把大家推到了AI的風口浪尖上:在這個時代,不去擁抱AI,可能就會被AI淘汰。但隨著AI的發展,涉及到了大量的細分技術模塊及專業術語,大部分想去嘗試AI的同學可能都沒有好好思考過:到底什么是AI?AI到底怎么去結合自己的業務更好的應用?AI未來的發展前景如何?
一、前世:AI出現前
1. 唯一的高等智慧動物-人類
人類在地球上最早以人猿的方式出現,經歷了幾百萬年的進化和發展,人類成為了地球食物鏈的頂端,也成為了唯一的高等智慧動物:具備了復雜的多語言、推理和抽象思維、創造、發明以及最重要的多文明體系。
而人類能發展成為這樣,背后最重要的原因是:人類大腦的獨特性,人類大腦能支撐抽象思維、推理思維、語言創造、知識學習和傳承、發明和創造、文明建立和傳承等多維度能力,而這些正是人類的“智能”能力。

(人類大腦的簡要結構圖-圖片來源于AI生成)
而通過上圖我會發現除了左腦、右腦這些分區結構外,還有樹突、軸突這些專業名詞,而這些專業名詞正是大腦里“神經元”的一部分,而人類大腦擁有將近860億個“神經元”,這些“神經元”承擔了所有信息的處理和傳遞工作,所有大腦的活動都依賴其協同工作。這也很顯而易見的讓人類具備了感知、思維、情緒、運動控制、語言交流等多維度的智能能力。

(人類大腦“神經元”的工作原理-圖片來源于AI生成)
在人類幾百萬年的發展過程中,人類依靠大腦具備了非常強大的智能能力,這是地球上其他動物無法比及的,人類也在發展的過程形成了各個地區的語言和文明。人類用各自的語言交流、建設和發展各自的文明,在數百萬年中都非常穩定,但后來人類發現雖然大腦很強大,擁有幾百億的神經元,但記性和效率太差了:比如正常人背1000個數字會顯得非常困難,算100遍乘法會懵。那么人類就在想是不是可以解放大腦、讓機器代替人類去打工?
2. 第一臺計算機誕生

(第一臺計算機誕生-圖片來源于AI生成)
這就催生了第一臺計算機的出現,第一臺計算機在1946年被莫奇利和埃克特發明,開創性的解決了“快速算、精準存”的問題,但有一個問題是這臺計算機只是聽話但不會思考,比如你讓他計算1000遍乘法可以迅速給你算出來,但他不會思考這些乘法之間的規則或關聯以便下次更好的計算。直到后來,科學家發現人類大腦的厲害之處不在于有860億個神經元,而在于860億個神經元像“億級路由器”一樣互相聯通,形成了極其復雜的“神經網絡”,而“神經網絡”可以讓大腦具備自我學習、提煉規律的智能能力,于是他們想:能不能模仿神經網絡,造一個“機器神經網絡”?這其實就有了AI的雛形,我們在下一章節和大家一一道來。
二、今生:AI初生期(1956-1989)
1. AI概念定義
在1956年達特茅斯會議上,約翰·麥卡錫等科學家首次提出“人工智能(Artificial Intelligence 縮寫為AI)”的專業術語,明確提出了“讓機器模擬人類智能”的研究目標,這是AI成為獨立學科的起點。
那么我們可以來看看,到底什么是“人工智能(AI)”?
這里其實已經有明確定義了:人工智能(AI)是讓機器模擬人類智能的技術總稱。
那么問題來了,到底是什么“人類智能”?我們基于上一章節的內容,可以簡要概括為“人類智能”即是:讓機器具備“感知、思考、決策、執行”的能力。

(過馬路示意-圖片來源于AI生成)
我們來通過一個“過馬路”的例子來解釋到底什么是“感知、思考、決策、執行”:
- “感知”:對人類而言,有耳朵和眼睛等器官,我們在過馬路時可以看到紅綠燈在變化,也可以聽到汽車經過時的鳴笛聲,而這些“看”和“聽”其實就是我們的“感知”能力,我們可以通過感知能力獲取到這些信息。
- “思考”:當有了“感知”能力獲取到信息后,我們會用我們的大腦進行分析和推理,這其實就是我們的“思考”能力,比如我們在過馬路時看到紅綠燈是紅燈后,我們會停下來等待變成綠燈后再通過,這其實就是一個“思考”的過程
- “決策”:我們還以過馬路例子來分析,我們遇到紅綠燈時,我們其實有多個選擇,比如“闖紅燈”,亦或者是“等待綠燈再通過”,但我們最后選擇了后者,也是為了我們的安全第一,這其實就是“決策”
- “執行”:仍然以過馬路這個例子來分析,當我們最終“決策”了等待綠燈后再通過的決定后,等綠燈亮起時,這時我們邁開腿,走過人行道,到達馬路對面,這個過程其實就是“執行”
人類以上的“感知、思考、決策、執行”構成了“智能”能力,但如果要讓機器具備這些“智能”能力會有什么難點?
最大的難點其實首先是機器不懂我們的語言,所以就更別談分析、推理、思考之類的能力了,這時候另一個學科就可以很好的結合進來:自然語言處理(Natural Language Processing 縮寫為NLP)。
2. 自然語言處理(NLP)
其實“自然語言處理(NLP)”并不是AI出現后才出來,第一臺計算機在1946年出現,在之后的1950年,圖靈就提出“如果一臺機器能通過文本對話讓人類無法分辨它是人還是機器,那它就具有了智能”,這其實便是“自然語言處理(NLP)”的目標。只不過AI誕生后,剛好有了這個契機,“自然語言處理(NLP)”也成為了AI早期發展最重要的相輔相成的模塊。
那么我們來解釋一下到底什么是“自然語言處理(NLP)”:
首先看什么是“自然語言”,“自然語言”是“人類在日常生活中自然而然發展和使用的語言”,比如早期的甲骨文、象形文字等,以及發展到現在的各種語言(包含地方方言等),但我們通常涉及的編程語言就不算是“自然語言”。而“自然語言處理(NLP)”就是:讓計算機能夠理解、解釋、操縱和生成人類自然語言,通俗點講就是教計算機“聽懂人話、說人話、看懂人寫的字、寫出人能看懂的內容”。
我們可以來通過例子簡單分析下:
(1) 人與人之間通常是這么語言溝通的:

(圖片來源于《深度學習進階-自然語言處理》)
(2) 而人和動物之間,動物其實是聽不懂我們的話的(這也是科學難題之一,期待未來有所突破):

(圖片來源于《深度學習進階-自然語言處理》)
(3) 而試想一下,有了自然語言處理(NLP),人類和機器之間就可以溝通了:

(圖片來源于《深度學習進階-自然語言處理》)
3. AI初生期案例分析
在自然語言處理(NLP)的加持下,AI初步在一些場景取得了應用,比如早期的機器翻譯:

(早期機器翻譯原理示意-圖片來源于AI生成)
大家可以發現,在早期機器翻譯中,有詞典、語法規則庫、轉換規則等等約定好的規則庫,而這些規則庫決定了翻譯功能的具體實現。
下面我們以一個具體的例子來說明:The apple is red.
這個英文句子相信大家都能翻譯出來,也比較簡單,我們看看機器翻譯的原理:
① 第一步:查詞典
計算機會把句子拆成單詞,然后去一個巨大的電子詞典里查每個詞的意思。
英文單詞 | 詞典里給的主要中文意思 |
The | 這/這個/那(通常放在最前面) |
apple | 蘋果 |
is | 是 |
red | 紅色的 |
好,現在計算機得到了一堆中文詞:【這】【蘋果】【是】【紅色的】。
② 第二步:調整順序
計算機會用上一條非常簡單的語法規則:英語的 **[主詞] + [is] + [形容詞]**結構,對應中文的 [主詞] + [是] + [形容詞] + 的。
它發現 The apple是主詞,is是系動詞,red是形容詞。完美匹配規則!
所以,它把這些詞按照規則排列起來。 最終翻譯結果:這蘋果是紅色的。
③ 問題暴露:哪里不對勁?
這個翻譯對嗎?其實按字面意思都對了,本身語法也都對,但有一個地方做的不夠好:
- 不地道的表達:雖然“蘋果是紅色的”語法正確,但在日常口語中,我們可能更常說“這個蘋果是紅的”,或者直接說“蘋果很紅”,而機器無法理解這種語言習慣和微妙差別。
這個簡單例子揭示的根本缺陷:
- 缺乏靈活性:機器只會死板地應用規則,無法像人一樣根據語境或上下文或情感翻譯出更合適的內容
- 沒有“語感”:它不知道什么樣的中文聽起來更地道和自然,所以翻譯出來也會比較死板
4. AI初生期小結
通過這個機器翻譯的例子,我們會發現在AI初生期(1956-1989),雖然有自然語言處理(NLP)的加持,但AI基本都是死板的按人類制定的規則去執行,比較死板,不夠靈活。
如果把AI比作一個人類,我認為這一階段,他最多算是一個只會死記硬背的小學生,不懂變通,一旦遇到超出自己死記硬背以外的其他內容,就一無所知,我們暫且把這一階段的AI稱作“規則式AI”。
而這也是AI進一步后續發展很重要的原因,我們將在下一章節詳細展開。
三、今生:AI成長期(1990-2016)
在AI初生期(1956-1989),AI基本都以既定規則去應用,這也導致了AI成長期(1990-2016)的進一步發展。
1. 機器學習出現
這一階段,一個很重要的概念出現:機器學習(Machine Learning 縮寫為ML)。
那么,什么是機器學習:讓機器從數據中自己學習規律,而不是僅僅依靠人類為它編寫固定的指令。
大家會發現,相比之前的“規則式AI”,機器學習的方式會讓機器不再死板,不通過人類給定的既定規則,而是通過機器自己學習大量的內容,在這些內容中找到規律,然后再去應用。
2. AI成長期案例分析
我們以一個大家日常工作中場景都在用的例子來去說明:垃圾郵件過濾系統。

(垃圾郵件示意-圖片來源于AI生成)
如果在AI初生期(1956-1989),
只能按照既定規則來,比如:
- 如果郵件標題里出現 “免費” 這個詞,就標記為垃圾郵件
- 如果發件人地址包含 “spam” ,就標記為垃圾郵件
- 等等...
這種方法的缺點非常明顯:
- 變種很難防范:比如除了“免費”外,可能會有“免-費”或“Free”,這時你的規則就失效了。你必須不停地發現新套路,然后手動添加新規則
- 可能會誤殺:比如你的好朋友發了一個標題是“有個免費的講座你想參加嗎?”的郵件。
那么,如果在AI成長期(1990-2016),我們可以怎么做?
① 第一步:準備“學習資料”
你給機器一大堆已經分好類的郵件:
- 1000封已知的垃圾郵件 (標為“垃圾”)
- 1000封已知的正常郵件 (標為“正常”)
② 第二步:讓機器自己“找規律”
機器會開始埋頭苦讀這些郵件,并進行統計分析。
他會自動發現:
- 在“垃圾郵件”里,詞語“免費”、“優惠”、“發票”出現的概率非常高。
- 在“正常郵件”里,詞語 “會議”、“項目”、“放假”、“通知” 出現的概率非常高。
最終,機器形成了一套自己的判斷標準 。
③ 第三步:實際運作
這時,一封新郵件來了,標題是 “關于國慶放假的通知” 。
這時,機器會分析這封郵件的內容。
他發現,“放假”、“通知”這些詞在他的記憶里,和“正常郵件”的關聯度非常高。
而“免費”、“優惠”這些垃圾郵件高頻詞一個都沒出現。
于是,機器認為:這是一封正常郵件。

(垃圾郵件技術原理-圖片來源于AI生成)
通過這個案例,我們會發現有了機器學習的加持,AI從“規則式”的死板應用加上了“AI模型分析”,機器會自己學習、自己總結規律了。
3. AI模型出現
那么機器通過自己學習,自己總結出的規律,這其實就是AI模型(Model)!
那么到底什么是AI模型:一個通過大量數據訓練出來的、能夠識別特定模式或規律的數學函數或程序。通俗點講就是從數據中提煉出的“規律”或“經驗”本身。
AI模型的三大核心要素:
- 輸入:接收新的數據(如收到一封郵件)
- 處理:運用學到的規律進行計算或判斷這個郵件
- 輸出:產生結果(判斷這個郵件是不是垃圾郵件)
通過上面的案例我們點出了AI模型這個基礎的概念。
4. 機器學習方法:監督學習
還有一個概念,大家可以發現,我們給了機器2000個分類好的郵件(“正常”或“垃圾”),讓機器根據我們標注好的結果去學習和總結規律,這其實便是機器學習的方法之一!
我們把這種方法稱為“監督學習”,即:給機器學習的訓練數據都帶有明確的“標簽”(如標注好“垃圾”還是“正常”)。
那么還有沒有其他機器學習的方法?當然有,這個會在下一章節中和大家逐步介紹。
5. AI成長期小結
如果還是把AI比作一個人類,我認為這一階段,他可以算是一個靠刷題總結規律的中學生了:比如可能針對中學的生物這門課,刷了大量的題(包含答案),能自己總結出規律和方法,再遇到同樣類型題的時候,這位中學生能得心應手的回答上來。
而通過統計大量題或內容然后總結規律,我們可以暫且把這階段的AI稱為“統計式AI”。
但是,有一個很重要的問題:
這位中學生刷的是某一學科的題,雖然很厲害,但他可能偏科,比如沒有去刷物理的題,在遇到物理學科一個他從沒做過的題,他可能還是做不出來。
回到本章節我們講的AI成長期(1990-2016)這一階段,雖然AI通過機器學習變得強大了:當我們給到一定的學習數據的時候能自己學習自己總結規律了。
但有一個問題:一旦超出了我們原來給的那些學習數據,AI就不會了。這也是這階段AI發展面臨最大的問題,而這個問題將在接下來的AI發展階段中得到解決,也就是我們接下來要講的下一章節,而這一章節也是我這篇文章要和大家分享的重中之重。
四、今生:AI爆發期(2017年至今)
我們在AI成長期(1990-2016)這一階段發現,AI雖然出現了機器學習的概念,并且通過機器學習的方式訓練出了AI模型,但這個AI模型太“偏科”了,一旦涉及到它訓練數據以外領域的知識,他就可能不知道了。那么又如何解決這個問題?
1. AI模型架構演進
我們還是以上一章節中的“垃圾郵件過濾系統”來整體回顧和延展分析一下:
- 如果在AI初生期(1956-1989):按照既定規則來,比如:如果郵件標題里出現 “免費” 這個詞,就標記為垃圾郵件。這種方法非常死板,也沒有用到模型的概念。
- 如果在AI成長期(1990-2016):我們通過機器學習(監督學習)訓練出了AI模型(通常用“樸素貝葉斯模型架構”),讓模型自己判斷收到的郵件是不是垃圾郵件,看起來更高效了。
但實際上有個缺點:他是個“拆詞專家”,他會把郵件拆成一堆零散的詞,不會關心詞的順序和句子意思! 比如“錢轉給你”和“你把錢轉走”,對他來說都是一堆含有“錢”、“轉”的詞,意思差不多。他無法理解前者是正常收款,后者可能是詐騙預警。
這時候RNN架構(循環神經網絡)出來了:他不再拆散郵件,而是嘗試逐詞閱讀整個句子,并努力記住前面讀過的內容。
他終于有了初步的“上下文”概念,能理解一些簡單的句子結構了。
但他有個關鍵的問題:他有“健忘癥”!如果郵件很長,他讀到結尾時,早就忘了開頭說了什么。比如,郵件開頭說“關于上次開會的項目報告...”,結尾說“...請支付費用”,他可能就忘了開頭是正經事,只記得結尾要錢,從而誤判。
因為有“健忘”的問題,所以CNN架構(卷積神經網絡)出來了:他每次只關注相鄰的幾個詞。比如,看到“難以置信的”和“優惠”時,他能敏銳地感覺到這是個廣告短語。看到“驗證您的”和“賬戶”時,他知道這可能是個安全提示。通過這種方式可以讓他的效率變得更高(可以同時處理多個相鄰詞),擅長捕捉局部短語特征。通過這種方式,其實可以變相解決“健忘”的問題,
但有一個關鍵問題,他無法同時看到郵件全文:比如,一封郵件可能開頭很長一段都是正常的商務溝通,只在最后一句巧妙植入詐騙鏈接,他可能因為前面都是正常局部信息而放過它。而這也導致了他難以理解郵件整體的邏輯和核心意圖。
我們簡單總結一下,以上的AI模型通過架構的優化和演進,能力在逐步提升,但他們也有明顯的缺陷:
- “不懂語法”:只看零散關鍵詞。
- “認真但健忘”:處理長文效率低。
- “眼光狹隘”:缺乏全局觀。
2. Transformer架構出現
而因為有了這些缺陷,2017年,Google的研究團隊發表了一篇名為《Attention Is All You Need》的論文,正式提出了Transformer架構。
Transformer架構因此誕生!
我們來看看Transformer架構到底是怎么工作的,我們還是以郵件垃圾過濾為例:假設有一封可疑郵件,內容是:“尊敬的客戶,恭喜您獲得10W獎金!請點擊唯一鏈接 http://xxx.com領取”
第一步:同時查看所有關鍵信息(并行處理)
以前的RNN架構要一個字一個字讀,而Transformer架構可以一瞬間看到所有詞
第二步:劃重點并分析(自注意力機制)
他會給詞與詞之間畫上“關聯線”,比如 “獎金”和哪個詞關聯最強?他發現“獎金”和 “鏈接” 、“領取” 關聯非常緊密。這種“中獎-鏈接-領取”的模式,經典得就像它的辦案手冊里寫的“詐騙三件套”。
第三步:全局推理,看穿意圖
他看清了整封郵件的邏輯 :“這是一封群發郵件(尊敬的客戶),用虛假的好消息(巨額獎金)作為誘餌,其最終意圖是誘導收件人點擊一個可疑鏈接(http://xxx.com)。”
它理解的是郵件的整體意圖,而不是機械的匹配關鍵詞。
第四步:做出最終決定
他非常有把握地得出結論: “這是一封釣魚詐騙郵件!” 然后將它扔進垃圾箱。
通過這個例子,我們看到用了Transformer架構的垃圾郵件過濾器,通過“自注意力機制”可以做出精準的判斷,那么什么是“自注意力機制”,通俗點理解即是:模型在處理一句話時,能瞬間看到所有的詞,并智能地判斷出哪些詞之間關系更重要。
正是Transformer架構的革命性突破,成為了引爆AI爆發期最關鍵的技術基石。
3. AI大模型出現
有了Transformer架構,那么AI模型就可以得到革命性的改進和優化,基于這個契機,OpenAI在2018年推出了生成式模型:GPT-1,GPT-1擁有1.17億參數,那這里的“參數”是指什么?大家還是否記得本文的第一章節介紹了人類大腦的強大之處在于有數百億個“神經元”構成了“神經網絡”,而AI模型這里的“參數”就類似大腦神經網絡里的“神經元”。
在諸如之后快速發展,OpenAI相繼在2019年推出了GPT-2(參數擴大到15億)、在2020年推出了GPT-3(參數規模達到1750億 )。
隨著參數規模不斷擴大的AI模型出現,這也正是為了解決AI成長期(1990-2016)AI模型“偏科”的問題,讓AI模型具備更通用更強大的知識儲備,可以覆蓋多個領域。
基于此,大模型( Large Model 縮寫為****LM)由此而生!
那么,什么叫大模型?基礎定義為:大規模人工智能模型。
那么這里的“大規模”具體是什么?即泛指參數規模巨大的模型。通常我們把參數規模在10億以上的可以算是入門級的大模型,但發展到今天(2025),我們通常把參數規模在100億以上算作大模型,類如混元大模型旗下的TurboS大模型參數量為5600億。
4. 大模型、中模型、小模型
那么既然有了大模型,是否有小模型中模型?
答案是:當然有!我在下表會簡要比較一下大模型、中模型和小模型的差異:

大家其實發現,中小模型在特定場景也有非常高效,但對于大部分正在讀這篇文章的大家而言,無論是工作還是生活場景,大模型的應用是最多的,所以我們還是回到大模型本身繼續探討。
5. 大語言模型
在AI初生期(1956-1989),大家發現AI和“自然語言處理(NLP)”相輔相成發展,那是因為人類在AI的探索上最初都是以自然語言處理為切入,我們和機器溝通、讓機器理解我們的語言都算是在語言層面最直接的應用,那在大模型出來后,最初的形式就是大語言模型( Large Language Model 縮寫為LLM ):
- Large(大):指參數數量巨大,另外還指訓練的數據量巨大
- Language(語言):自然語言。
- Model(模型): 能識別特定模式或規律的計算模型
而我們之前提到的在2020年推出的GPT-3可謂是實實在在的大語言模型(擁有1750億參數),再到后來繼續演進,OpenAI在2023年正式推出了GPT-4(參數量相比GPT-3更大),而且更強大的是:GPT-3只能處理文本,而GPT-4既可以處理文本也可以處理圖像。類似的大語言模型還有我們鵝廠的Turbos、Deepseek等等。
6. 除了大語言模型還有哪些模型?
上面提到了大語言模型的具體定義和介紹,大語言模型作為AI大模型最早期也是最核心和基礎的形式,在后面的內容我們還會提到文生圖、圖生視頻等大模型,從類別上來看,現在已經遠遠不止是大語言模型的應用了,整體大模型宇宙我會在下圖和大家分享:

(大模型宇宙)
7. 機器學習方法:無監督學習
大家是否還記得在AI成長期(1990-2016),“機器學習”的概念開始出現,通過機器學習(當時用了監督學習的方法)可以讓機器自己學習和總結規律,來得到我們的AI模型。
那么GPT之類的AI大模型是怎么訓練(這階段通常稱為“預訓練”)出來的呢?
其實,同樣也是用了機器學習,但可能會更“深度”,這里的“深度”主要指:在機器學習的過程中分很多步驟,每一步驟學到一些不同的規律,從簡單到復雜,逐步深入。因為大模型的參數量非常大,給到模型訓練的數據量也巨大,我們不能再通過只給模型2000個數據(標注)的方式讓他自己學習和總結規律。GPT之類的通用大模型基本要吃掉互聯網當下存在的所有知識,人工不可能給某一條知識都去做標記告訴模型哪些是對的哪些是錯的,只能塞給機器無數的知識,但要讓機器自己去總結規律,得出相應的“正確”或“錯誤”(在監督學習下,原來應該是人工標注的工作)。
那么這種機器學習的方法,我們稱之為“無監督學習”。
8. 深度神經網絡、深度機器學習和傳統機器學習
而因為由于大模型巨大的參數量和訓練量,需要更復雜的網絡結構。之前提到的RNN、CNN、Transformer等,都屬于“深度神經網絡”的范疇。有了“深度神經網絡”的支撐,我們通常把對大模型預訓練時的機器學習范式稱為“深度機器學習”,也可以簡稱為“深度學習”,那么再回到AI成長期(1990-2016)當時其實也用了機器學習,我們把這階段的機器學習范式稱之為“傳統機器學習”。
9. 以ChatGPT、SD等案例分析
OK,聊到這里,其實大模型已經比較完善了,不僅僅是GPT系列,還有諸如Google的Gemini 、百度的文心一言、阿里的通義千問以及騰訊的混元等等,但光有這些大模型,好像和我們普通互聯網從業者沒有啥關系,直到2023年ChatGPT正式問世!

(ChatGPT聊天界面-圖片來源于AI生成)
大家可以通過ChatGPT去和AI聊天,感受AI的淵博和強大,同時又不乏趣味,大家也第一次真正意義在應用層感受到了大模型帶來的幫助和作用,大家可以用ChatGPT去問任何自己感興趣的未知領域的話題,也可以讓他幫我們工作做一定提效。
而這也奠定了近幾年AI爆發的切入點:近幾年大部分基于大模型的AI應用基本都以對話形式出現,如ChatGPT、豆包、元寶等等,很重要的原因在于對話體驗是最直接也是最簡單的方式。
而大家對話體驗聊多了之后,是不是覺得AI大模型能力可能就這樣了,歸根到底也始終只是在對話?
幾乎在ChatGPT出來的同一時期,Stable Diffusion(縮寫為SD) 面世,而SD是一個文生圖大模型,已經不再是傳統的對話生成文本的體驗,SD已經可以根據輸入的文本生成圖。(同時期還有Midjourney,不過前者是開源,后者是閉源)

(Stable Diffusion界面-圖片來源于AI生成)
而類似SD、Midjourney這些文生圖大模型,我們需要輸入一段文本來讓AI生成圖,這個文本其實就是提示詞(Prompt),我們以一個例子來看看:

(Prompt:一只貓在吃餅干-圖片來源于AI生成)

(Prompt:寫實風格,在一個陽光明媚的早晨,一只金漸層貓在草地上,用爪子拿著一塊餅干往嘴里吃-圖片來源于AI生成)
10. 提示詞工程
提示詞工程是一門與AI有效溝通的鏈接方式,通過以上例子我們可以稍微總結下整體原則:你給AI的提示詞越清晰、越具體,你得到的結果就越好。掌握這項技能,你將能真正釋放大模型的巨大潛力。
通過文生圖體驗,大家可以發現我們基于AI大模型不再是只能生成文本,也能生成圖片了!
但是有一個很關鍵的問題:只能輸入文本,我怎么得到一定是我想要的圖片呢?比如我希望上面例子里的貓和我家的貓長一樣,但光通過提示詞(文本描述)很難做到生成的貓和我家的貓一樣...
那么,有沒有解決辦法?
當然有,我們來直接看例子:這是我家的貓(一只美短,名叫“小白”):

我把“小白”這張照片發給了AI大模型,同時寫了一段提示詞,生成出相關圖片:

(Prompt:寫實風格,在一個陽光明媚的早晨,“小白”在草地上,用爪子拿著一塊餅干往嘴里吃-圖片來源于AI生成)
可以看出,生成的圖片更符合預期,但大家有沒有發現一點,我們向AI既輸入了文本又輸入了圖片(小白的照片),而AI給我們輸出了一個最終的圖片,這和之前的ChatGPT體驗可完全不一樣啊!(筆者注:其實,最新的ChatGPT已經支持既輸入文本又輸入圖片,基于GPT-4o大模型)
我們甚至可以既輸入圖片又輸入文字然后來讓AI生成視頻:
0832d0136be5b18281f3779ba9f01562.mov
11. 多模態、單模態
而這種既能輸入文本又能輸入圖片的方式其實就是AI大模型的多模態(Multimodal)!
那么到底什么是多模態?我們先來回憶一下AI模型的三要素:
- 輸入:接收數據
- 處理:運用學到的規律進行思考、推理
- 輸出:產生結果
我們關注到AI模型有很重要的輸入、輸出兩個環節,我們可以把多模態這么定義:輸入或輸出端能同時處理、理解和關聯多種不同類型信息。像我們剛剛的例子其實就是大模型在輸入端同時接受到了文本和圖像的信息,然后去理解、推理,在輸出端生成了一張新的圖片或一個新的視頻。
那其實講了多模態,對應的還有單模態(Unimodal),對應多模態的定義,其實我們就比較好理解單模態了,即:在輸入和輸出端分別專注于一種類型的信息處理。像我們之前提到的GPT-3 GPT-4以及騰訊的混元Turbos等都是單模態大模型,因為他們不論在輸入端還是輸出端都只能處理文本。我們下面用一張圖來簡單解釋“單模態”和“多模態”:

(“單模態”和“多模態”對比)
12. 開源、閉源
大模型除了“單模態”和“多模態”的區分外,還有個很重要的維度區分,即是“開源”還是“閉源”,如之前同時期的文生圖大模型既有SD又有Midjourney,前者是開源,后者是閉源,那么我們來看看開源和閉源到底有什么區別:

其實“開源”或“閉源”并非誰對誰錯,也并非誰更好誰更差,都是共同推動了整個AI領域的飛速發展。開源是創新的源泉,閉源是商業化應用的標桿。如果大家個人要去嘗試到底用什么模型來練手,最重要的是根據自身的需求、技術能力和資源,做出最合適的選擇。
13. 智能體的出現
看完大模型整體的介紹,其實我們發現不管是用單模態的ChatGPT(基于GPT-4)對話,還是用多模態的ChatGPT(基于GPT-4o)去“文+圖”生成圖,都已經算是在應用層使用上AI大模型了。
那么我們是否可以用ChatGPT去策劃一次旅行并做好預算呢:
你:“幫我策劃一次三亞旅行”
ChatGPT:“好的,為您規劃一個三亞5日游的行程框架供參考...”
它可能會輸出一個非常籠統的模板式行程:
- Day 1: 抵達三亞,入住酒店,附近海灘漫步。
- Day 2:...
你發現的問題:這太泛泛而談了,完全沒有考慮你的預算、偏好(比如是否喜歡潛水、是窮游還是舒適游),而且信息是靜態的,沒有實時價格。
你:“這個行程太簡單了。我需要一個更詳細的計劃,包括具體的航班時間、酒店名稱和價格參考。我的預算人均是8000元。”
ChatGPT:“好的,基于人均8000元的預算,這是一個更詳細的計劃示例...”
- “航班:可選擇北京-三亞的XX航空,參考價格1500元往返。”
- “酒店:可入住XX酒店海景房,參考價格600元/晚。”
- “...”
你發現的問題:價格是過時的:它無法聯網獲取真實實時價格,這些價格毫無意義。
需要你驗證:你得自己打開攜程或航司官網,去逐個查詢這些航班和酒店的真實價格。
決策點又拋回給你:“XX酒店”真的好嗎?它看不到真實用戶的評價。
你:“現在,幫我查一下下個月從上海出發到三亞,最便宜的非紅眼航班是哪天?列出時間和價格。”
你:“等等,把預算表單獨做出來,分機票、酒店、餐飲、門票、市內交通幾項。”
你:...
你會發現所有的規劃(先查什么、后查什么、如何取舍)都需要你來思考,你不斷在發出“下一步做什么”的指令。
那么,是否存在一種AI,你只需要告訴它一個目標,它就能自己規劃、執行,直到把結果呈現在你面前?
當然有,這時候就不得不提到“智能體(Agent)”這個概念了!其實“智能體”的概念出現不是這幾年才有,在AI成長期(1990-2016)前,已經有了基礎的定義(來源于學者伍爾德里奇和詹寧斯):智能體是一個位于特定環境中的計算機系統,它能夠自主的行動,以實現其設計目標。

(“智能體”演進)
還有一個更好理解的定義是:能夠感知環境、進行決策,并自主采取行動以實現某種目標的系統或程序。
我們發現“智能體”的幾個關鍵因素是:**"感知"、“決策”、“目標”、“自主行動”**,而大家可以思考一下,之前我們用ChatGPT輸入一個提示詞來生成了一張圖,那么這階段的ChatGPT是智能體嗎?我們可以來簡單分析一下:

顯而易見,如果僅僅是通過“文生圖”的ChatGPT并不算是一個“智能體”,我們最多算它是“智能體雛形”,或者可以稱作是一個“應用”或“工具”。
“智能體”的“自主行動”通常不太好理解,我們再通過一個生活化的例子來幫助大家更好的理解:
場景一:指揮一個“聽話的助手”(這是非自主的)
- 你對他說:“小C,打開冰箱。”
- “拿出西紅柿和雞蛋。”
- “打開燃氣灶。”
- “把鍋燒熱,倒油。”
- “先把雞蛋炒熟盛出來。”
- “再炒一下西紅柿。”
- “最后把雞蛋倒回去,放鹽,翻炒幾下出鍋。”
你會發現,每一步具體的動作都需要你精確地下達指令。這個助手很能干,但他沒有自己的主意,完全依賴你的指揮。這就是“自動化”,缺乏自主行動。
場景二:交給一個“靠譜的私人助理”(這是有“自主行動”的智能體)
你對他說:“小王,我有點餓了,幫我做頓飯吃吧。然后你就可以去忙別的事了。
這個“小王”(智能體)會展現出真正的“自主行動”:
- 他內心會盤算:“老板餓了。我得先看看冰箱里有什么,然后決定做什么,再動手。”
- 他自己決定打開冰箱看看有什么食材。(感知)
- 他發現有意面、西紅柿和牛肉,自己決定做番茄肉醬意面。(決策)
- 他自己決定先后順序:先燒水、同時切西紅柿、再炒肉醬……(規劃)
- 發現鹽用完了,他不會卡住,而是自己決定用醬油代替。(動態調整)
- 發現意面煮多了,他會自己決定先盛出一部分作為明天的午餐。(靈活處理)
- 最終交付:過了一會,他端上一盤香噴噴的意面,并告訴你:“老板,飯做好了。鹽用完了,我用了點醬油調味,你看合口味嗎?”
我們可以簡要總結下,“自主行動”即是:“扔給它一個目標,它自己能變出一套計劃、搞定過程、應對變化,最終給你結果”的能力。
那我們可以試想一下,如果ChatGPT,同樣你給了他一段提示詞“生成一張貓吃餅干的圖片”,這時他經過思考:“貓是什么貓比較好?餅干是什么餅干?應該在什么場景更好?”,然后通過各種工具或方法生成了多張貓吃餅干的圖片,然后讓我們選擇,并且選擇后可以讓他繼續優化。如果是這樣的方式,是“智能體”嗎?
答案是:當然是!完美滿足了“智能體”的“目標”、“感知”、“決策”、“自主行動”幾個關鍵維度的定義。(請參閱最新豆包的文生圖的體驗,所以我們可以暫且把豆包當作是一個智能體)
聊了這么多智能體的基礎定義,還是為了大家能清晰的了解到什么是智能體。
而我們再看本文之前提了大量關于大模型的基礎知識,那么“大模型”和“智能體”到底有什么關系呢?
通俗點講大模型就像一個無所不知、超級博學的大腦,而智能體則是擁有這個大腦后,還擁有了手和腳,能通過感官獲取到信息進行思考決策后主動去完成一個復雜任務的“全能機器人”。
簡要總結:
- 大模型是智能體的 “能力基礎”:沒有大模型,智能體就不會理解和思考,只能機械執行固定指令。
- 智能體是大模型的 “落地延伸”:光有大模型只能 “紙上談兵”,智能體通過搭配工具、設定目標、讓大模型的能力從 “說” 變成 “做”。
- 兩者是 “分工協作”:大模型負責 “想清楚”,智能體負責 “做到位”。
14. 如何開發一個智能體應用?
那么如果我們自己想做一個智能體應用該怎么做呢,以及在過程中是否會遇到一些問題?
下面我以今年參與的三個AI項目來簡要分享,分別是:瓦手AI放號官、瓦手AI搶ID、英雄聯盟AI賽事助手。

而今天我會主要分享在之前文章沒有提及的一些內容,以我負責的三個項目為例,如果要開發一個智能體應用,大概可以是以下流程:
- 需求確認及策劃 :明確項目到底要做什么,想通過AI解決什么問題或者提升什么體驗
- 技術選型及架構設計 :用什么大模型(是智能體的大腦)?智能體平臺/框架選擇?用什么工具鏈?
- 核心開發 :核心開發過程
- 智能體調優及測試 :智能體調優的方式?
- 項目上線運營與迭代:持續運營及優化迭代
我們將我負責的三個案例按以上流程簡要分析:

大家會發現整體開發一個智能體項目,最關鍵的就在于需求確認及策劃、技術選型及智能體調優三個環節,而智能體調優又是我們三個環節中最重要的環節。
為什么說“智能體調優”這個環節最重要,是因為我們做一個AI智能體應用,AI效果有沒有達到我們的預期,智能體調優有沒有做到最好是最關鍵的,而在上面三個項目的智能體調優方法基本一致,這也說明對于大部分智能體應用調優的方法是具備一定通用性的,這里面的提示詞工程在前面已經提到過,我們不再贅述。我們會重點關注在新出現的兩個專業術語:“RAG”和“微調”,我們在下面慢慢來探討。
15. 檢索增強生成(RAG)
檢索增強生成(Retrieval-Augmented Generation 縮寫為RAG),拆分一下解釋即是:
- 檢索:從外部知識庫中查找與問題相關的信息。
- 增強:用檢索到的信息來“增強”或“補充”大模型的知識。
- 生成:大模型基于這些補充的信息,生成更準確、更可靠的答案。
通俗易懂的一句話解釋就是:智能體的大腦(大模型)進行輸出內容之前,先讓它主動去一個龐大的知識庫(如文檔、數據庫、互聯網)中“查閱資料”,然后根據查到的資料來組織和生成答案。
如果一個智能體沒有RAG,就有點像一個閉卷考試的學生,他只能依靠記憶(預訓練階段學到的知識)來答題。如果問題超出了他的記憶范圍,他就可能答錯或“胡編亂造”。
如果給一個智能體加上RAG,就有點像一個開卷考試的學生,當遇到問題時,他可以先去翻閱指定的教科書和筆記(檢索外部知識庫),然后結合自己的理解(模型的推理能力),寫出一個有據可查、內容準確的答案。

(瓦手AI項目建立的知識庫-小部分示意)
16. 微調:基于監督學習和強化學習
我們在智能體調優的過程中,提示詞工程、RAG等方式其實都只是改變的是模型的輸入階段,讓輸入更有效,而想更好的去優化智能體的輸出,還要用到:微調。提示詞、RAG等改變了輸入環節,而微調本質上則改變了AI模型(對于開源大模型而言是模型副本,對于閉源大模型而言是“適配層”)。

(瓦手AI項目基于人工反饋的監督學習)
而強化學習則是讓智能體通過試錯,自己學會一整套“決策鏈”或“策略”,以最大化長期獎勵。
我們以一個生活中訓練狗狗的例子來告訴大家什么是強化學習:
- 小狗聽到到主人的指令“坐下”。
- 它嘗試趴下(動作)。
- 馴獸師沒有給零食(沒有獎勵)。
- 小狗又嘗試坐下(新動作)。
- 馴獸師立刻給予零食(給了獎勵)。
通過無數次嘗試,小狗學會了策略:當聽到“坐下”指令時,執行“坐下”動作能最大化獲得零食的長期收益。
監督學習是給了模型標準的答案(比如我們告訴模型是goodcase還是badcase),但大家試想一下如果這個數據量特別巨大,每次讓人工去標注所有的將非常不現實。而基于人工反饋的強化學習(RLHF)則是更高效的方法,用一個評分獎勵模型,我們讓AI學習這個評分標準,然后通過一次又一次的學習生成高分,從而達到我們想要的效果。
而通過以上的智能體調優方法,目的就是為了讓我們做出來的這個AI應用更符合我們的預期,比如AI回答的更準確、更趣味。
17. 大模型的幻覺問題
但其實,我們在項目過程中有時還是會發現AI回答的不是100%正確,而這正是大模型的“幻覺”問題:大模型生成看似合理但事實上錯誤、荒謬或虛構信息的行為,簡單來說就是AI在一本正經地胡說八道。
而我們上面用到了一些智能體調優的方法一定程度上本質就是為了解決“幻覺”問題,而“幻覺”問題產生的原因主要就是我們期待AI去輸出一些內容,但這些內容又超出了AI的認知時,他可能就會亂說或說錯。
除了通過RAG、提示詞工程、微調等方法調優智能體,提升我們AI輸出的準確性外,我們還可以比如:
- 答案溯源:讓模型增加二次校驗(要求模型在生成答案時,注明引用的源文)
- 自我批判:讓模型對自己生成的答案進行一次自我審查
- 高準確性信息采用固定信源:比如我們的AI賽事助手的賽程、賽事等信息讓AI去查固定的接口,而不是走聯網搜索
- 等等
簡要總結,幻覺是當前大模型的通用問題,包括我們之前談到的GPT系列以及現在所有的通用大模型都會有“幻覺”問題,而我們當前所有的調優手段,如RAG、提示詞工程、SFT、RLHF等,其重要目標之一就是最大限度地管理和減少幻覺,但其實并不能完全消除它。因此,我們除了做好AI輸入階段的優化外,對AI的輸出階段同樣應該保持謹慎,這也是每個AI從業者應有的重要意識。
18. AI爆發期小結
AI爆發期,從2017年到現在,短短的幾年時間,AI經歷了飛速的發展,大模型百花齊放,相關的智能體應用也層出不窮。這階段(也是我們正在經歷的)的AI,我認為他已經是一個讀遍天下書的大學生,擁有了豐富的知識積累加上了一定量的實習經驗,下一階段就是未來,他應該會走上社會,成為一個職場上的專業人員,把多年積累下來的知識和實習期積累的經驗更好的應用在職場上,同樣的,我們可以把這階段的AI稱為“深度學習/大模型AI”。
五、未來
不知道大家有沒有去看2025英偉達GTC大會,這個大會點出了很多未來和AI更有想象空間的模塊,如AGI、具身智能、量子計算、6G、人機協同等,感興趣的同學可以去詳細了解。
而我也聊聊我個人的AI觀:AI從歷史時間線的發展來看已經有幾十年,但真正爆發的也就這幾年,這背后原因其實是數據、算力、算法三個模塊的逐漸成熟:
- “數據”即是我們這幾十年所有的生活方式、工作方式等都向數字化轉變,積累了大量的數據
- “算力”即是云計算、GPU等不斷迭代和革新,為AI提供了有效基礎支撐
- “算法”即是以Transformer架構為代表的深度學習給大模型提供了無限可能
而在這三個模塊加持下,AI從最初的自然語言處理發展到了多維度物理世界(圖像、視頻、音頻等等)的處理,在具體應用形態上也從最初的內容生成(AIGC)到輔助辦公(編碼提效、美術生產提效、產研提效等)再到各個垂直行業(如醫療、教育等)的初步探索,
在這整個發展過程中:
- AI從最初的“規則式AI”發展到“統計式AI”再到今天的“深度學習/大模型AI”,
- 如果把AI想象成一個人類,他也從最初的小學生成長成了現在的大學生,
- 而大部分互聯網從業者可能還只是停留在AI的應用階段上,或者看到AI出來立馬就想去用,
但很多時候更需要我們思考的是:為什么要用AI?AI現在能做什么以及未來能做什么?用了AI后可以改變什么?如果不用AI會怎么樣?
在未來,AI不再是一個工具,更是我們重要的“伙伴”。





























