2024 AI行業革新大事記
智能體崛起
人工智能界為能夠自主行動的系統奠定了基礎,通過迭代提示大型語言模型,在各種應用中實現了性能的大幅提升。
發生了什么
“智能體” 成為了人工智能領域的新熱詞。研究人員、工具供應商和模型開發者紛紛為大型語言模型 (LLM) 賦予了決策和行動能力,以實現特定目標。這些進展預示著來年及未來智能體應用將迎來爆發式增長。
幕后推手
多種工具的出現,助力開發者構建智能體工作流程。
2023 年 10 月
├── CrewAI 發布了開源 Python 框架,用于構建和管理多智能體系統
2023 年末
├── 微軟推出了智能體開發工具 Autogen,這是一個開源的對話框架,用于協調多個智能體之間的協作
2024 年 1 月
├── LangChain 推出了 LangGraph,利用循環圖協調智能體行為
2024 年 9 月
├── Meta 推出了 Llama Stack,用于構建基于 Llama 模型的智能體應用程序
2024 年末
├── Autogen 團隊成員基于原代碼庫構建了 AG2
├── OpenAI 發布了 o1 模型和計算密集型的 o1 pro 模式,采用智能體循環逐步處理用戶指令
├── DeepSeek-R1 和 Google Gemini 2.0 Flash 的思考模式也采用了類似的智能體推理方式
├── OpenAI 宣布發布 o3 和 o3-preview,拓展了 o1 的智能體推理能力
2024 貫穿全年
├── 集成開發環境應用了智能體工作流程來生成代碼(如 Devin、OpenHands、Replit Agent、Vercel V0、Bolt)
├── LLM 廠商實現工具調用和函數調用,為智能體工作流程提供支持(如 Anthropic 的 Claude 3.5 Sonnet)技術解析
更加精細地提示 LLM 的技術在 2022 年開始嶄露頭角,并在今年年初匯聚成智能體人工智能的發展趨勢。這項工作的基本范例包括:
- 思維鏈 提示:引導 LLM 逐步思考。
- 自我一致性:提示模型生成多個響應,并選擇與其它響應最一致的那個。
- ReAct:交錯推理和行動步驟以達成目標。
- 自我優化:使智能體能夠反思自身的輸出。
- 反思:使模型能夠行動、評估、反思并重復。
- 測試時計算:增加分配給推理的計算能力。
當前形勢
智能體時代已經到來!無論 規模定律 如何繼續推動基礎模型性能的提升,智能體工作流程都正在使人工智能系統變得更加實用、高效和個性化。
價格大幅下降
模型制造商和云服務提供商之間的激烈競爭導致了最先進模型的使用價格大幅下降。
發生了什么
人工智能服務提供商之間掀起了一場 價格戰,以吸引付費客戶。一個重要的風向標是:從 2023 年 3 月到 2024 年 11 月,即使性能有所提升、輸入上下文窗口擴大、模型也能夠處理圖像和文本,OpenAI 仍將其模型云訪問的每 token 價格降低了近 90%。
幕后推手
導致價格下降的因素包括開源、計算效率更高的模型,以及對在推理過程中消耗更多 token 的智能體工作流程的追捧。OpenAI 的 GPT-4 Turbo 于 2023 年底首次亮相,設定了每百萬 token 輸入/輸出 10.00 美元/30.00 美元的基準價格。之后,頂級的模型制造商紛紛大幅降價:谷歌和 OpenAI 在高端市場競爭,中國公司則專注于低端市場,而亞馬遜則在兩個市場都有布局。與此同時,一些擁有專用硬件的初創公司以遠低于行業巨頭的價格提供了開源模型。
2024 年 4 月
├── Meta 發布了 Llama 3 70B,定價為每百萬 token 輸入/輸出 0.78 美元/0.95 美元
2024 年 5 月
├── DeepSeek 發布了 DeepSeek V2,定價為每百萬 token 輸入/輸出 0.14 美元/0.28 美元
├── OpenAI 推出了 GPT-4o,定價為每百萬 token 輸入/輸出 5.00 美元/15.00 美元
2024 年 7 月
├── Meta 發布了 Llama 3.1 405B,微軟 Azure 定價幾乎是 GPT-4 Turbo 的一半(5.33 美元/16.00 美元)
2024 年 8 月
├── OpenAI 將 GPT-4o 的價格降至 2.50 美元/10.00 美元
├── GPT-4o mini 發布,定價為每百萬 token 輸入/輸出 0.15 美元/0.60 美元
2024 年 12 月
├── 亞馬遜發布了 Nova 系列 LLM,Nova Pro 定價為每百萬 token 輸入/輸出 0.80 美元/3.20 美元
├── Nova Lite(0.06 美元/0.24 美元)和 Nova Micro(0.035 美元/0.14 美元)發布
├── 谷歌將 Gemini 1.5 Pro 定價降至每百萬 token 輸入/輸出 1.25 美元/5.00 美元
├── Gemini 1.5 Flash 定價降至每百萬 token 輸入/輸出 0.075 美元/0.30 美元
├── Gemini 2.0 Flash 可免費試用,API 價格尚未公布
├── 初創公司設計專用芯片提升性能并降低開源模型服務的成本(如 SambaNova、DeepInfra 等)事實是
對計算密集型模型的追求仍在繼續,只是面臨著新的挑戰。9 月,OpenAI 推出 了 token 消耗量較高、價格也相對較高的模型:o1-preview (每百萬 token 輸入/輸出 15.00 美元/60.00 美元) 和 o1-mini (3.00 美元/12.00 美元)。12 月,o1 發布了一個更精確的專業模式,但僅限于每月支付 200 美元的訂閱用戶。
新聞背后
人工智能界的知名人士紛紛反對那些可能限制開源模型的法規,因為開源模型在降低價格方面起到了重要作用。開發人員的反對意見幫助阻止了加州 SB 1047 法案的通過,該法案要求規模超過一定限制的模型開發者對其模型造成的意外損害承擔責任,并要求設置一個“關閉開關”,使開發者能夠禁用這些模型。對于任何人都可能修改和部署的開源模型而言,這是一個難以實現的要求。加州州長加文·紐瑟姆于 10 月份否決了該法案。
當前形勢
價格下降是健康技術生態系統的體現。需求量大的模型很可能始終保持相對較高的價格,但市場上的定價正逐漸趨向以美分而非美元為單位,每百萬 token。
生成式視頻爆發
強大的視頻生成模型大量涌現,標志著視頻生成技術取得了重大突破。
發生了什么
各大公司紛紛推出新的或更新的文本到視頻生成器。一些模型還增加了圖像到視頻和/或視頻到視頻的功能。雖然大多數模型專注于生成電影片段,但也有一些模型專門用于社交媒體視頻。
幕后推手
盡管人工智能領域最近發展迅猛,但在過去一年里,視頻生成器還是以驚人的速度走向成熟。幾乎所有主要模型都能生成令人信服、高度精細的場景,無論是逼真還是虛幻的,同時還在不斷提高圖像分辨率、速度、輸出長度以及用戶控制輸出的能力。
2024 年 2 月
├── OpenAI Sora 發布,并私下展示給好萊塢的創作者
2024 年 5 月
├── Runway Gen 3 Alpha 和 Gen 3 Alpha Turbo 發布,生成更高分辨率的視頻,并引入 API
2024 年 10 月
├── 字節跳動發布 PixelDance 和 Seaweed,分別生成 10 秒和 30 秒的視頻片段
2024 年 11 月
├── 未經授權的用戶獲得了 OpenAI Sora 訪問權限
2024 年 12 月
├── OpenAI 正式發布 Sora 模型,廣泛開放給用戶
2025 年
├── Meta 推出 Movie Gen,包含四個系統,特別擅長生成配樂,將于 2025 年在 Instagram 上推出
2024 貫穿全年
├── Adobe 將 Firefly Video 模型集成到 Premiere Pro 中,供視頻藝術家生成片段、特效等
├── 中國模型開發商調整模型以適應社交媒體需求(如 Kling AI、PixVerse、Jimeng AI)新聞背后
視頻生成技術正在重塑電影產業。2 月,在觀看 Sora 的預覽后,美國電影制作人泰勒·佩里 暫停 了他計劃的制片廠擴建,他認為不出幾年,AI 視頻可能會使傳統制片廠倒閉。《斯蒂芬·科爾伯特晚間秀》的視頻圖形團隊成員 使用 Runway 的技術,為傳統的數字視頻添加特效,將編輯時間從數小時縮短到數分鐘。
當前形勢
視頻生成技術在 2024 年取得了顯著進步,但仍有很大的改進空間。由于大多數模型一次只能生成少量幀,因此難以跟蹤物理和幾何關系,也難以在一段時間內生成一致的角色和場景。保持幀之間一致性的計算需求意味著生成的片段都很短。即使是短片段也需要大量的時間和資源才能生成:Sora 可能需要 10 到 20 分鐘才能 渲染 短至 3 秒的片段。OpenAI 和 Runway 發布了更快的版本 Sora Turbo 和 Gen-3 Alpha Turbo,以應對這一挑戰。
小型化趨勢
多年來,最好的人工智能模型變得越來越大。但在 2024 年,一些流行的大型語言模型已經足夠小,可以在智能手機上運行。
發生了什么
頂級人工智能公司不再將所有資源投入到構建大型模型上,而是推廣了一系列包含小型、中型和大型模型的大型語言模型。諸如微軟 Phi-3 (包含約 38 億、70 億和 140 億參數的版本)、谷歌 Gemma 2 (20 億、90 億和 270 億參數) 以及 Hugging Face SmolLM (1.35 億、3.6 億和 17 億參數) 等模型系列都專注于小型化。
幕后推手
小型模型之所以變得更加強大,得益于知識蒸餾 (使用大型教師模型訓練較小的學生模型以匹配其輸出)、參數修剪 (刪除影響較小的參數)、量化 (通過使用更少的位表示每個參數來減小神經網絡的大小) 等技術,以及對高質量訓練數據集的日益重視。除了性能、速度和價格外,在相對低功耗的硬件上運行的能力也是一個重要的競爭優勢。
2019 年
├── 谷歌推出 T5 系列(包含 5 個模型,參數量從大約 7700 萬到 110 億不等)
├── OpenAI 發布 GPT 系列,成功驗證了規模定律,模型參數量從 1.17 億增長到推測的 1.76 萬億
2023 年初
├── Meta 發布 Llama 2,推出 70 億、130 億和 700 億三種參數規模的模型,并開源了權重
2023 年 12 月
├── 谷歌推出 Gemini 系列,其中包括 Gemini Nano(18 億參數)
├── 微軟推出 Phi-2(27 億參數)
2024 年 2 月
├── 谷歌發布小型開源模型 Gemma 1(20 億和 70 億參數)
2024 年 4 月
├── 微軟推出 Phi-3(38 億、70 億和 140 億參數)
2024 年 8 月
├── Nvidia 發布 Minitron 模型,采用蒸餾和修剪技術,減少了 Llama 3.1 和 Mistral NeMo 的參數量并提高了效率新聞背后
蒸餾、修剪、量化和數據收集都是長期存在的技術。但這些技術以前從未實現如此高的小型化和能力比率,這可能歸因于被蒸餾、修剪或量化的更大模型的能力空前強大。
- 1989 年,Yann LeCun 和貝爾實驗室的同事發表了“最優大腦損傷”,該文章表明,選擇性地刪除權重可以減小模型的大小,并在某些情況下提高其泛化能力。
- 量化技術可以追溯到 1990 年,當時阿拉巴馬大學的 E. Fiesler 及其同事在“光學神經網絡的權重離散化范式”中展示了表示神經網絡參數的各種方法。隨著神經網絡的普及和規模的擴大,該技術在 2010 年代再次興起,并推動了 量化感知訓練 和 訓練后量化 技術的完善。
- 2006 年,Rich Caruana 和康奈爾大學的同事發表了“模型壓縮”,展示了如何訓練單個模型來模擬多個模型的性能。Geoffrey Hinton 和谷歌大腦的同事在 2015 年發表了“提煉神經網絡中的知識”,改進了 Caruana 等人的研究,并引入了蒸餾一詞來描述一種更通用的模型壓縮方法。
- 目前大多數小型模型都是在經過精心策劃和清洗的數據集上訓練的。更高質量的數據使以更少的參數獲得更高的性能成為可能。這是 以數據為中心的人工智能 的一個例子,即通過提高訓練數據的質量來提高模型性能。
當前形勢
小型模型極大地擴展了成本、速度和部署方面的選擇。隨著研究人員不斷找到在不犧牲性能的前提下縮小模型的方法,開發者將獲得更多構建盈利應用程序、提供及時服務并將計算能力分布到互聯網邊緣的新途徑。
收購新思路
大型人工智能公司找到了在不收購初創公司的情況下獲取尖端技術和人才的創新方法。
發生了什么
在 2024 年,一些科技巨頭與人工智能初創公司達成了新的合作協議,聘請了高管并獲得了技術訪問權限,而沒有直接收購這些公司。這些協議使巨頭能夠快速獲得頂尖人才和成熟技術,并降低了監管機構可能會阻礙此類行動的風險。而初創公司則失去了領導團隊以及對關鍵技術發展的控制權。作為回報,他們獲得了資金(至少在某些情況下是如此),回報了投資者,并得以從構建尖端模型的開支中抽身。
幕后推手
微軟、亞馬遜和谷歌分別利用其雄厚的財力和云基礎設施,與 Inflection AI、Adept AI 和 Covariant 以及 Character.ai 達成了合作協議。(聲明:吳恩達是亞馬遜董事會成員。)
2024 年 3 月
├── 微軟向 Inflection AI 投資 6.5 億美元,獲得其對話式人工智能技術的授權
├── 微軟聘請 Inflection AI 聯合創始人 Mustafa Suleyman 和 Karén Simonyan,任命 Suleyman 為新人工智能部門首席執行官
2024 年 7 月
├── 亞馬遜與 Adept 達成協議,獲得其智能體技術授權并聘請 Adept AI 的大部分員工(包括 CEO David Luan)
2024 年 8 月
├── 谷歌與 Character.ai 達成協議,聘請聯合創始人 Noam Shazeer 和 Daniel De Freitas 及團隊成員
├── 谷歌向 Character.ai 提供未公開資金,用于收購其投資者并繼續開發個性化人工智能產品
2024 年 10 月
├── 亞馬遜與倉庫機器人制造商 Covariant 達成協議,獲得其機器人模型授權并聘請大部分員工(包括 CEO Peter Chen 和首席科學家 Pieter Abbeel)
2024 年 12 月
├── 亞馬遜將 Abbeel 和前 Adept CEO Luan 安排在一起,負責開發新智能體和通用人工智能的實驗室新聞背后
科技巨頭長期以來一直依賴傳統的收購方式來獲取新的人才和能力,通常收購初創公司是為了其技術團隊(即人才收購)和/或其產品或基礎技術,而這些產品或技術都需要耗費大量資金和時間進行開發和市場測試。但傳統的收購方式正面臨著反壟斷監管機構日益嚴格的審查,他們擔心大公司通過收購小公司來減少市場競爭。例如,美國聯邦貿易委員會曾試圖阻止亞馬遜收購 iRobot,最終導致兩家公司在 2024 年 1 月 放棄 了這項交易。
當前形勢
對于那些面臨著在快速發展研究和市場中保持競爭力的科技巨頭來說,向初創公司支付一筆總付金額和/或許可費以換取頂尖人才和技術似乎已經成為新的常態。但即使是這種有一定距離的合作安排,也無法讓科技巨頭和初創公司免受監管機構的調查。微軟對 Inflection AI 的投資曾在歐洲受到 短暫審查,目前仍在接受美國監管機構的 評估。即使是微軟對 OpenAI 的更傳統的 投資,以及亞馬遜和谷歌在 Anthropic 中的利益也面臨著監管障礙。然而,到目前為止,監管機構尚未得出任何這些協議違反反壟斷法的結論。
本文轉載自 ??AI小智??,作者: AI小智

















