Liquid AI 再出手!LFM2-VL 把多模態 AI 裝進手機與手表,推理速度翻倍 原創
過去幾年,AI 模型變得越來越“臃腫”,從云端到本地的落地,幾乎都被算力、延遲、能耗卡住了脖子。要想在手機、手表、甚至嵌入式設備上跑一個多模態大模型?在很多人看來,這幾乎是天方夜譚。
但 Liquid AI 卻不這么認為。
這家由 MIT CSAIL 前研究員創立的公司,剛剛發布了 LFM2-VL —— 一代全新的 視覺-語言基礎模型,號稱能在從智能手機、筆記本電腦到可穿戴設備的廣泛硬件環境中高效運行,且延遲低、精度高、夠靈活。
他們的目標很明確:讓多模態 AI 真正跑得快、跑得省、還能跑得好。
1. 從 LFM2 到 LFM2-VL:多模態的進化
LFM2-VL 是在一個多月前發布的 LFM2 架構 基礎上升級而來。原本的 LFM2 就有個很不一樣的設計思路——它并不像傳統 Transformer 那樣用固定權重,而是會根據每一次輸入即時生成模型權重(他們稱之為 Linear Input-Varying,LIV 系統)。
這樣做的好處是,模型在推理時可以實時適配輸入,減少冗余計算,從而在設備端跑得飛快。
這次的 LFM2-VL,直接把 LIV 系統擴展到 多模態:
- 既能處理文本,也能處理圖像
- 支持不同分辨率輸入
- 針對實際場景優化速度與精度的平衡
Liquid AI 說,他們的新模型在 GPU 推理速度上,比同類視覺-語言模型快了一倍以上,同時還能在常見評測中保持競爭力。
LFM2-VL亮點:
- 基于LFM2:LFM2-VL-450M和LFM2-VL-1.6B的新高效型號,專為資源約束環境而設計
- 與現有VLM相比,GPU的推理速度更快2×,同時保持競爭精度
- 推理時間在推理時具有用戶可調速度折衷的靈活體系結構
- 本地分辨率可處理高達512×512,具有基于智能補丁的處理,用于較大圖像,避免進行升級和失真

2. 兩個版本,滿足不同“胃口”
為了適配不同算力環境,LFM2-VL 提供了兩種大小的版本:
- LFM2-VL-450M
- 參數量不到 5 億
- 專為極度受限的硬件環境設計,比如 IoT 設備、可穿戴設備
- LFM2-VL-1.6B
- 16 億參數
- 功能更強,但依舊能在單 GPU 或移動設備上流暢運行
兩者都支持最高 512×512 像素 的原生圖像處理,避免失真或無意義的放大。 對于更大的圖片,系統會用不重疊的分塊(patching),并額外生成一個縮略圖來提供全局信息,這樣既能捕捉細節,又不丟整體語境。
3. 背后的技術哲學:超越 Transformer
Liquid AI 的野心不止是做個更快的模型,他們從創立之初就想擺脫 Transformer 一統天下的格局。
他們的 Liquid Foundation Models (LFM) 靈感來自 動力系統、信號處理和數值線性代數,能處理文本、視頻、音頻、時間序列等多種序列數據。
這種架構在推理過程中可以實時調整計算方式,既省內存,又能在低算力環境中運行。這也意味著它既能服務大型企業的云端場景,也能部署在邊緣設備上。
4. 不只是模型:LEAP + Apollo
Liquid AI 不是只發模型,還在 2025 年 7 月推出了 Liquid Edge AI Platform (LEAP) —— 一個跨平臺 SDK,讓開發者能更方便地在移動和嵌入式設備上運行小型語言模型。
- 跨系統支持:iOS、Android 都能用
- 開放性:不僅能跑自家模型,還能跑開源的小模型
- 輕量化:內置最小 300MB 的模型,現代手機隨便放
配套的 Apollo App 可以讓開發者完全離線測試模型,這對于隱私保護和低延遲執行非常關鍵。
這套組合拳反映了 Liquid AI 的戰略——去云化、去中心化,讓 AI 真正走到用戶設備上。
5. 架構亮點:速度與精度的平衡
LFM2-VL 采用了模塊化架構,主要組件包括:
- 語言模型骨干
- SigLIP2 NaFlex 視覺編碼器
- 多模態投影器(Projector)
投影器里用了一個帶 pixel unshuffle 的兩層 MLP 連接器,可以減少圖像 token 數量,直接提升吞吐量。
另外,用戶還能調節:
- 圖像 token 最大數量
- patch 分塊參數
這樣一來,開發者就能根據部署場景自己權衡速度與畫質。
訓練方面,Liquid AI 使用了約 1000 億多模態 token,數據來自開放數據集和自家生成的合成數據。

6. 性能與評測
在常見的視覺-語言任務中,LFM2-VL-1.6B 拿下了不俗成績:
- RealWorldQA:65.23
- InfoVQA:58.68
- OCRBench:742
更重要的是,在 1024×1024 圖像 + 短提示的推理測試中,它是同類中 GPU 推理最快 的。
這對于需要實時響應的多模態應用(比如 AR 眼鏡、工業檢測、車載系統)來說,意義不小。



7. 開源與商用許可
LFM2-VL 已經上架 Hugging Face,并提供了 Colab 微調示例代碼,兼容 Hugging Face Transformers 和 TRL。
它采用了自家的 LFM1.0 許可證,官方稱參考了 Apache 2.0 原則,但細則還未公布。 已知的是:
- 商業使用可以,但有條件
- 年收入低于 1000 萬美元的公司與大企業條款不同
這顯然是 Liquid AI 想平衡開源共享和商業利益的一種嘗試。
8. 總結:多模態 AI 的“輕裝化”方向
LFM2-VL 不只是一個速度更快的多模態模型,它其實代表了一個趨勢:讓強大的 AI 不再依賴云端,真正落地到本地設備。
它的意義在于:
- 降低門檻:開發者不需要高算力服務器,也能部署多模態應用
- 提升隱私:數據無需上傳云端,減少泄露風險
- 實時性強:低延遲意味著更順暢的交互體驗
- 成本可控:減少推理成本,尤其是在長期運行場景
從 LIV 系統到 LEAP 平臺,Liquid AI 正在把“邊緣 AI”做成一個完整生態。如果他們的路線走得通,我們可能會迎來一個人人都能用多模態 AI的時代。
相關資源
- 模型下載與文檔:Hugging Face LFM2-VL
- LEAP SDK 詳情:Liquid AI 官網
本文轉載自??Halo咯咯?? 作者:基咯咯

















