LFM2-VL:端側高效的視覺語言模型 原創
現有的大多數視覺語言模型都面臨著一個共同的挑戰:如何在保持高性能的同時,實現更高的計算效率和更快的推理速度。近日,Liquid AI公司發布了其首個視覺語言基礎模型系列——LFM2-VL,這一創新產品專為低延遲和設備感知部署而設計。LFM2-VL擴展了LFM2系列開源基礎模型到視覺語言空間,支持可變分辨率的文本和圖像輸入。
當前市場上的主流視覺語言模型雖然在精度上表現出色,但往往需要大量的計算資源,難以在移動設備、邊緣計算設備等資源受限的環境中部署。這種情況限制了視覺語言模型在更廣泛場景中的應用,特別是在實時性要求較高的應用場景中。
隨著物聯網、智能手機、可穿戴設備等邊緣計算設備的普及,對本地化AI處理能力的需求日益增長。用戶希望能夠在不依賴云服務的情況下,在自己的設備上直接運行AI模型,以獲得更快的響應速度、更好的隱私保護和更低的使用成本。
1.LFM2-VL的核心創新
LFM2-VL提供兩個變體:超高效的LFM2-VL-450M適用于高度資源受限的環境,以及更強大但仍然輕量的LFM2-VL-1.6B。這種雙模型策略允許用戶根據具體應用場景和資源限制選擇最適合的版本。
450M參數的版本專為極端資源受限環境設計,如智能手機、可穿戴設備等。而1.6B參數的版本則在保持輕量化的同時,提供更強的能力,適合筆記本電腦、單GPU實例等相對資源充足的環境。
LFM2-VL在GPU上與現有模型相比實現了高達2倍的推理加速,同時保持競爭性的準確率。這一性能提升對于實時應用具有重要意義,能夠顯著改善用戶體驗,降低計算成本。推理速度的提升主要得益于以下幾個方面的優化:
- 高效的模型架構設計
- 優化的計算流程
- 智能的圖像處理策略
- 靈活的速度-質量權衡機制
- 靈活的架構設計
LFM2-VL具有靈活的架構,用戶可在推理時調節速度-質量權衡。這種設計使得同一個模型可以適應不同的應用需求和資源約束,無需重新訓練或部署多個版本的模型。用戶可以根據具體需求調整以下參數:
- 最大圖像標記數量(控制有效輸入分辨率)
- 圖像塊的數量
- 處理精度等級
這種靈活性使得LFM2-VL能夠在各種不同的部署環境中發揮最佳性能。
2.技術架構深度分析
LFM2-VL由三個主要組件組成:語言模型骨干、視覺編碼器和多模態投影器。這種模塊化設計不僅便于理解和維護,還為后續的優化和擴展提供了良好的基礎。
1) 液體神經網絡架構LFM2-VL繼承了Liquid AI獨有的液體神經網絡(Liquid Neural Networks)技術特點。與傳統的Transformer架構不同,液體網絡具有以下關鍵特性:
- 動態連接權重:網絡權重可以根據輸入動態調整,提供更強的適應性
- 時間連續性:采用連續時間遞歸神經網絡(CT-RNN),能夠處理任意時間間隔的序列
- 因果結構:內置的因果約束確保模型的可解釋性和穩定性
- 稀疏激活:智能的稀疏激活機制減少不必要的計算
2)LFM2-VL實現了創新的自適應計算機制:
- 早期退出策略:對于簡單任務,模型可以提前終止計算,節省資源
- 層級跳躍:根據輸入復雜度動態選擇處理層數
- 注意力剪枝:實時剪除不重要的注意力連接
- 動態批處理:根據輸入特性調整批處理大小
語言模型骨干基于LFM2系列構建,繼承了其高效的語言處理能力。對于LFM2-VL-1.6B版本,使用LFM2-1.2B作為基礎;對于LFM2-VL-450M版本,則使用LFM2-350M作為基礎。這種設計確保了語言理解能力的一致性和可靠性。
LFM2-VL使用SigLIP2 NaFlex編碼器將輸入圖像轉換為標記序列。實現了兩個變體:形狀優化版本(400M參數)專為LFM2-VL-1.6B設計,提供更細粒度的視覺能力。基礎版本(86M參數)專為LFM2-VL-450M設計,實現快速圖像處理。
3.SigLIP2 NaFlex編碼器
LFM2-VL優化SigLIP2,包括Sigmoid損失函數,NaFlex(Native Flexible)架構,視覺特征層次化底層特征,高效計算優化。多模態投影器實現了一個2層MLP連接器,配合像素反混洗來減少圖像標記數量。這種設計在保持質量的同時顯著提高了吞吐量。
投影器的主要功能包括將視覺特征映射到語言模型的特征空間,壓縮圖像表示以提高效率,保持跨模態信息的對齊,支持可變分辨率輸入處理。編碼器以原生分辨率處理圖像,最高支持512×512像素,有效處理較小圖像而無需上采樣,并支持非標準長寬比而不產生失真。
對于大于512×512的圖像,LFM2-VL采用智能分塊策略。例如輸入圖像尺寸:H×W,分塊大小:512×512,塊數:ceil(H/512) × ceil(W/512)。重疊區域:32像素邊緣重疊(可配置)
對于分辨率為 H×W 的圖像:
patch_size = 16 # 每個patch的像素大小
tokens_per_patch = 1
num_patches_h = ceil(H / patch_size)
num_patches_w = ceil(W / patch_size)
total_tokens = num_patches_h × num_patches_w × tokens_per_patch
256×384圖像:(256/16) × (384/16) = 16 × 24 = 384個patch → 96個標記(4:1壓縮)
384×680圖像:(384/16) × (680/16) = 24 × 43 = 1032個patch → 240個標記(約4.3:1壓縮)
1000×3000圖像:分塊處理后總計約4080個patch → 1,020個標記(4:1壓縮)4.訓練方法與數據策略
LFM2-VL的訓練采用了創新的漸進式方法,以及多階段訓練策略
階段一:基礎模型繼承(Model Inheritance)
權重初始化:直接繼承LFM2基礎模型的預訓練權重
架構適配:添加視覺編碼器和多模態投影器
凍結策略:初期凍結語言模型參數,只訓練新增組件
穩定性保證:確保已有能力不退化
階段二:聯合中期訓練(Joint Mid-training)LFM2-VL采用獨特的數據比例調節策略:
訓練進度 文本數據比例 圖像數據比例 訓練目標
0-20% 95% 5% 語言能力保持
20-40% 90% 10% 初步視覺融合
40-60% 80% 20% 模態對齊加強
60-80% 60% 40% 平衡訓練
80-100% 30% 70% 視覺能力強化
階段三:監督微調(Supervised Fine-tuning)
任務導向優化:針對特定的視覺語言任務進行優化
指令跟隨訓練:增強模型的指令理解和執行能力
人類反饋整合:結合人類反饋進行強化學習
安全性對齊:確保模型輸出的安全性和準確性
視覺訓練數據來自大規模開源數據集和內部合成視覺數據集的組合,選擇時平衡了各種任務的覆蓋范圍。總體而言,LFM2-VL在大約1000億個多模態標記上進行訓練。
5.基準測試結果
LFM2-VL在多個公開的視覺語言基準測試中表現出色,尤其是高分辨率圖像理解能力突出,多模態指令遵循性能優異,在其他任務中保持強勁性能。這些結果證明了LFM2-VL在保持高效的同時,并未犧牲模型的準確性和可靠性。
在推理速度方面,LFM2-VL展現出顯著優勢: LFM2-VL在GPU上實現了所有競爭對手中最快的性能。在典型工作負載(一張1024x1024圖像配合簡短提示如"詳細描述這張圖像",并生成100個輸出標記)的默認設置下,LFM2-VL的運行速度比最快的可比模型快2倍,同時保持競爭性的準確率。

除了推理速度,LFM2-VL在內存使用方面也表現優異,這對于資源受限的設備部署至關重要。LFM2-VL在基于Apache 2.0的開放許可下發布。許可證允許您自由地將LFM2-VL模型用于學術和研究目的。如果您是較小的公司(收入低于1000萬美元),也可以商業使用模型。
LFM2-VL的發布標志著視覺語言模型發展的一個重要里程碑。通過創新的架構設計、高效的訓練策略和靈活的部署方案,LFM2-VL成功地在性能和效率之間找到了最佳平衡點。隨著邊緣計算、物聯網和移動設備的不斷發展,像LFM2-VL這樣的高效視覺語言模型將發揮越來越重要的作用,推動整個視覺語言AI領域向更加實用、高效和普及的方向發展。
本文轉載自??魯班模錘??,作者:龐德公

















