摘要近年來,大型語言模型(LargeLanguageModels,LLMs)的快速發展拓寬了其應用范圍,但同時也暴露出在平衡通用知識、代碼生成與數學推理能力方面存在挑戰。為解決這一問題,本文提出一種適用于監督微調(SupervisedFineTuning,SFT)的協作式語義專家(CollaborativeandSemanticExperts,CoE)方法,該方法采用兩階段訓練策略。第一階段為專家訓練階段,在特定數據集上對前饋網絡(FeedForwardNetwork,FFN)進行微調,培養針對特...
摘要近年來,隨著大型語言模型(LargeLanguageModel,LLM)能力在深度與廣度上的快速發展,各類相應的評估基準測試(Benchmark)數量日益增多。作為模型性能的量化評估工具,基準測試不僅是衡量模型能力的核心手段,也是指引模型發展方向、推動技術創新的關鍵要素。本文首次對大型語言模型基準測試的現狀與發展進行系統性綜述,將283個具有代表性的基準測試劃分為三大類:通用能力基準測試(GeneralCapabilitiesBenchmarks)、特...
摘要:大型語言模型(LargeLanguageModels,LLMs)憑借在各類應用中前所未有的性能,在學術界和工業界的關注度日益提升。隨著LLMs在研究和日常使用中持續發揮重要作用,其評估工作變得愈發關鍵——不僅需要在任務層面開展評估,還需從社會層面評估以更好地了解其潛在風險。過去幾年,研究者們從多個角度對LLMs展開了深入考察,并付出了大量努力。本文對這些LLMs評估方法進行了全面綜述,重點圍繞三個核心維度:評估什么(whattoe...
摘要獎勵反饋學習(ReFL)最近在各種生成任務中展現出了巨大的潛力,能夠使模型輸出與人類偏好保持一致。在這項工作中,我們首次將ReFL框架引入盲臉修復任務,稱之為DiffusionReward。DiffusionReward有效地克服了基于擴散的方法的局限性,這些方法通常無法生成逼真的面部細節,并且身份一致性較差。我們框架的核心是面部獎勵模型(FRM),它使用精心注釋的數據進行訓練。FRM提供反饋信號,在指導修復網絡的優化過程中起著關鍵...
2025-05-30 06:37:39 3117瀏覽 0點贊 0回復 0收藏
摘要交錯多模態理解與生成能力——使模型能夠以任意順序生成和解釋圖像與文本——已成為多模態學習的關鍵領域。盡管已有顯著進展,但對這一能力的評估仍顯不足。現有基準在數據規模、范圍和評估深度上存在局限,而當前評估指標往往成本高昂或帶有偏見,在實際應用中缺乏可靠性。為應對這些挑戰,我們推出MMIE,這是一個大規模知識密集型基準,用于評估大型視覺語言模型(LVLMs)的交錯多模態理解與生成能力。MMIE包含20,000個精...
2025-05-29 06:32:07 2553瀏覽 0點贊 0回復 0收藏
摘要檢索增強生成(RAG)在增強語言模型知識和減少AI生成幻覺方面表現出強大能力,推動了其廣泛應用。然而,需要多輪檢索的復雜任務仍然具有挑戰性,早期嘗試往往過于樂觀,缺乏良好的自我懷疑意識。當前的多輪RAG系統可能在已經檢索到足夠信息時繼續搜索,或者在沒有足夠信息或知識時提供錯誤答案。現有解決方案要么需要大量昂貴的人工標注過程監督數據,要么導致性能不佳。本文旨在通過引入新框架SIMRAG來解決這些限制,明確...
2025-05-27 06:44:36 1954瀏覽 0點贊 0回復 0收藏
摘要我們提出了一種原則性且高效的一步生成模型框架。我們引入了平均速度的概念來表征流場,這與流匹配方法中建模的瞬時速度形成對比。我們推導出了平均速度與瞬時速度之間的明確關系,并用其指導神經網絡訓練。我們的方法,稱為均值流模型,是自包含的,無需預訓練、蒸餾或課程學習。均值流模型展示了強大的實證性能:在ImageNet256×256上從頭訓練,僅用一次函數評估(1NFE)即可達到3.43的FréchetInceptionDistance(FID)...
2025-05-23 06:27:30 2423瀏覽 0點贊 0回復 0收藏
圖片圖1.我們提出了MonetGPT,這是一種感知圖像操作的多模態大語言模型(MLLM),可自動為圖像修圖提供建議。給定一張照片(左圖),MonetGPT會對其進行分析,識別出一系列問題和可能的修復調整。然后,解決方案步驟會根據給定的操作庫,轉化為一組程序操作以及相應的參數設置,這一過程分為三個階段。(我們訓練MLLM所使用的視覺謎題此處未展示。)摘要修圖是原始照片后期處理中的一項基本任務。由文本或筆觸引導的生成式編輯...
2025-05-22 09:34:21 3310瀏覽 0點贊 0回復 0收藏
摘要擴散Transformer(DiT)作為一種前景廣闊的視覺生成擴散模型,展現出了令人矚目的性能,但同時也帶來了巨大的計算開銷。有趣的是,對預訓練DiT模型的分析表明,全局自注意力往往存在冗余,主要捕捉局部模式,這凸顯了尋找更高效替代方案的潛力。在本文中,我們重新審視卷積,將其作為構建高效且富有表現力的擴散模型的替代構建塊。然而,直接用卷積替換自注意力通常會導致性能下降。我們的研究發現,這種性能差距歸因于卷積...
2025-05-21 08:33:54 3372瀏覽 0點贊 0回復 0收藏
摘要組合式零樣本學習(CZSL)旨在通過利用已知組合來識別未見的狀態對象組合。現有研究基本依賴CLIP的跨模態對齊能力,但往往忽略了其在捕捉細粒度局部特征方面的局限性,這些局限性源于其架構和訓練范式。為解決這一問題,我們提出了一種多階段跨模態交互(MSCI)模型,該模型有效探索和利用CLIP視覺編碼器的中間層信息。具體而言,我們設計了兩個自適應聚合器,分別從低層視覺特征中提取局部信息和從高層視覺特征中整合全局...
2025-05-21 06:45:57 2696瀏覽 0點贊 0回復 0收藏
摘要2022年,隨著ChatGPT的發布,大規模語言模型受到了廣泛關注。ChatGPT不僅在參數量和預訓練語料庫規模上遠超前代模型,還通過大量高質量的人工標注數據進行微調,實現了革命性的性能突破。此類進展使得企業和研究機構認識到,構建更智能、更強大的模型依賴于豐富且高質量的數據集。因此,數據集的建設與優化成為人工智能領域的關鍵方向。本文對訓練大規模語言模型所需的預訓練數據和微調數據的現狀進行了總結,涵蓋了數據規...
2025-05-20 06:34:03 1.0w瀏覽 0點贊 0回復 0收藏
摘要盡管下一令牌預測被視為通往通用人工智能的一條有前途的道路,但它在多模態任務中一直難以取得優異成績,目前多模態任務仍由擴散模型(如StableDiffusion)和組合方法(如CLIP與大語言模型相結合)主導。在本文中,我們介紹Emu3,這是一套全新的最先進的多模態模型,僅通過下一令牌預測進行訓練。通過將圖像、文本和視頻標記化到離散空間中,我們在多模態序列的混合數據上從頭開始訓練一個單一的Transformer。Emu3在生成和...
2025-05-19 09:19:09 2103瀏覽 0點贊 0回復 0收藏
摘要VILAU是一個統一基礎模型,融合了視頻、圖像和語言的理解與生成能力。傳統的視覺語言模型(VLMs)在處理視覺內容的理解和生成任務時,使用獨立的模塊,這可能導致模塊間的不協調和模型復雜度的增加。相比之下,VILAU采用單一的自回歸下一個標記預測框架來處理這兩項任務,避免了使用如擴散模型等額外組件的需求。這種方法不僅簡化了模型結構,還在視覺語言理解和生成任務中取得了接近當前最優水平的性能。VILAU的成功主要歸...
2025-05-19 09:12:20 2777瀏覽 0點贊 0回復 0收藏
摘要許多現實世界中的用戶查詢(例如,“如何制作蛋炒飯?”)都能從能夠同時生成文本步驟和配套圖像的系統中受益,就像烹飪食譜一樣。旨在生成交錯文本和圖像的模型在確保這些模態內部和之間的一致性方面面臨挑戰。為了解決這些挑戰,我們提出了ISG,這是一個用于交錯文本圖像生成的綜合評估框架。ISG利用場景圖結構來捕捉文本和圖像塊之間的關系,在四個粒度級別上評估生成的結果:整體、結構、塊級別和圖像特定級別。這種多...
2025-05-19 09:06:08 2035瀏覽 0點贊 0回復 0收藏
大型語言模型(LLM)的性能在很大程度上取決于其預訓練數據集的質量和規模。然而,像Llama3和Mixtral這樣的前沿開源大語言模型的預訓練數據集并未公開,人們對其創建方式也知之甚少。最近,我們發布了FineWeb,這是一個全新的大規模(包含15萬億詞元,占用44TB磁盤空間)大語言模型預訓練數據集。FineWeb源自96個CommonCrawl快照,與其他開源預訓練數據集相比,使用它訓練出的大語言模型性能更優。為了讓機器學習領域更加透明,...
2025-05-15 06:34:41 1.4w瀏覽 0點贊 0回復 0收藏
?摘要:問題求解一直是人類在眾多領域取得進步的根本驅動力。隨著人工智能的發展,大語言模型(LLMs)已成為能夠解決跨多個領域復雜問題的強大工具。與傳統計算系統不同,大語言模型將原始計算能力與近似人類推理能力相結合,使其能夠生成解決方案、進行推理,甚至利用外部計算工具。然而,將大語言模型應用于實際問題求解面臨重大挑戰,包括多步推理、領域知識整合和結果驗證。本綜述探討了大語言模型在復雜問題求解中的能力...
2025-05-14 10:05:43 2491瀏覽 0點贊 0回復 0收藏
摘要檢索增強生成(RAG)通過將模型響應與查詢相關的外部知識相結合,在提高事實準確性方面展現出巨大潛力。然而,大多數現有的RAG方法僅限于純文本語料庫。盡管最近的研究努力將RAG擴展到圖像和視頻等其他模態,但它們通常僅在單一模態特定的語料庫上運行。相比之下,現實世界中的查詢對知識類型的需求差異很大,單一類型的知識源無法滿足這些需求。為了解決這一問題,我們引入了通用檢索增強生成(UniversalRAG),這是一種新...
2025-05-14 10:00:07 4264瀏覽 0點贊 0回復 0收藏
摘要目前構建多模態大語言模型(MLLMs)的高效方法,主要是通過簡單的視覺映射網絡,如線性投影層、多層感知器(MLP)或BLIP2中的QFormer,將視覺信息融入大語言模型(LLMs)。這類網絡僅對圖像特征進行一次投影,并未考慮圖像與人類輸入之間的交互。因此,獲取的視覺信息可能與人類意圖脫節,無法滿足大語言模型生成符合意圖的回復,這種信息可稱為靜態視覺信息。為緩解該問題,本文引入LMEye,這是一種類似人眼的可插拔交互式...
2025-05-12 09:19:28 2598瀏覽 0點贊 0回復 0收藏
摘要大型語言模型(LLMs)的快速發展催化了視覺語言模型(VLMs)的發展。整體VLMs避免了模態特定的編碼器,提供了一種有希望的替代方案,但面臨著性能較差的挑戰。大多數現有的整體VLMs需要調整預訓練的LLMs以獲得視覺能力,這可能會降低它們處理語言的能力。為了解決這一困境,本文提出了一種新的高性能整體VLM,名為HoVLE。我們注意到,當圖像嵌入與文本嵌入對齊時,LLMs已被證明能夠解釋圖像。當前整體VLMs的挑戰實際上在于...
2025-05-12 09:12:44 2050瀏覽 0點贊 0回復 0收藏
摘要基于指令的圖像編輯能夠通過自然語言提示實現強大的圖像修改,但當前的方法面臨著精度和效率之間的權衡。微調方法需要大量的計算資源和大規模數據集,而免訓練技術在指令理解和編輯質量方面存在困難。我們利用大規模擴散變換器(DiT)增強的生成能力和固有的上下文感知來解決這一困境。我們的解決方案有三個貢獻:(1)一種基于上下文提示的零樣本指令遵從的上下文編輯框架,避免了結構變化;(2)一種LoRAMoE混合調優策略...
2025-05-12 09:06:37 3194瀏覽 0點贊 0回復 0收藏