精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法 原創

發布于 2025-9-9 09:33
瀏覽
0收藏

多模態大模型在推理上雖然效果好,但會強制執行 “逐步思考” 流程,導致輸出 token 量激增,冗余思考過程不會提升簡單任務的準確性,反而可能因 “過度推理” 引入噪聲。

現有模型無法根據任務復雜度自主選擇 “思考模式”(需推理)或 “非思考模式”(直接回答),需要手動觸發是否思考的條件(如qwen3的開關控制)或者如Keye-VL 通過人工標注 “任務復雜度標簽” 觸發思考模式,但人工標注成本高、覆蓋場景有限,且推理時需額外輸出 “復雜度分析” token,進一步增加計算開銷。

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

因此,如何為多模態 MLLMs 提供自動思考能力,下面來看看R-4B的思路。

方法-R-4B雙階段訓練設計

為自動思考,R-4B的核心是設計了一個兩階段訓練方式:雙模態退火(Bi-mode Annealing) 和 雙模態策略優化(Bi-mode Policy Optimization, BPO)。

階段1、雙模態退火設計

這一階段的目標是讓模型學會自動思考能力(“思考”和“不思考”)。

提出啟發式驅動的自動化數據構建策略,利用現有強性能 MLLM(Qwen2.5-32B-VL)作為 “統一標注器”,自動將通用領域數據劃分為兩類,流程如下圖:

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

兩種啟發式標注規則:

  • 難度導向啟發式:針對主觀類查詢
    利用現有多模態大語言模型進行提示工程,基于其內在難度評估是否需要推理過程。被判定為復雜的查詢被標注為需要推理的樣本。
    邏輯如下:

a.對每個主觀查詢,構造提示詞,讓 Qwen2.5-32B-VL 評估其 “是否需要復雜推理過程”;

b.提示詞核心邏輯:“判斷以下問題是否需要分步驟分析、邏輯推導或多視角權衡才能回答,若需要則標記為‘推理密集型’,否則標記為‘非推理型’”;

c.例如,“描述貓的外形” 被標記為非推理型(直接調用常識),“分析貓的外形如何適應夜間捕獵” 被標記為推理型(需結合生物學知識分步驟推導)。

  • 性能導向啟發式:用于客觀查詢
    對于答案可驗證的查詢(例如數學題或選擇題),引入一種基于模型的離線困難樣本挖掘策略,系統地識別出難樣本。
    邏輯如下:

a.對每個客觀查詢,讓 Qwen2.5-32B-VL 生成 8 次獨立回答(N=8);

b.若 8 次回答全部錯誤(即模型在該問題上表現極差,屬于 “硬樣本”),標記為 “推理密集型”(需復雜推理才能正確回答,如 “基于圖表數據計算近 5 年增長率”);

c.若 8 次回答至少 1 次正確(即模型可直接給出答案,屬于 “易樣本”),標記為 “非推理型”(如 “識別圖中的數字”“回答‘地球自轉周期是多少’”)。

數據分布情況:

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

階段2、雙模態策略優化

經過“雙模態退火階段”,這時候有了 R-4B-Base 模型,然而存在的 “思考萎縮” 問題(模型雖同時具備思考 / 非思考能力,但傾向于優先選擇非思考模式)。

引入雙模態策略優化(Bi-mode Policy Optimization, BPO),這是一種為自動思考量身定制的強化學習算法。

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

BPO的核心目標是通過 RL 優化模型的 “模式選擇策略”,讓模型在面對不同復雜度的任務時,能自主選擇 “性價比最高” 的響應模式。

核心設計思想:“強制雙模態Rollouts”

傳統RL方法在訓練自動思考模型時,常因“單模態采樣”導致模型偏向某一種模式(如始終選擇非思考模式以降低損失),最終引發“思考萎縮”。BPO通過Bi-mode Rollouts強制打破這種偏好,邏輯如下:

  • 對每個輸入查詢(如“求解數學方程”“識別圖片文字”),模型需同時生成兩組響應

a.思考模式組:通過特殊token ??<thinking token>?? 觸發,輸出包含逐步推理過程的響應;

b.非思考模式組:通過特殊token ??<non-thinking token>?? 觸發,輸出僅含答案的響應。

兩組響應的數量嚴格相等(如每組各生成g個樣本,??|Group_thinking|=|Group_non-thinking|=g??),確保模型在訓練中必須“公平探索”兩種模式,無法因數據分布或損失函數偏向而忽略某一模式。

方法架構、訓練方法

模型架構:VIT+MLP+LLM

訓練方法:

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

訓練參數

  • 階段 1:MLP 預熱首先凍結 ViT 和 LLM 的參數,同時初始化一個隨機初始化的兩層MLP 投影模塊。該投影模塊使用圖像-標題對進行訓練,以建立初始的跨模態對齊。此階段能夠確保后續階段中梯度傳播的穩定性,并緩解由表示對齊不佳引起的不穩定性。
  • 階段 2:視覺-語言對齊在此階段,ViT 主干網絡被解凍,而 LLM 保持凍結狀態,使用交錯的多模態數據進行訓練。這些批量中包含的多樣化視覺內容系統性地提升了視覺編碼器處理不同視覺領域的能力。
  • 階段 3:聯合多模態預訓練此階段實現了對整個架構的全參數最優化。將訓練方案擴展至包含 1450 億個跨越多種模態和任務的 token,涵蓋 OCR 解析、視覺定位、數學推理以及結構化數據(表格/圖表)。

此外,實施了一種非思考損失掩碼策略。在此策略中,在生成響應前添加 < think> < /think> 標簽,并對其對應的損失貢獻進行掩碼處理。該策略在聯合多模態預訓練過程中 有效保留了 Qwen3的推理能力。

實驗

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

如何讓多模態大模型學會“自動思考”-R-4B訓練框架核心設計與訓練方法-AI.x社區

在不同基準上,非思考模式、自動思考模式和思考模式的平均每次查詢輸出 token 數量對比。自動思考模式在效率與性能之間取得了平衡

參考文獻:R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning,https://arxiv.org/pdf/2508.21113Repo:https://link.zhihu.com/?target=https%3A//github.com/yannqi/R-4B


本文轉載自??大模型自然語言處理??   作者:llmnlp


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-9-9 09:42:06修改
收藏
回復
舉報
回復
相關推薦
日本福利午夜视频在线| 女女互磨互喷水高潮les呻吟| 精品孕妇一区二区三区| 国产丶欧美丶日本不卡视频| 久久久久国产精品免费网站| theav精尽人亡av| 日韩欧美精品一区二区综合视频| 国产精品蜜臀在线观看| 91黄色精品| 超碰超碰超碰超碰| 99视频精品全国免费| 欧美精品一区二区三区很污很色的| 激情五月宗合网| 黄网站在线播放| 91亚洲精品久久久蜜桃| 国产精品爽黄69天堂a| 青娱乐免费在线视频| 神马电影久久| 精品国产在天天线2019| 少妇高清精品毛片在线视频| 日本在线视频中文有码| 国产无人区一区二区三区| 99热国产免费| 一级α片免费看刺激高潮视频| 亚洲国产精品第一区二区三区| 亚洲视频综合网| 国产一级免费片| 国产一区二区三区精品在线观看| 日韩欧美成人区| 99er在线视频| 国产日产一区二区三区| 欧美国产一区在线| 久久精品国产一区二区三区日韩| 国产精品久久欧美久久一区| 可以看av的网站久久看| 欧美激情精品在线| 日韩女优一区二区| 久久看人人摘| 中文字幕亚洲无线码在线一区| 亚洲精品中文字幕在线播放| 精品中文字幕一区二区三区四区| 欧美在线色视频| 亚洲爆乳无码专区| jk漫画禁漫成人入口| 精品国产91久久久| 亚洲 欧美 综合 另类 中字| 久久亚洲天堂| 日韩一区中文字幕| 亚洲蜜桃在线| 99re热久久这里只有精品34| 国产拍欧美日韩视频二区| 久久精品久久精品国产大片| 日本xxxx人| 成人动漫一区二区三区| 成人做爰66片免费看网站| 国产av精国产传媒| 国产精品性做久久久久久| 91精品久久久久久久久久久久久| 中文字幕观看视频| 麻豆精品国产传媒mv男同 | 国产精品迅雷| 日本乱人伦aⅴ精品| 黄色av免费在线播放| 日韩三区免费| 91.com视频| 真实乱偷全部视频| 国内露脸中年夫妇交换精品| 亚洲精品成人久久| 永久免费成人代码| 91视频综合| 欧美大片在线看| 亚洲欧美在线视频免费| 久久国产精品久久w女人spa| 国产不卡一区二区在线播放| 一级黄色录像大片| 国产精品一二三区在线| 国产麻豆日韩| 嫩草研究院在线观看| 中文字幕 久热精品 视频在线| 亚洲一区二区三区乱码| av毛片在线| 精品久久久久久中文字幕一区奶水 | 久久视频精品| 欧美日韩国产二区| 国产www在线| 久久爱www久久做| 国产aⅴ精品一区二区三区黄| 天堂成人在线观看| 国产精品视频线看| 国产爆乳无码一区二区麻豆| 自拍在线观看| 欧美一区二区二区| av在线网站观看| 久久久久久久久久久妇女| 久久男人资源视频| 中文字幕精品一区二| 国产成人精品亚洲日本在线桃色 | 色喇叭免费久久综合网| 欧美黄色片在线观看| 99久久久无码国产精品免费蜜柚 | 92国产精品久久久久首页| 人妻少妇精品无码专区久久| 国产精品入口麻豆九色| 日韩人妻无码精品久久久不卡| 欧美日韩五码| 欧美成人国产一区二区| 一级特黄曰皮片视频| 亚洲先锋成人| 国产精品久久久久久久久久小说| 国产模特av私拍大尺度| 国产亚洲欧美在线| 全黄性性激高免费视频| 福利视频一区| 亚洲精品一区二区在线| 黄色一级片在线| 美腿丝袜在线亚洲一区| 免费中文日韩| 超碰在线资源| 日韩一区二区电影在线| 欧美自拍偷拍网| 久久精品电影| 精品一区二区三区日本| 青春草免费在线视频| 欧美日韩久久一区| 日本精品在线观看视频| 国产精品一卡| 精品国产一二| 爱情岛论坛亚洲品质自拍视频网站| 欧美老女人在线| 美女100%露胸无遮挡| 久久精品91| 欧美大香线蕉线伊人久久| 不卡视频观看| 亚洲国产精品字幕| 中文在线观看免费网站| 国产69精品久久久久777| 手机成人av在线| 国产精品天堂蜜av在线播放| 亚洲夜晚福利在线观看| 中文字幕在线欧美| 91视频一区二区三区| 成人一对一视频| 人妖一区二区三区| 91po在线观看91精品国产性色| 日本免费网站在线观看| 亚洲大片在线观看| 国产大学生视频| 一区二区精品| 免费久久一级欧美特大黄| 中文av在线全新| 亚洲欧美另类国产| 国产精品自拍第一页| 欧美极品另类videosde| 色婷婷综合网站| 欧美黄色大片在线观看| 成人在线视频网站| av网站大全在线| 精品国产一区二区精华| 中文字幕在线字幕中文| 久久久www成人免费无遮挡大片| 国产成人精品无码播放| 日韩欧美一区二区三区在线视频 | 欧美激情a在线| 蜜臀av午夜精品| 五月天久久比比资源色| v8888av| 日本人妖一区二区| 在线丝袜欧美日韩制服| 日韩成人久久| 欧美中文字幕在线| fc2在线中文字幕| 欧美一区午夜精品| 国产一级淫片a| 久久精品水蜜桃av综合天堂| 中文字幕在线综合| 亚洲无线视频| 日本在线观看不卡| 精品一区二区三区中文字幕 | 999久久欧美人妻一区二区| 成人线上播放| 国产精品狠色婷| av免费在线网站| 亚洲毛片在线看| 99久久久国产精品无码网爆| 亚洲成人久久影院| 天天舔天天操天天干| 国产精品资源站在线| 97成人在线观看视频| 午夜av一区| 欧美二区三区在线| 日韩在线观看一区二区三区| 97国产精品视频| 日本免费在线视频| 亚洲激情 国产| 91成品人影院| 欧美性开放视频| 亚洲色婷婷一区二区三区| 久久色在线观看| 女同性αv亚洲女同志| 视频一区欧美日韩| 久久精品xxx| 欧美激情电影| 欧美午夜精品理论片a级大开眼界| 国语精品视频| 国产精品精品视频一区二区三区| 国产第一页在线视频| 中文字幕在线视频日韩| 午夜在线视频观看| 日韩欧美色电影| 亚洲自拍偷拍另类| 色综合网色综合| 国产真人真事毛片| 亚洲男人电影天堂| 影音先锋男人在线| 久久婷婷综合激情| 蜜臀av粉嫩av懂色av| 狠狠色狠狠色综合| 丝袜制服一区二区三区| 99精品热6080yy久久| 青青青在线观看视频| 久久久久国产| 亚洲一区二区自拍偷拍| 国产成人精品一区二区免费看京| 国产精品香蕉视屏| 视频国产精品| 国产在线拍揄自揄视频不卡99| 伊人久久国产| 欧美一区三区三区高中清蜜桃| 国内老司机av在线| 欧美成人精品xxx| 国产剧情在线| x99av成人免费| 无遮挡的视频在线观看| 在线观看国产精品淫| 青青草av免费在线观看| 亚洲国产精品久久久久秋霞不卡| 亚洲AV无码精品色毛片浪潮| 欧美一区二区三区日韩视频| 91美女精品网站| 在线电影欧美成精品| 国产一区二区三区中文字幕| 欧美色中文字幕| 伊人免费在线观看高清版| 欧美性大战久久久久久久蜜臀| 99精品人妻国产毛片| 欧美性生活大片免费观看网址| 天堂中文在线网| 一本大道综合伊人精品热热| 亚洲欧美日韩激情| 91成人在线观看喷潮| 亚洲男人天堂网址| 欧美日韩一区三区四区| 91午夜交换视频| 日韩一二在线观看| 亚洲欧美强伦一区二区| 欧美精品一区二区三区视频| 欧美一区二区三区激情| 日韩黄在线观看| 欧美成人片在线| 中文字幕亚洲自拍| caoporn免费在线| 欧美精品久久久久久久久久| 高清在线视频不卡| 日韩美女写真福利在线观看| 国产综合色在线观看| 成人黄色av免费在线观看| 久久国际精品| 精品国产一区二区三区四区vr | 亚洲天堂av在线免费| 无遮挡动作视频在线观看免费入口| 不卡av电影在线观看| wwwwxxxx在线观看| 欧美最猛性xxxxx免费| 外国电影一区二区| 91在线网站视频| 免费成人蒂法| 亚洲国产一区二区精品视频 | 五月激情六月综合| 色老头在线视频| 日韩手机在线导航| 外国精品视频在线观看| 日韩精品电影网| 欧美日韩xx| 97色在线视频观看| 精品久久久网| 含羞草久久爱69一区| 色喇叭免费久久综合网| www.日本少妇| 麻豆成人91精品二区三区| 无码人妻一区二区三区一| 国产亚洲污的网站| 久久一区二区三| 欧美色视频一区| 天堂国产一区二区三区| 日韩亚洲第一页| 成人免费短视频| 91九色蝌蚪成人| 欧美三级美国一级| 国产一级做a爰片久久毛片男| 老司机精品久久| 亚洲精品激情视频| 亚洲欧洲性图库| 台湾佬中文在线| 日韩欧美激情在线| av播放在线| 欧美一级大片视频| 午夜视频在线观看精品中文| 五月婷婷综合色| 亚洲美女少妇无套啪啪呻吟| 亚洲制服在线观看| 欧美国产日产图区| 亚洲日本视频在线观看| 精品蜜桃在线看| 免费大片黄在线观看视频网站| 5278欧美一区二区三区| 91精品国产乱码久久久竹菊| 亚洲一区免费看| 日本视频一区二区三区| 捆绑凌虐一区二区三区| 玉足女爽爽91| 91成人一区二区三区| 中文字幕精品久久久久| 成人勉费视频| 久久精品中文字幕一区二区三区| 亚洲综合色站| 91女神在线观看| 国产精品美女久久久久久久久久久 | xxxxx日韩| 日韩av电影手机在线| 欧美黑白配在线| 日韩a∨精品日韩在线观看| 国产91在线观看| 九九视频免费看| 精品精品国产高清a毛片牛牛 | 日韩欧美高清| 特级丰满少妇一级| 国产欧美一区视频| 99re热视频| 中文字幕亚洲欧美日韩2019| 成人看片在线观看| 色综合久久88色综合天天提莫| 久久五月激情| 一级在线观看视频| 欧美日本一道本| 色老头视频在线观看| 国产女人18毛片水18精品| 欧美激情理论| 男人添女人荫蒂国产| 亚洲综合激情网| 色窝窝无码一区二区三区| 国内精品模特av私拍在线观看| 精品久久ai| 国产又大又硬又粗| 国产欧美精品在线观看| 91精品在线视频观看| 久久亚洲国产精品| 亚洲一区二区三区四区电影| 免费看欧美黑人毛片| 91蜜桃视频在线| 欧美国产一级片| 久久久91精品国产一区不卡| 日本高清久久| 激情伊人五月天| 国产欧美一区二区精品婷婷| 一级黄色片在线观看| 欧美高清视频免费观看| 欧美黄色影院| 亚洲 欧美 日韩系列| 亚洲欧美激情一区二区| 日本激情一区二区| 国产成人精品久久二区二区91 | 久久精品精品电影网| 日本一区精品视频| 青青青免费在线| 欧美激情一区二区三区蜜桃视频| 国产精品一区二区黑人巨大| 欧美激情a∨在线视频播放| 蜜桃精品wwwmitaows| 最新天堂中文在线| 亚洲午夜在线视频| 国模吧精品人体gogo| 亚洲一区二区三区香蕉| 国产一区成人| 欧美日韩午夜视频| 日韩国产在线看| 91视频亚洲| 黄色免费观看视频网站| 亚洲欧美综合色| 免费黄色在线视频网站| 91中文字幕在线| 久久精品一区二区国产| 亚洲成人生活片| 亚洲视频一区二区| 国产伦精品一区二区三区免费优势| www.欧美日本| 亚洲国产视频a| 色综合久久久久综合一本到桃花网| 国产精品免费一区二区三区观看| 天堂一区二区在线免费观看| 国产一二三四区|