GRPO強(qiáng)化多模態(tài)大模型目標(biāo)檢測(cè)能力獎(jiǎng)勵(lì)函數(shù)代碼設(shè)計(jì) 原創(chuàng)
多模態(tài)大模型的目標(biāo)檢測(cè)任務(wù)可以通過GRPO訓(xùn)練增強(qiáng),因此今天本文介紹的代碼適用于需要預(yù)測(cè)邊界框的多模態(tài)任務(wù),代碼將圍繞"邊界框預(yù)測(cè)任務(wù)"構(gòu)建一套獎(jiǎng)勵(lì)機(jī)制,用于評(píng)估模型輸出的質(zhì)量,獎(jiǎng)勵(lì)以下維度:
- 基于 IoU 計(jì)算獎(jiǎng)勵(lì)
- 基于置信度計(jì)算獎(jiǎng)勵(lì)
- 答案格式獎(jiǎng)勵(lì)
工具函數(shù)(邊界框處理函數(shù))
- ?
?extract_bbox(response)???:從模型輸出文本中提取邊界框信息。模型輸出需用??</think>???和??<|FunctionCallEnd|>???包裹邊界框數(shù)據(jù)(如??[{"Position": [x1,y1,x2,y2], "Confidence": 0.9}, ...]???)。處理格式錯(cuò)誤(如單引號(hào)轉(zhuǎn)雙引號(hào)、補(bǔ)全截?cái)嗟腏SON結(jié)構(gòu)),返回解析后的邊界框列表或??None??(解析失敗)。
- ?
?calculate_iou(bbox1, bbox2)???:計(jì)算兩個(gè)邊界框的交并比(IoU),衡量重疊程度。輸入:兩個(gè)邊界框的坐標(biāo)??(x1,y1,x2,y2)??(左上角和右下角)。輸出:IoU值(0~1,值越高重疊越好)。
- ?
?sort_and_calculate_iou(list1, list2, iou_threshold=0.5)??:將預(yù)測(cè)邊界框與真實(shí)邊界框匹配,計(jì)算IoU結(jié)果。
步驟:
輸出:列表??[(iou1, confidence1), (iou2, confidence2), ...]??,記錄每個(gè)預(yù)測(cè)框的匹配質(zhì)量。
- 預(yù)測(cè)框按置信度降序排序。
- 對(duì)每個(gè)預(yù)測(cè)框,匹配真實(shí)框中未匹配過的、IoU最大的框(超過閾值視為匹配)。
- ?
?remove_duplicates(bbox_list)??:移除重復(fù)的邊界框(通過坐標(biāo)去重),確保每個(gè)邊界框唯一。
獎(jiǎng)勵(lì)計(jì)算邏輯
- ?
?compute_reward_iou??:IoU(衡量位置準(zhǔn)確性),匹配成功(IoU>0)時(shí),置信度越高獎(jiǎng)勵(lì)越高;匹配失敗(IoU=0)時(shí),高置信度會(huì)被懲罰(獎(jiǎng)勵(lì)降低)。
- ?
?compute_reward_confidence??:衡量模型對(duì)預(yù)測(cè)的確定性。
獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
- ?
?accuracy_reward_iou???:基于邊界框IoU的準(zhǔn)確性獎(jiǎng)勵(lì)。輸入:模型預(yù)測(cè)(??completions???)和標(biāo)準(zhǔn)答案(??solution???)。1. 提取預(yù)測(cè)和真實(shí)的邊界框,去重后計(jì)算IoU匹配結(jié)果。2. 用??compute_reward_iou??計(jì)算獎(jiǎng)勵(lì)(0~1,值越高預(yù)測(cè)越準(zhǔn))。
- ?
?accuracy_reward_confidence???:基于預(yù)測(cè)置信度的準(zhǔn)確性獎(jiǎng)勵(lì)。邏輯與??accuracy_reward_iou??類似,但獎(jiǎng)勵(lì)更側(cè)重預(yù)測(cè)框的置信度合理性(例如:匹配成功時(shí)高置信度加分,匹配失敗時(shí)高置信度扣分)。
- ?
?format_reward??:與DeepSeek-R1那樣對(duì)模型輸出格式進(jìn)行獎(jiǎng)勵(lì)。這里不多介紹。

本文轉(zhuǎn)載自??大模型自然語(yǔ)言處理?? 作者:余俊暉
?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-7-14 10:46:14修改
贊
收藏
回復(fù)
分享
微博
QQ
微信
舉報(bào)
回復(fù)
相關(guān)推薦

















