精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”,讓語言模型不只是生成代碼! 原創(chuàng) 精華

發(fā)布于 2025-6-4 09:02
瀏覽
0收藏

在人工智能的世界里,語言模型的智能程度越來越高,但如何讓它們真正理解并解釋自己的決策過程,依然是一個難題。今天,我們來聊聊一個非常有趣的話題:如何通過一種名為 GRPO(Guided Reward Policy Optimization,引導(dǎo)式獎勵策略優(yōu)化)的技術(shù),將一個普通的 7B 參數(shù)語言模型(Qwen2.5-Coder-7B-Instruct)變成一個能夠進行結(jié)構(gòu)化推理的 Text-to-SQL 模型。

為什么 GRPO 是 Text-to-SQL 的完美選擇?

如果你對 AI 領(lǐng)域有所關(guān)注,可能已經(jīng)聽說過 GRPO。這是 DeepSeek 提出的一種強化學(xué)習(xí)技術(shù),主要用于訓(xùn)練推理模型。而 Text-to-SQL 任務(wù),簡直就是為 GRPO 量身定制的!

推理的重要性:SQL 不僅僅是語法

SQL 是一種結(jié)構(gòu)化的邏輯語言,而不是簡單的語法組合。通過 GRPO,模型被鼓勵解釋為什么選擇某些表、連接或過濾條件,從而讓模型像人類分析師一樣“思考”,更貼近用戶的真實意圖。比如,當(dāng)你問“上個月活躍用戶是誰”時,模型不能簡單地返回 ??SELECT * FROM users??,而是要解釋清楚為什么這么寫。

捕捉“沉默的錯誤”

沒有推理的模型可能會犯一些很微妙的錯誤。比如,問題明明是“上個月活躍用戶”,結(jié)果模型返回了一個看似正確的 SQL,但其實并沒有考慮到時間范圍。GRPO 的雙重獎勵系統(tǒng)(推理 + SQL)可以早期發(fā)現(xiàn)這些不匹配的問題。

小模型也需要“扶手”

對于像 7B 這樣的小模型來說,復(fù)雜的邏輯是一個巨大的挑戰(zhàn)。GRPO 就像是給模型裝上了“扶手”,通過獎勵連貫的逐步推理,懲罰不合理的輸出,即使 SQL 看起來沒問題,也能確保模型的邏輯是合理的。

透明性建立信任

如果模型能寫出“我使用了‘購買’表,因為問題問的是銷售情況”,那么調(diào)試和驗證就會變得容易得多。GRPO 把這種清晰性直接融入了訓(xùn)練過程。

如何設(shè)計獎勵函數(shù)?

Text-to-SQL 推理的挑戰(zhàn)在于如何創(chuàng)建有效的獎勵函數(shù),既能評估解釋的質(zhì)量,又能確保生成的 SQL 是準(zhǔn)確的。為此,我們設(shè)計了多部分獎勵函數(shù),每部分都捕捉模型行為的一個關(guān)鍵方面。這些獎勵函數(shù)被用于通過 Unsloth 框架對 7B 模型進行微調(diào)。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”,讓語言模型不只是生成代碼!-AI.x社區(qū)

獎勵函數(shù)詳解

  • 格式獎勵(soft_format_reward_func):權(quán)重 1.0。這個簡單的函數(shù)檢查輸出是否符合??<reasoning>...</reasoning><sql>...</sql>?? 的格式。如果匹配,返回完整的格式獎勵權(quán)重(默認(rèn) 1.0),否則為 0。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”,讓語言模型不只是生成代碼!-AI.x社區(qū)

  • 復(fù)雜度獎勵(complexity_reward):權(quán)重 0.6。這個獎勵確保生成的 SQL 的復(fù)雜度與標(biāo)準(zhǔn)答案(gold SQL)一致,避免過于簡單或過于復(fù)雜。如果沒有標(biāo)準(zhǔn)答案,復(fù)雜度在 [1.5, 8.0] 范圍內(nèi)得 0.4 倍權(quán)重,否則得 0.1 倍權(quán)重。如果有標(biāo)準(zhǔn)答案,則使用高斯相似性計算,基于復(fù)雜度比值的對數(shù)。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”,讓語言模型不只是生成代碼!-AI.x社區(qū)

  • 推理質(zhì)量獎勵(reasoning_quality_reward):權(quán)重 0.7。這個獎勵函數(shù)評估模型生成的推理部分的質(zhì)量,使用一系列啟發(fā)式規(guī)則來反映人類的分析性思維。獎勵由多個組件分?jǐn)?shù)組成,包括推理長度、SQL 術(shù)語使用、結(jié)構(gòu)清晰度、步驟指示和模式提及等。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”,讓語言模型不只是生成代碼!-AI.x社區(qū)

  • 執(zhí)行查詢獎勵(execute_query_reward_func):權(quán)重 1.2。這是最重要的獎勵,測試生成的 SQL 是否能夠?qū)嶋H運行并產(chǎn)生正確的結(jié)果。對于 SELECT 語句,如果執(zhí)行成功得 0.3 倍權(quán)重,結(jié)果完全匹配得滿分。對于部分匹配,使用 Jaccard 相似性計算。對于 DML 語句(INSERT、UPDATE、DELETE),成功執(zhí)行得 0.5 倍權(quán)重,需要大小寫修正得 0.4 倍權(quán)重。

在 GRPO 訓(xùn)練中實現(xiàn)這些獎勵函數(shù)

以下是使用 Unsloth 設(shè)置這些獎勵函數(shù)的代碼示例:

from trl import GRPOConfig, GRPOTrainer

# 配置訓(xùn)練參數(shù)
training_args = GRPOConfig(
    use_vllm=True,
    learning_rate=5e-6,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=1,
    num_generatinotallow=8,
    max_prompt_length=256,
    max_completion_length=200,
    max_steps=250,
    output_dir="outputs",
    ...
)

trainer = GRPOTrainer(
    model=model,
    processing_class=tokenizer,
    reward_funcs=[
        soft_format_reward_func,
        execute_query_reward_func,
        reasoning_quality_reward,
        complexity_reward,
    ],
    args=training_args,
    train_dataset=dataset,
)

trainer.train()

系統(tǒng)提示應(yīng)該明確指示模型使用推理:

你是一個將自然語言問題轉(zhuǎn)換為 SQL 查詢的 AI 助手。
給定數(shù)據(jù)庫模式和一個問題,生成正確的 SQL 查詢。

請嚴(yán)格按照以下格式回答,包括 <reasoning> 和 <sql> 標(biāo)簽:
<reasoning>
逐步思考以理解數(shù)據(jù)庫模式和問題。
識別必要的表、列、連接和條件。
解釋構(gòu)建 SQL 查詢的邏輯。
</reasoning>
<sql>
-- 你的 SQL 查詢
</sql>

評估獎勵系統(tǒng)的有效性

為了評估這些多維度獎勵函數(shù)的效果,我們使用了 LLM-as-a-Judge 方法,讓 GPT-4o-mini 作為專家評委,對微調(diào)后的模型在 SQL 準(zhǔn)確性和推理質(zhì)量上進行評估。

評估數(shù)據(jù)集包含 50 個隨機選擇的示例,評估維度包括四個關(guān)鍵方面,評分范圍為 1-5:

  • SQL 準(zhǔn)確性:生成的 SQL 是否準(zhǔn)確有效?
  • 推理質(zhì)量:推理是否清晰、邏輯合理且引用了正確的模式?
  • 格式遵循:是否遵循??<reasoning>...</reasoning><sql>...</sql>?? 的格式?
  • 教育價值:是否有助于學(xué)習(xí) SQL 概念?

評估提示如下:

作為一名 SQL 專家,請評估以下文本到 SQL 的轉(zhuǎn)換。每個維度的評分范圍為 1-5(1=差,5=優(yōu)秀)。

數(shù)據(jù)庫模式:
{sample['sql_context']}

問題:
{sample['sql_prompt']}

標(biāo)準(zhǔn) SQL(正確):
{sample['sql']}

模型輸出:
{sample['model_output']}

請按照以下格式提供評分:
SQL_SCORE: [1-5] - SQL 是否有效并產(chǎn)生正確結(jié)果?
REASONING_SCORE: [1-5] - 推理是否清晰、邏輯合理且引用了正確的模式?
FORMAT_SCORE: [1-5] - 是否遵循 <reasoning>...</reasoning><sql>...</sql> 格式?
EDUCATIONAL_SCORE: [1-5] - 是否有助于學(xué)習(xí) SQL?
OVERALL_SCORE: [平均分]
EXPLANATION: [簡要說明優(yōu)缺點]
ERROR_TYPE: [none/syntax/logic/format/other]

評估結(jié)果

經(jīng)過微調(diào)的 Qwen2.5-Coder-7B-Instruct 模型在僅使用 300 個示例進行訓(xùn)練、250 步訓(xùn)練后,取得了令人滿意的結(jié)果:

  • SQL 準(zhǔn)確性:44/50 的輸出得分在 4 或 5 分,表現(xiàn)出色。
  • 推理質(zhì)量:48/50 的輸出得分在 4 或 5 分,推理清晰且邏輯合理。
  • 格式遵循:49/50 的輸出得分達到 5 分,格式幾乎完美。
  • 教育價值:模型輸出對學(xué)習(xí) SQL 概念有明顯幫助。

總體來看,88% 的輸出得分在 4.0 或以上,顯示出模型在結(jié)構(gòu)化推理和可解釋性方面的一致性和可靠性。

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”,讓語言模型不只是生成代碼!-AI.x社區(qū)

用 GRPO 給 Text-to-SQL 模型裝上“推理引擎”,讓語言模型不只是生成代碼!-AI.x社區(qū)

結(jié)語

通過推理獎勵函數(shù),模型在微調(diào)過程中表現(xiàn)出了可靠的性能和一致的結(jié)果。你可以探索完整的實現(xiàn)代碼,并親自嘗試。源代碼已經(jīng)開源,可以在 GitHub 上找到。

參考

??https://github.com/yai333/Text-to-SQL-GRPO-Fine-tuning-Pipeline/tree/main??


本文轉(zhuǎn)載自??Halo咯咯??    作者:基咯咯


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-6-4 09:02:52修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
欧美唯美清纯偷拍| 久久久精品五月天| 亚洲电影av在线| 免费欧美一级视频| 国产乱子伦三级在线播放| 日韩电影在线免费看| 久久精品视频播放| www.四虎在线| 亚洲综合av一区二区三区| 亚洲天堂免费在线观看视频| 2014国产精品| 区一区二在线观看| 欧美日韩国产综合网| 亚洲乱码国产乱码精品精天堂 | 久久视频一区二区三区| 亚洲精品一区二区三区中文字幕 | 一区视频网站| 在线免费一区三区| 99在线免费视频观看| 成人高清免费观看mv| 成人18视频日本| 成人国产精品日本在线| 六月丁香激情综合| 欧美精品自拍| 亚洲天堂成人在线| 一级特黄a大片免费| 深夜日韩欧美| 在线精品亚洲一区二区不卡| 毛片在线播放视频| a级毛片免费观看在线| 久久夜色精品一区| 国产一区高清视频| 亚洲av无码一区二区三区性色| 日韩经典一区二区| 欧美一区二区三区精品电影| 青娱乐在线视频免费观看| 日韩激情图片| 亚洲视频电影图片偷拍一区| 偷偷色噜狠狠狠狠的777米奇| 国产在线视频欧美一区| 欧美日韩精品欧美日韩精品一| 亚洲成熟丰满熟妇高潮xxxxx| 后进极品白嫩翘臀在线播放| 亚洲精品视频自拍| 免费看啪啪网站| 成人精品一区二区三区免费 | 亚洲一卡二卡三卡| 国产粉嫩一区二区三区在线观看| 91丨九色丨蝌蚪丨老版| 国产免费一区二区三区| 黑人乱码一区二区三区av| 国产精品18久久久| 91免费在线观看网站| 国产人妖在线播放| 国产麻豆精品95视频| 成人久久一区二区三区| 一级黄色a视频| 免费高清在线一区| 国产精品久久久亚洲| 好看的av在线| 玖玖视频精品| 国产精品欧美一区二区三区奶水| 超碰在线97观看| 美女视频黄免费的久久| 国产日韩在线看| 国产精品毛片久久久久久久av| 精品一区中文字幕| 91精品一区二区| www.久久精品.com| jlzzjlzz亚洲日本少妇| 美女被啪啪一区二区| 久久av少妇| 国产精品理论在线观看| 97超碰免费观看| 丝袜国产在线| 大荫蒂欧美视频另类xxxx| 人妻内射一区二区在线视频 | 永久av在线| 亚洲美女视频在线| 800av在线免费观看| 国产精品电影| 欧美日韩在线直播| 人妻巨大乳一二三区| 国产精品视屏| 一区二区三区视频在线| 欧美被狂躁喷白浆精品| 国产美女精品| 91精品国产自产在线| 亚洲精品久久久蜜桃动漫| 99久久99久久精品免费观看| 欧洲在线视频一区| 超碰在线caoporn| 亚洲va中文字幕| 亚洲黄色av网址| 欧美黄色一级| 精品性高朝久久久久久久| 国产午夜精品久久久久久久久| 中文视频一区| 日本午夜精品理论片a级appf发布| 亚洲一区在线观| 99久久精品免费看| 一区二区三区四区视频在线| 丰乳肥臀在线| 欧美日韩综合在线| 国产白袜脚足j棉袜在线观看| 国产麻豆一区二区三区精品视频| 超碰精品一区二区三区乱码| 伊人手机在线视频| 麻豆成人av在线| 极品尤物一区二区三区| 免费日本一区二区三区视频| 黄网站色欧美视频| 久久人人爽人人片| 欧美日中文字幕| 久久久亚洲成人| 国产毛片在线视频| 国产日韩欧美一区二区三区乱码 | 久久精品国产久精国产| 精品视频一区二区三区四区| 国产日产一区二区| 欧美视频三区在线播放| 亚洲av无码国产精品久久| 一区二区三区四区日韩| 国产精品视频网| 久久久久久久影视| 精品露脸国产偷人在视频| 亚洲在线观看网站| 色婷婷热久久| 国产精品美女www爽爽爽视频| 五月天久久久久久| 亚洲一区二区欧美| 韩国三级在线播放| 欧美jizz| 国产精品永久在线| av在线天堂| 91福利国产成人精品照片| 给我免费观看片在线电影的| 国产精品www994| 99re视频在线| 羞羞网站在线免费观看| 日韩一区二区三区三四区视频在线观看 | 麻豆精品久久| 欧美成人合集magnet| 91影院在线播放| 国产精品美女久久久久aⅴ| 亚洲五月天综合| 精品视频97| 国产精品青青在线观看爽香蕉| 青青草视频免费在线观看| 五月婷婷另类国产| 丰满大乳奶做爰ⅹxx视频| 中文字幕日韩精品久久| 欧美aaaaaaaa| 久久亚洲一区二区三区四区五区高| 在线观看免费中文字幕| 国产精品的网站| 一级 黄 色 片一| 男女激烈动态图| 精品无码在线观看| 亚洲另类自拍| 国产一级精品aaaaa看| 欧美一卡二卡| 亚洲高清一区二| 亚洲综合一二三| 久久久久久免费| 在线观看高清免费视频| 999精品在线| 91香蕉视频在线下载| 欧美理论片在线播放| 亚洲精品在线免费播放| 天天操天天操天天操天天| 国产人成亚洲第一网站在线播放| 韩国中文字幕av| 亚洲国产一成人久久精品| 99热最新在线| 国产精选在线| 在线播放国产一区二区三区| 国产精品自偷自拍| 一级中文字幕一区二区| 极品白嫩丰满美女无套| 日韩av中文在线观看| 亚洲 国产 欧美一区| 国产不卡精品| 26uuu亚洲国产精品| 中文字幕在线观看日本| 日韩免费在线观看| 国产 日韩 欧美 在线| 国产精品免费aⅴ片在线观看| 九九九久久久久久久| 夜夜嗨网站十八久久| 一区二区不卡在线| 精品人人人人| 国产在线日韩在线| 久久国产人妖系列| 国外成人性视频| 精彩国产在线| 欧美一级在线视频| 中文字幕免费观看| 亚洲精品成a人| 国产一级久久久久毛片精品| 国产精品1024久久| 国产精品igao| 亚洲精品123区| 久久久一二三四| 九九在线高清精品视频| 91手机在线观看| 8av国产精品爽爽ⅴa在线观看| 欧美激情aaaa| 在线免费看黄| 亚洲精品自拍视频| 性中国古装videossex| 欧美日韩激情一区二区| 日本特级黄色片| 亚洲伊人伊色伊影伊综合网| 女教师淫辱の教室蜜臀av软件| 99久久精品国产一区二区三区 | 丝袜a∨在线一区二区三区不卡 | av网站免费在线观看| 亚洲天堂av女优| 日韩在线无毛| 亚洲国产精品福利| 亚洲黄色a级片| 91精品麻豆日日躁夜夜躁| 国产一卡二卡三卡| 欧美性猛交xxxx乱大交蜜桃| 久久精品女人毛片国产| 亚洲六月丁香色婷婷综合久久| 国产亚洲精品熟女国产成人| 91免费视频网| 亚洲久久久久久| 成人h动漫精品一区二| 中文字幕乱码在线人视频| 国内精品伊人久久久久av一坑| av五月天在线| 日韩av中文字幕一区二区| 精品久久久久久久无码| 久久蜜桃精品| 草草草在线视频| 久久综合狠狠| 亚洲熟妇av一区二区三区| 久久国产日本精品| 可以在线看的黄色网址| 六月丁香综合| 青青青在线视频免费观看| 视频在线在亚洲| wwwwww.色| 麻豆精品久久精品色综合| 色播五月激情五月| 精品无人码麻豆乱码1区2区| 久久人人爽av| 国产一区二区三区四区五区美女 | 国产成+人+综合+亚洲欧美| 国产成人精品久久二区二区| 日韩免费电影| 国产精品久久久久福利| 成人精品国产| 96pao国产成视频永久免费| 欧美久久亚洲| 国产精品日韩一区二区三区| 欧美久久精品| 日韩欧美精品久久| 97久久夜色精品国产| 日本在线视频www色| 午夜激情一区| 97国产在线播放| 日本午夜一区二区| 三日本三级少妇三级99| 国产不卡免费视频| 香蕉网在线播放| 国产精品亲子乱子伦xxxx裸| 操她视频在线观看| 亚洲最新视频在线观看| 久久免费激情视频| 欧美日韩久久久一区| 午夜美女福利视频| 亚洲精品一区久久久久久| 在线看的av网站| 久久久久国产视频| 国产精品极品美女在线观看| 成人激情视频在线| 国产乱人伦精品一区| 色女孩综合网| 欧美日韩三级| 黄色一级免费大片| 国产精品性做久久久久久| 在线观看国产三级| 国产精品久久久久aaaa| 亚洲精品午夜久久久久久久| 色综合网站在线| 国产草草影院ccyycom| 亚洲欧美国产日韩天堂区| 国产高清一区二区三区视频| 欧美性在线视频| 麻豆精品一区| 亚洲mv在线看| 日韩天堂av| 肉色超薄丝袜脚交| 91在线免费播放| 91久久久久久久久久久久久久 | 91热门视频在线观看| 内射一区二区三区| 色菇凉天天综合网| 韩国av在线免费观看| 日韩中文在线观看| 综合日韩av| 国产精品国产三级国产专区53| 日韩av自拍| 亚洲自偷自拍熟女另类| 国产精品12区| 亚洲综合久久av一区二区三区| 精品久久久久久久久久ntr影视| 国产巨乳在线观看| 伊人一区二区三区久久精品| av老司机在线观看| 亚洲自拍偷拍网址| 999国产精品永久免费视频app| 国产免费成人在线| 不卡视频免费播放| a级片在线观看免费| 欧美日韩一区二区三区四区 | 99视频免费播放| 97精品电影院| 国产精品99无码一区二区| 91精品一区二区三区在线观看| 国产高清视频在线观看| 91精品国产网站| 精品久久ai电影| 国产精品一色哟哟| 国产精品影视在线观看| 国产精品成人69xxx免费视频 | 在线免费视频一区| 国产女人aaa级久久久级| 久久亚洲精品国产| 亚洲精品国产综合久久| av男人的天堂在线观看| 国产精品免费一区二区| 韩日视频一区| 农村末发育av片一区二区| 亚洲精品日韩综合观看成人91| 国产精品久久久久久久免费 | av成人免费网站| 欧美精品久久一区| 久久黄色美女电影| 91视频免费网站| 亚洲一区二区日韩| 韩国三级在线播放| 亚洲国产精品视频| 日本人妻丰满熟妇久久久久久| 欧美激情视频播放| 久久精品色综合| 免费观看精品视频| 国产视频一区二区在线| 久久这里只有精品9| 色妞在线综合亚洲欧美| 日韩免费在线电影| 青青视频免费在线观看| 国产不卡一区视频| 日韩av电影网| 亚洲视频精品在线| 欧美特黄色片| 乱熟女高潮一区二区在线| 成人国产精品免费观看视频| 精品成人免费视频| 一区二区欧美日韩视频| 99久久999| 国产手机免费视频| 91网站视频在线观看| 糖心vlog精品一区二区| 精品激情国产视频| 国产精品1luya在线播放| 日本一区二区黄色| 国产精品理论片| 人妻无码一区二区三区久久99| 日本精品一区二区三区在线| 日本一本不卡| 色哟哟网站在线观看| 日韩欧美成人精品| 午夜在线小视频| 超碰国产精品久久国产精品99| 国产视频一区免费看| 少妇太紧太爽又黄又硬又爽小说| 欧美福利一区二区| 多野结衣av一区| 亚洲欧洲日本国产| hitomi一区二区三区精品| 最好看的日本字幕mv视频大全| 蜜月aⅴ免费一区二区三区| 卡一精品卡二卡三网站乱码| 性chinese极品按摩| 亚洲国产精品一区二区久久| yiren22亚洲综合伊人22| 99porn视频在线| 欧美96一区二区免费视频| 久久久久久久国产视频| 伊人成人开心激情综合网| 嗯用力啊快一点好舒服小柔久久| 午夜免费福利在线| 亚洲成人精品一区| 精品孕妇一区二区三区| 久久99精品久久久久久青青日本|