精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大語(yǔ)言模型增強(qiáng)的文本到 SQL 生成:綜述

發(fā)布于 2025-4-14 01:14
瀏覽
0收藏

1.引言



大語(yǔ)言模型增強(qiáng)的文本到 SQL 生成:綜述-AI.x社區(qū)

# 用戶問(wèn)題:?jiǎn)T工中薪水最高的人的名字是什么?
# 獲取到的 scheam:Table: Employees (ID, Name, Salary)  
# 生成的答案:
SELECT Name FROM Employees
ORDER BY Salary DESC LIMIT 1;

1.1 知識(shí)圖譜構(gòu)建 

在當(dāng)今數(shù)字化時(shí)代,數(shù)據(jù)已成為人類生產(chǎn)生活中至關(guān)重要的生產(chǎn)要素。隨著電子設(shè)備的迅猛普及,海量數(shù)據(jù)庫(kù)如雨后春筍般涌現(xiàn),它們廣泛存儲(chǔ)著來(lái)自各個(gè)領(lǐng)域的豐富信息。然而,對(duì)于普通大眾而言,學(xué)習(xí)諸如 SQL 這類數(shù)據(jù)庫(kù)查詢語(yǔ)言宛如攀登陡峭高山,門檻頗高。即使是專業(yè)從業(yè)者,在面對(duì)不同領(lǐng)域數(shù)據(jù)庫(kù)以及多樣化應(yīng)用場(chǎng)景時(shí),要編寫(xiě)大量準(zhǔn)確無(wú)誤的查詢語(yǔ)句也絕非易事,需耗費(fèi)大量精力與時(shí)間,且易出現(xiàn)錯(cuò)誤。

1.2 文本到 SQL 任務(wù)的重要性

文本到 SQL 任務(wù)恰似一座關(guān)鍵橋梁,將自然語(yǔ)言查詢巧妙轉(zhuǎn)換為結(jié)構(gòu)化查詢語(yǔ)言(SQL)命令,由此極大地降低了使用數(shù)據(jù)庫(kù)查詢的門檻,賦予用戶以自然流暢的母語(yǔ)方式與數(shù)據(jù)庫(kù)交互的能力。通過(guò)這種轉(zhuǎn)換,用戶無(wú)需再為復(fù)雜的 SQL 語(yǔ)法規(guī)則所困擾,能夠直接以日常語(yǔ)言表達(dá)需求,從數(shù)據(jù)庫(kù)中精準(zhǔn)獲取所需信息,如同為在數(shù)據(jù)海洋中航行的用戶提供了精準(zhǔn)導(dǎo)航,有力地打破了自然語(yǔ)言與結(jié)構(gòu)化數(shù)據(jù)之間長(zhǎng)期存在的隔閡,使數(shù)據(jù)利用更加高效便捷,為各領(lǐng)域數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)發(fā)展注入強(qiáng)大動(dòng)力。

1.3 技術(shù)發(fā)展概述

回顧歷史,文本到 SQL 任務(wù)的起源可追溯至 1973 年,彼時(shí)開(kāi)發(fā)的 LUNAR 系統(tǒng),主要用于處理與月球巖石相關(guān)問(wèn)題的查詢,成為該領(lǐng)域早期探索的先驅(qū)。早期研究多基于精心設(shè)計(jì)的規(guī)則構(gòu)建系統(tǒng),此類方法在簡(jiǎn)單場(chǎng)景或特定領(lǐng)域內(nèi)能夠發(fā)揮一定作用,但隨著數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)以及應(yīng)用場(chǎng)景日益多元化、復(fù)雜化,其局限性逐漸凸顯,昂貴的成本使其難以適應(yīng)大規(guī)模數(shù)據(jù)處理需求。

隨著技術(shù)發(fā)展,深度神經(jīng)網(wǎng)絡(luò)登上舞臺(tái),成為主流研究方向。基于 LSTM 和 Transformer 的方法相繼涌現(xiàn),為文本到 SQL 任務(wù)帶來(lái)新突破。然而,這些方法仍面臨諸多棘手問(wèn)題,數(shù)據(jù)稀疏性致使模型在訓(xùn)練過(guò)程中難以充分學(xué)習(xí)各種數(shù)據(jù)模式,導(dǎo)致泛化能力受限,在面對(duì)新領(lǐng)域或復(fù)雜任務(wù)時(shí)表現(xiàn)欠佳。

近年來(lái),大語(yǔ)言模型(LLMs)取得顯著進(jìn)展,其強(qiáng)大的推理和泛化能力為文本到 SQL 任務(wù)帶來(lái)革命性轉(zhuǎn)變。像 ChatGPT-4 等先進(jìn)模型在 Spider 數(shù)據(jù)集上展現(xiàn)出卓越性能,樹(shù)立了執(zhí)行精度的全新標(biāo)桿,引領(lǐng)文本到 SQL 技術(shù)邁向新階段,吸引眾多研究者聚焦于利用 LLMs 優(yōu)化文本到 SQL 生成技術(shù),挖掘更多潛在應(yīng)用價(jià)值與創(chuàng)新可能。

1.4 本文貢獻(xiàn)

本文精心梳理大語(yǔ)言模型增強(qiáng)的文本到 SQL 生成方法,依據(jù)訓(xùn)練策略差異,將其細(xì)分為提示工程、微調(diào)、預(yù)訓(xùn)練和智能體四大類,逐一深入剖析各類方法的原理、特點(diǎn)、優(yōu)勢(shì)及局限。同時(shí),全面匯總與該任務(wù)緊密相關(guān)的數(shù)據(jù)集及評(píng)估指標(biāo),系統(tǒng)探討其特性、適用場(chǎng)景以及在衡量模型性能方面的關(guān)鍵作用。通過(guò)這一系列全面且深入的綜述工作,為研究者清晰呈現(xiàn)該領(lǐng)域的整體架構(gòu)、研究脈絡(luò)與發(fā)展態(tài)勢(shì),助力其精準(zhǔn)把握技術(shù)發(fā)展方向,在未來(lái)研究中精準(zhǔn)發(fā)力,有效攻克現(xiàn)有難題,進(jìn)一步拓展和深化文本到 SQL 技術(shù)的應(yīng)用邊界與創(chuàng)新深度,推動(dòng)該技術(shù)在更多領(lǐng)域落地生根、蓬勃發(fā)展,創(chuàng)造更大價(jià)值。

大語(yǔ)言模型增強(qiáng)的文本到 SQL 生成:綜述-AI.x社區(qū)



2.預(yù)備知識(shí)

2.1 文本到 SQL 問(wèn)題

文本到 SQL 任務(wù)核心在于,給定自然語(yǔ)言問(wèn)題與數(shù)據(jù)庫(kù),精準(zhǔn)生成能從數(shù)據(jù)庫(kù)檢索目標(biāo)信息的 SQL 查詢語(yǔ)句。從技術(shù)視角看,此任務(wù)可抽象為序列到序列問(wèn)題。輸入包含自然語(yǔ)言問(wèn)題,由一系列詞元組成,每個(gè)詞元承載特定語(yǔ)義;以及數(shù)據(jù)庫(kù)模式,涵蓋多張表及其列信息,共同勾勒數(shù)據(jù)結(jié)構(gòu)輪廓。輸出則是精心構(gòu)造的 SQL 查詢,同樣由詞元序列構(gòu)成,各詞元遵循 SQL 語(yǔ)法規(guī)則,協(xié)同確定查詢邏輯與范圍,確保準(zhǔn)確提取所需數(shù)據(jù),猶如依藍(lán)圖精準(zhǔn)搭建通往目標(biāo)數(shù)據(jù)的橋梁,每個(gè)元素不可或缺、緊密配合,實(shí)現(xiàn)從自然語(yǔ)言意圖到數(shù)據(jù)庫(kù)操作指令的無(wú)縫轉(zhuǎn)換。

2.2 解決方法

現(xiàn)代技術(shù)多采用深度學(xué)習(xí)模型,特別是 Encoder-Decoder 架構(gòu)處理此任務(wù)。在編碼階段,編碼器深度剖析輸入的自然語(yǔ)言問(wèn)題與數(shù)據(jù)庫(kù)模式,經(jīng)復(fù)雜計(jì)算與特征提取,將其轉(zhuǎn)化為高維隱藏狀態(tài),此狀態(tài)蘊(yùn)含豐富語(yǔ)義與結(jié)構(gòu)信息,如同將原料加工為富含多種元素的精華液,為后續(xù)步驟奠基。解碼時(shí),解碼器依據(jù)編碼所得隱藏狀態(tài),依序生成 SQL 查詢?cè)~元,計(jì)算每個(gè)詞元生成概率,確保語(yǔ)句符合 SQL 語(yǔ)法規(guī)范與語(yǔ)義邏輯。訓(xùn)練過(guò)程中,模型依負(fù)對(duì)數(shù)似然損失函數(shù)優(yōu)化參數(shù),使生成正確 SQL 查詢概率最大化,如同在迷宮中尋找最短路徑,不斷調(diào)整方向,直至精準(zhǔn)生成符合預(yù)期的 SQL 查詢,實(shí)現(xiàn)從輸入到輸出的精準(zhǔn)映射與高效轉(zhuǎn)換。

2.3 挑戰(zhàn)

2.3.1  自然語(yǔ)言歧義性

自然語(yǔ)言歧義性是文本到 SQL 任務(wù)的關(guān)鍵難題。分詞歧義在眾多語(yǔ)言中普遍存在,如中文、日語(yǔ)等語(yǔ)言文字連續(xù)書(shū)寫(xiě),缺乏天然分隔符,在將語(yǔ)句分割為獨(dú)立語(yǔ)義單元時(shí),不同切分方式會(huì)導(dǎo)致含義變化,如“下雨天留客天留我不留”因斷句差異可產(chǎn)生多種理解。詞義歧義表現(xiàn)為一詞多義,如“蘋(píng)果”可指水果或科技公司,在不同語(yǔ)境下語(yǔ)義截然不同,模型需精準(zhǔn)判別。指代歧義使代詞所指模糊,如“他給了小李一本書(shū),他很高興”中“他”指代不明,易干擾 SQL 查詢構(gòu)建。省略歧義因語(yǔ)句省略關(guān)鍵成分引發(fā)理解分歧,如“買了三件衣服,退了一件”中省略主體與退貨原因,增加理解與查詢生成難度。語(yǔ)用歧義受場(chǎng)景、說(shuō)話者意圖等因素左右,同一語(yǔ)句在不同情境下含義天差地別,如“你吃飯了嗎”在日常問(wèn)候與餐廳服務(wù)員詢問(wèn)場(chǎng)景下意圖全然不同,模型需結(jié)合多因素準(zhǔn)確解析真實(shí)意圖,跨越歧義障礙精準(zhǔn)生成 SQL 查詢。

2.3.2  數(shù)據(jù)庫(kù)規(guī)模與多樣性

現(xiàn)實(shí)數(shù)據(jù)庫(kù)規(guī)模龐大,表與列數(shù)量眾多且關(guān)系錯(cuò)綜復(fù)雜,似巨大迷宮。模型難以在單次處理中納入全部表結(jié)構(gòu)信息,易因信息缺失導(dǎo)致 SQL 查詢錯(cuò)誤。不同領(lǐng)域數(shù)據(jù)庫(kù)命名規(guī)則、格式與結(jié)構(gòu)差異顯著,如醫(yī)療數(shù)據(jù)庫(kù)與金融數(shù)據(jù)庫(kù),字段命名從專業(yè)術(shù)語(yǔ)到行業(yè)慣例各不相同,部分名稱抽象隱晦或含大量縮寫(xiě),增加理解難度。數(shù)據(jù)類型與格式多樣,日期數(shù)據(jù)多種表示法并存,如“2024-01-01”與“01/01/2024”,要求模型具備強(qiáng)大數(shù)據(jù)解析與轉(zhuǎn)換能力,在復(fù)雜數(shù)據(jù)庫(kù)環(huán)境中精準(zhǔn)定位與提取信息,生成適配 SQL 查詢,如同在多元文化世界中精準(zhǔn)溝通交流,確保信息準(zhǔn)確無(wú)誤交互。

2.3.3 SQL 查詢復(fù)雜性

SQL 查詢復(fù)雜性涉及多方面。結(jié)構(gòu)層面,多表連接、嵌套子查詢等操作常見(jiàn),如查詢員工及其部門、上級(jí)信息需關(guān)聯(lián)多張表,模型需精準(zhǔn)把握連接條件與邏輯順序,否則結(jié)果錯(cuò)誤。條件篩選中,復(fù)雜過(guò)濾條件考驗(yàn)?zāi)P蛯?duì)數(shù)據(jù)屬性理解與邏輯運(yùn)用,如按時(shí)間段、數(shù)值范圍、字符串模糊匹配篩選,需準(zhǔn)確生成條件表達(dá)式。函數(shù)運(yùn)用方面,特定領(lǐng)域查詢常需專業(yè) SQL 函數(shù),如財(cái)務(wù)數(shù)據(jù)統(tǒng)計(jì)、文本處理函數(shù),模型需掌握函數(shù)語(yǔ)法語(yǔ)義及適用場(chǎng)景,依據(jù)需求準(zhǔn)確調(diào)用,確保查詢結(jié)果精準(zhǔn)無(wú)誤,如同專業(yè)工匠運(yùn)用復(fù)雜工具雕琢藝術(shù)品,每個(gè)細(xì)節(jié)處理精準(zhǔn)到位,方能成就完美查詢。

2.3.4 語(yǔ)用歧義性

語(yǔ)用歧義源于語(yǔ)境、說(shuō)話者屬性及場(chǎng)景差異,致使句子理解多樣。例如“查詢最近訂單”,個(gè)人用戶與企業(yè)采購(gòu)場(chǎng)景下“最近”時(shí)間跨度不同,訂單篩選條件有別。旅游咨詢中“查找熱門景點(diǎn)”,游客與旅行社需求差異大,前者關(guān)注體驗(yàn),后者側(cè)重運(yùn)營(yíng),模型需洞察語(yǔ)用差異,結(jié)合背景知識(shí)精準(zhǔn)生成符合用戶需求的 SQL 查詢,實(shí)現(xiàn)從語(yǔ)義理解到語(yǔ)用適配的跨越,提升查詢精準(zhǔn)度與實(shí)用性。

2.3.5 魯棒性與效率要求

實(shí)際應(yīng)用中,用戶輸入常含拼寫(xiě)錯(cuò)誤、語(yǔ)法瑕疵或語(yǔ)句殘缺,如“查旬銷售數(shù)據(jù)”“找出收入大于 100 員工信息,按部門排序”,模型需精準(zhǔn)識(shí)別意圖,糾錯(cuò)補(bǔ)全生成正確 SQL 查詢。同時(shí),SQL 查詢執(zhí)行效率關(guān)乎系統(tǒng)響應(yīng)速度與用戶體驗(yàn),尤其在大規(guī)模數(shù)據(jù)庫(kù)中,優(yōu)化查詢計(jì)劃、減少冗余操作、精準(zhǔn)索引運(yùn)用至關(guān)重要,如海量電商訂單查詢,高效索引可大幅縮短查詢時(shí)間,提升系統(tǒng)吞吐量,模型生成查詢需兼顧準(zhǔn)確性與高效性,平衡優(yōu)化兩端需求,確保系統(tǒng)穩(wěn)定高效運(yùn)行。


3.指標(biāo)與數(shù)據(jù)集

3.1 評(píng)估指標(biāo)

3.1.1  精確匹配準(zhǔn)確率(EM)

精確匹配準(zhǔn)確率要求模型生成的 SQL 語(yǔ)句與標(biāo)準(zhǔn)答案嚴(yán)格一致,從語(yǔ)法完整性、關(guān)鍵字準(zhǔn)確性到語(yǔ)句邏輯結(jié)構(gòu),任何細(xì)微差異都判定為錯(cuò)誤。此指標(biāo)在評(píng)估模型性能時(shí)極為嚴(yán)格,為文本到 SQL 任務(wù)準(zhǔn)確性提供基礎(chǔ)衡量標(biāo)準(zhǔn),確保模型生成 SQL 查詢?cè)诶硐霠顟B(tài)下完全符合預(yù)期,過(guò)濾掉似是而非的結(jié)果,如同用精密濾網(wǎng)篩選純凈黃金,是衡量模型在簡(jiǎn)單、明確任務(wù)場(chǎng)景下能否精準(zhǔn)輸出的關(guān)鍵指標(biāo)。

3.1.2 執(zhí)行準(zhǔn)確率(EX)

執(zhí)行準(zhǔn)確率聚焦 SQL 查詢執(zhí)行后的實(shí)際結(jié)果,將模型生成查詢?cè)跀?shù)據(jù)庫(kù)執(zhí)行的輸出與參考答案比對(duì),若二者匹配則認(rèn)定該查詢正確。此指標(biāo)緊密關(guān)聯(lián)實(shí)際應(yīng)用,檢驗(yàn)?zāi)P蜕?SQL 在真實(shí)數(shù)據(jù)庫(kù)環(huán)境中的有效性,考量查詢能否準(zhǔn)確檢索預(yù)期數(shù)據(jù),反映模型在復(fù)雜數(shù)據(jù)環(huán)境中執(zhí)行查詢?nèi)蝿?wù)的成功率,如同在實(shí)戰(zhàn)演習(xí)中檢驗(yàn)士兵任務(wù)完成質(zhì)量,是評(píng)估模型是否能在現(xiàn)實(shí)數(shù)據(jù)庫(kù)操作中達(dá)成目標(biāo)的核心指標(biāo)。

3.1.3 有效效率評(píng)分(VES)

有效效率評(píng)分綜合考量 SQL 查詢的正確性與執(zhí)行效率,通過(guò)復(fù)雜公式精準(zhǔn)量化二者關(guān)系。它以查詢有效性為基石,即判斷查詢能否正確執(zhí)行并返回預(yù)期結(jié)果,同時(shí)兼顧執(zhí)行效率,對(duì)比生成查詢與標(biāo)準(zhǔn)答案查詢的執(zhí)行時(shí)間,以比值衡量效率。VES 為模型性能評(píng)估增添動(dòng)態(tài)維度,避免模型生成僅正確但執(zhí)行拖沓的 SQL 查詢,平衡準(zhǔn)確性與效率天平,確保模型在高效處理任務(wù)同時(shí)保證結(jié)果質(zhì)量,適應(yīng)實(shí)際應(yīng)用對(duì)速度與精度雙重需求,如同評(píng)估運(yùn)動(dòng)員既看比賽成績(jī)又考量用時(shí)長(zhǎng)短,全面評(píng)價(jià)模型在真實(shí)場(chǎng)景中的綜合表現(xiàn)。

3.1.4 測(cè)試套件準(zhǔn)確率(TS)

測(cè)試套件準(zhǔn)確率從海量隨機(jī)生成數(shù)據(jù)庫(kù)中精心構(gòu)建聚焦測(cè)試套件,憑借高代碼覆蓋率確保全面檢測(cè)模型在不同數(shù)據(jù)庫(kù)場(chǎng)景下預(yù)測(cè)正確 SQL 查詢能力。此指標(biāo)突破單一測(cè)試局限,測(cè)量模型語(yǔ)義準(zhǔn)確性上限,深度評(píng)估模型跨數(shù)據(jù)庫(kù)架構(gòu)、數(shù)據(jù)分布及復(fù)雜任務(wù)情境下的適應(yīng)性與精準(zhǔn)度,如在多種風(fēng)格迷宮中測(cè)試導(dǎo)航能力,精準(zhǔn)定位模型在處理復(fù)雜多樣任務(wù)、應(yīng)對(duì)不同數(shù)據(jù)庫(kù)結(jié)構(gòu)與數(shù)據(jù)分布變化時(shí)的性能瓶頸與優(yōu)勢(shì),為優(yōu)化模型提供關(guān)鍵方向指引,提升模型通用能力與魯棒性。

3.2 數(shù)據(jù)集

大語(yǔ)言模型增強(qiáng)的文本到 SQL 生成:綜述-AI.x社區(qū)

3.2.1 單域數(shù)據(jù)集

ATIS:源于機(jī)票預(yù)訂系統(tǒng),數(shù)據(jù)源自真實(shí)用戶查詢與對(duì)應(yīng) SQL 生成場(chǎng)景,為模型構(gòu)建自然語(yǔ)言與 SQL 映射提供航空領(lǐng)域典型樣本,助模型掌握機(jī)票預(yù)訂流程相關(guān)查詢模式,如依航班時(shí)間、目的地、乘客信息查詢航班座位可用性、票價(jià)詳情等常見(jiàn)需求對(duì)應(yīng)的 SQL 構(gòu)建方式,是模型學(xué)習(xí)航空領(lǐng)域文本到 SQL 轉(zhuǎn)換的優(yōu)質(zhì)基石。

GeoQuery:扎根美國(guó)地理知識(shí)領(lǐng)域,數(shù)據(jù)含地理實(shí)體查詢與 SQL 語(yǔ)句,助模型理解地理信息檢索邏輯,如依據(jù)城市名稱查經(jīng)緯度、按地理區(qū)域查河流湖泊分布等查詢對(duì)應(yīng)的 SQL 編碼策略,提升模型處理地理數(shù)據(jù)查詢能力,豐富對(duì)地理領(lǐng)域語(yǔ)義理解與查詢表達(dá)能力,如同為探索地理數(shù)據(jù)寶庫(kù)提供精準(zhǔn)地圖與鑰匙。

Scholar:反映學(xué)術(shù)數(shù)據(jù)庫(kù)查詢需求全貌,涵蓋論文、作者、引用等多元信息檢索情境 SQL 標(biāo)注,助模型熟悉學(xué)術(shù)研究場(chǎng)景復(fù)雜查詢,如依關(guān)鍵詞、作者機(jī)構(gòu)查文獻(xiàn)引用網(wǎng)絡(luò)、特定時(shí)間段高引論文檢索等任務(wù)對(duì)應(yīng)的 SQL 構(gòu)建規(guī)則,為學(xué)術(shù)數(shù)據(jù)庫(kù)交互提供智能支持,推動(dòng)學(xué)術(shù)資源高效利用。

Advising:聚焦學(xué)生學(xué)術(shù)咨詢情境,模擬真實(shí)咨詢問(wèn)題生成 SQL 標(biāo)注數(shù)據(jù),如課程選擇建議、學(xué)業(yè)進(jìn)度查詢、學(xué)位要求核對(duì)等任務(wù)對(duì)應(yīng)的 SQL 查詢模式,為模型應(yīng)對(duì)學(xué)術(shù)咨詢領(lǐng)域文本到 SQL 挑戰(zhàn)提供實(shí)戰(zhàn)訓(xùn)練,提升服務(wù)教育領(lǐng)域數(shù)據(jù)交互能力,精準(zhǔn)輔助學(xué)生學(xué)術(shù)規(guī)劃與管理。

3.2.2 跨域數(shù)據(jù)集

WikiSQL:基于維基百科大規(guī)模標(biāo)注數(shù)據(jù),廣泛覆蓋多領(lǐng)域知識(shí),挑戰(zhàn)模型跨領(lǐng)域構(gòu)建自然語(yǔ)言與 SQL 映射能力。其豐富多樣的數(shù)據(jù)促使模型學(xué)習(xí)通用映射策略,突破單一領(lǐng)域局限,適應(yīng)不同主題內(nèi)容查詢需求,如從歷史事件時(shí)間線查詢到科技產(chǎn)品參數(shù)檢索等廣泛場(chǎng)景 SQL 生成,培養(yǎng)模型跨域數(shù)據(jù)處理靈活性與適應(yīng)性,成為模型拓展視野、提升泛化能力的試煉場(chǎng)。

Spider:作為復(fù)雜文本到 SQL 任務(wù)標(biāo)桿數(shù)據(jù)集,集成眾多領(lǐng)域數(shù)據(jù)庫(kù),平均每張數(shù)據(jù)庫(kù)關(guān)聯(lián)多個(gè)表,SQL 語(yǔ)句涵蓋復(fù)雜操作,如多層嵌套子查詢、多表聯(lián)合查詢及豐富函數(shù)運(yùn)用。此數(shù)據(jù)集全方位考驗(yàn)?zāi)P吞幚韽?fù)雜結(jié)構(gòu)、多樣化查詢及跨域知識(shí)遷移能力,推動(dòng)模型在高難度任務(wù)中不斷進(jìn)化,挖掘深層語(yǔ)義理解與精準(zhǔn)查詢生成潛力,如同攀登技術(shù)高峰的陡峭階梯,引領(lǐng)模型走向卓越性能境界。

KaggleDBQA:采自真實(shí)網(wǎng)絡(luò)數(shù)據(jù)庫(kù),具真實(shí)世界數(shù)據(jù)特質(zhì),含特定領(lǐng)域數(shù)據(jù)類型、原始格式與無(wú)約束自然語(yǔ)言查詢,為模型模擬實(shí)戰(zhàn)環(huán)境。如電商產(chǎn)品評(píng)論數(shù)據(jù)分析、社交媒體用戶行為挖掘等場(chǎng)景下 SQL 生成任務(wù),助模型適應(yīng)真實(shí)業(yè)務(wù)數(shù)據(jù)復(fù)雜性與多樣性,提升應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景中不規(guī)則、動(dòng)態(tài)變化查詢需求能力,錘煉在數(shù)據(jù)海洋實(shí)戰(zhàn)中精準(zhǔn)導(dǎo)航與高效檢索技能。

DuSQL:專為中文跨域文本到 SQL 任務(wù)打造,填補(bǔ)中文標(biāo)注數(shù)據(jù)空白。經(jīng)深入分析多領(lǐng)域應(yīng)用問(wèn)題手工標(biāo)注海量 SQL 查詢,大量涉及行或列計(jì)算任務(wù),推動(dòng)中文文本到 SQL 技術(shù)突破。為中文語(yǔ)境下模型學(xué)習(xí)自然語(yǔ)言與 SQL 映射提供充足養(yǎng)分,提升處理中文復(fù)雜語(yǔ)義與查詢需求能力,助力中文數(shù)據(jù)庫(kù)交互智能化發(fā)展,為中文信息處理技術(shù)創(chuàng)新注入強(qiáng)大動(dòng)力。

BIRD:聚焦語(yǔ)法歧義消解、數(shù)據(jù)庫(kù)值理解與查詢效率優(yōu)化,多維度挑戰(zhàn)模型性能。其豐富多樣問(wèn)題難度分級(jí),為模型提供漸進(jìn)式提升階梯,如處理模糊語(yǔ)義查詢、復(fù)雜嵌套結(jié)構(gòu)及優(yōu)化長(zhǎng)查詢執(zhí)行效率任務(wù),各問(wèn)題標(biāo)注可選證據(jù)值輔助理解。促使模型在精準(zhǔn)語(yǔ)義解析、高效查詢生成及適應(yīng)復(fù)雜數(shù)據(jù)庫(kù)交互上深度進(jìn)化,提升實(shí)際應(yīng)用價(jià)值,優(yōu)化用戶數(shù)據(jù)庫(kù)交互體驗(yàn)。

BEAVER:瞄準(zhǔn)真實(shí)企業(yè)環(huán)境構(gòu)建,彌補(bǔ)現(xiàn)有數(shù)據(jù)集與實(shí)際企業(yè)數(shù)據(jù)庫(kù)結(jié)構(gòu)、查詢復(fù)雜差距。借企業(yè)數(shù)據(jù)倉(cāng)庫(kù)匿名化處理,構(gòu)建含復(fù)雜表連接與聚合操作數(shù)據(jù)集,模擬企業(yè)級(jí)數(shù)據(jù)管理與分析任務(wù),如供應(yīng)鏈數(shù)據(jù)整合查詢、財(cái)務(wù)報(bào)表復(fù)雜統(tǒng)計(jì)分析等 SQL 生成需求,訓(xùn)練模型適應(yīng)企業(yè)嚴(yán)苛標(biāo)準(zhǔn),提升在大規(guī)模復(fù)雜業(yè)務(wù)場(chǎng)景下穩(wěn)健高效處理數(shù)據(jù)能力,成為企業(yè)數(shù)據(jù)智能化管理得力助手。

CoSQL:為構(gòu)建通用數(shù)據(jù)庫(kù)查詢對(duì)話系統(tǒng)設(shè)計(jì),數(shù)據(jù)源于模擬用戶與 SQL 專家交互收集的超大量對(duì)話與標(biāo)注 SQL 查詢,覆蓋眾多領(lǐng)域復(fù)雜數(shù)據(jù)庫(kù)。模型在此數(shù)據(jù)集上學(xué)習(xí)處理多輪交互、動(dòng)態(tài)調(diào)整查詢策略及應(yīng)對(duì)復(fù)雜數(shù)據(jù)庫(kù)關(guān)系能力,如多輪對(duì)話中逐步細(xì)化查詢條件、處理跨表關(guān)聯(lián)動(dòng)態(tài)變化場(chǎng)景,提升在交互性數(shù)據(jù)庫(kù)查詢?nèi)蝿?wù)中的智能水平與靈活性,實(shí)現(xiàn)自然流暢人機(jī)數(shù)據(jù)庫(kù)交互。

CHASE:立足大規(guī)模中文數(shù)據(jù)與跨數(shù)據(jù)庫(kù)上下文依賴,為模型處理中文復(fù)雜語(yǔ)境與多表關(guān)聯(lián)查詢提供實(shí)戰(zhàn)平臺(tái)。數(shù)據(jù)集含大量問(wèn)題序列與 SQL 標(biāo)注,分布于多表關(guān)系數(shù)據(jù)庫(kù),涉及多領(lǐng)域知識(shí)融合查詢?nèi)蝿?wù),如醫(yī)療病歷關(guān)聯(lián)診斷信息查詢、物流訂單多環(huán)節(jié)狀態(tài)跟蹤查詢,推動(dòng)模型掌握中文語(yǔ)義深度理解、跨庫(kù)關(guān)聯(lián)推理與精準(zhǔn)查詢生成能力,提升中文數(shù)據(jù)庫(kù)交互系統(tǒng)性能與用戶體驗(yàn)。

EHRSQL:專注醫(yī)療領(lǐng)域電子健康記錄數(shù)據(jù),數(shù)據(jù)源自真實(shí)醫(yī)護(hù)人員查詢需求,涵蓋患者信息檢索、統(tǒng)計(jì)分析等關(guān)鍵任務(wù) SQL 標(biāo)注。為模型深耕醫(yī)療數(shù)據(jù)處理提供專業(yè)場(chǎng)景訓(xùn)練,如依診斷代碼查患者群體特征、按時(shí)間序列分析病情發(fā)展趨勢(shì)等查詢對(duì)應(yīng)的 SQL 生成優(yōu)化,提升模型在醫(yī)療信息管理與輔助決策中的價(jià)值,促進(jìn)醫(yī)療數(shù)據(jù)智能應(yīng)用發(fā)展,守護(hù)醫(yī)療數(shù)據(jù)高效精準(zhǔn)利用。

3.2.3 增強(qiáng)數(shù)據(jù)集

ADVETA:首開(kāi)先河評(píng)估模型應(yīng)對(duì)表格擾動(dòng)魯棒性,突破以往僅聚焦自然語(yǔ)言擾動(dòng)局限。通過(guò)改變數(shù)據(jù)庫(kù)表格結(jié)構(gòu)、添加噪聲元素或調(diào)整數(shù)據(jù)分布,檢驗(yàn)?zāi)P驮诒砀駭?shù)據(jù)不穩(wěn)定狀態(tài)下維持查詢準(zhǔn)確性能力,如模擬數(shù)據(jù)庫(kù)更新、數(shù)據(jù)缺失或錯(cuò)誤場(chǎng)景下 SQL 生成可靠性,強(qiáng)化模型對(duì)數(shù)據(jù)結(jié)構(gòu)變異適應(yīng)能力,提升在復(fù)雜多變數(shù)據(jù)環(huán)境中穩(wěn)健服務(wù)性能,確保系統(tǒng)面對(duì)數(shù)據(jù)波動(dòng)可靠運(yùn)行。

Spider-DK:聚焦模型運(yùn)用領(lǐng)域特定知識(shí)處理數(shù)據(jù)能力,借數(shù)據(jù)轉(zhuǎn)換技術(shù)生成含隱式查詢列、推理挑戰(zhàn)、同義詞替換及條件生成等復(fù)雜元素?cái)?shù)據(jù)樣本。測(cè)試模型在數(shù)據(jù)語(yǔ)義模糊、信息隱含場(chǎng)景下挖掘知識(shí)、生成準(zhǔn)確 SQL 查詢能力,如依據(jù)行業(yè)術(shù)語(yǔ)同義詞、數(shù)據(jù)邏輯關(guān)聯(lián)推理查詢意圖,推動(dòng)模型知識(shí)理解與應(yīng)用深度拓展,提升跨領(lǐng)域數(shù)據(jù)處理智能水平,解鎖更多數(shù)據(jù)潛在價(jià)值。

Spider-SS&CG:借數(shù)據(jù)庫(kù)模式簡(jiǎn)化與復(fù)雜變化任務(wù),雙向錘煉模型性能。訓(xùn)練中動(dòng)態(tài)調(diào)整數(shù)據(jù)庫(kù)結(jié)構(gòu)復(fù)雜度,從簡(jiǎn)化模式助模型捕捉核心關(guān)系,到復(fù)雜模式考驗(yàn)應(yīng)對(duì)大規(guī)模關(guān)系能力,檢驗(yàn)?zāi)P蛯?duì)不同復(fù)雜度數(shù)據(jù)庫(kù)架構(gòu)適應(yīng)性與查詢生成優(yōu)化能力,如從單表基礎(chǔ)查詢過(guò)渡到多表復(fù)雜關(guān)聯(lián)查詢場(chǎng)景下的表現(xiàn),推動(dòng)模型在結(jié)構(gòu)動(dòng)態(tài)變化環(huán)境中精準(zhǔn)高效生成 SQL 查詢,實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)架構(gòu)多樣性的靈活駕馭。
Spider-SYN:引入同義詞替換技術(shù)模擬真實(shí)語(yǔ)言多樣性,以含同義詞替換的數(shù)據(jù)庫(kù)模式相關(guān)詞匯數(shù)據(jù)集考驗(yàn)?zāi)P汪敯粜浴Tu(píng)估模型在面對(duì)詞匯變體干擾時(shí)準(zhǔn)確鏈接數(shù)據(jù)庫(kù)模式、生成無(wú)誤 SQL 查詢能力,如處理地名、產(chǎn)品名同義詞變化場(chǎng)景下查詢構(gòu)建,強(qiáng)化模型語(yǔ)義理解穩(wěn)定性與適應(yīng)性,確保在自然語(yǔ)言多變情境下準(zhǔn)確檢索數(shù)據(jù),提升交互靈活性與準(zhǔn)確性

Spider-SSP:聚焦模式特定解析能力,借變更數(shù)據(jù)庫(kù)模式中表名、列名檢驗(yàn)?zāi)P蛯?duì)未知結(jié)構(gòu)適應(yīng)性與解析準(zhǔn)確性。確保模型在數(shù)據(jù)庫(kù)架構(gòu)調(diào)整、命名規(guī)則變化場(chǎng)景下仍能精準(zhǔn)識(shí)別語(yǔ)義、構(gòu)建正確查詢邏輯,如企業(yè)數(shù)據(jù)庫(kù)字段更新、系統(tǒng)融合場(chǎng)景下 SQL 查詢無(wú)縫過(guò)渡,提升模型通用性與可維護(hù)性,降低系統(tǒng)因結(jié)構(gòu)調(diào)整對(duì)數(shù)據(jù)查詢功能影響。
Spider-Realistic:緊密圍繞企業(yè)真實(shí)應(yīng)用場(chǎng)景構(gòu)建問(wèn)題與 SQL 語(yǔ)句對(duì),數(shù)據(jù)反映實(shí)際業(yè)務(wù)邏輯與復(fù)雜查詢需求。訓(xùn)練模型處理多級(jí)別復(fù)雜查詢,從簡(jiǎn)單篩選到嵌套多層子查詢、跨多部門數(shù)據(jù)關(guān)聯(lián)分析,如企業(yè)銷售數(shù)據(jù)分析、供應(yīng)鏈優(yōu)化查詢?nèi)蝿?wù),提升模型在企業(yè)級(jí)數(shù)據(jù)管理中實(shí)戰(zhàn)能力,推動(dòng)企業(yè)數(shù)據(jù)庫(kù)交互智能化升級(jí),精準(zhǔn)服務(wù)企業(yè)決策與運(yùn)營(yíng)管理。
CSpider:直擊中文文本處理難題,鑒于中文需分詞處理且 SQL 關(guān)鍵字多為英文,借跨語(yǔ)言知識(shí)嵌入技術(shù)彌補(bǔ)語(yǔ)義鴻溝。為模型處理中文文本到 SQL 任務(wù)優(yōu)化語(yǔ)義解析流程,提升中文分詞準(zhǔn)確性與中英文語(yǔ)義映射能力,如處理中文商品描述查詢庫(kù)存、中文新聞數(shù)據(jù)提取結(jié)構(gòu)化信息場(chǎng)景下 SQL 生成,推動(dòng)中文數(shù)據(jù)庫(kù)交互技術(shù)創(chuàng)新,拓展中文信息處理應(yīng)用深度廣度。
TrustSQL:著重評(píng)估模型生成 SQL 查詢決策能力,從問(wèn)題處理可行性多維度考量。基于問(wèn)題表述方式差異設(shè)計(jì)測(cè)試,判斷模型生成查詢正確性、棄權(quán)合理性及預(yù)測(cè)錯(cuò)誤查詢風(fēng)險(xiǎn)能力,如區(qū)分可解、模糊、無(wú)解查詢場(chǎng)景處理策略,提升模型智能決策水平,優(yōu)化查詢資源分配,避免錯(cuò)誤查詢執(zhí)行損耗,提升系統(tǒng)整體可靠性與效率,保障數(shù)據(jù)交互精準(zhǔn)高效。
BigTable-0.2k:依托 BIRD 數(shù)據(jù)集豐富資源,設(shè)計(jì)涵蓋文本到 SQL、SQL 調(diào)試、SQL 優(yōu)化、模式鏈接、SQL 到文本多任務(wù)框架。全方位評(píng)估模型在 SQL 生命周期各環(huán)節(jié)及跨任務(wù)協(xié)同能力,如調(diào)試生成查詢錯(cuò)誤、優(yōu)化查詢性能、精準(zhǔn)鏈接數(shù)據(jù)庫(kù)模式及逆向轉(zhuǎn)換 SQL 為自然語(yǔ)言能力,推動(dòng)模型成為 SQL 處理全能選手,提升在復(fù)雜數(shù)據(jù)庫(kù)管理與交互場(chǎng)景下綜合服務(wù)能力,實(shí)現(xiàn)多任務(wù)無(wú)縫切換與協(xié)同增效。
SParC:憑借復(fù)雜上下文依賴與高語(yǔ)義多樣性,考驗(yàn)?zāi)P涂缬蛑R(shí)遷移與未知場(chǎng)景泛化能力。數(shù)據(jù)含多輪對(duì)話中動(dòng)態(tài)變化 SQL 查詢與數(shù)據(jù)庫(kù)交互情境,模型需依上下文靈活調(diào)整查詢策略、精準(zhǔn)解析語(yǔ)義,如對(duì)話式數(shù)據(jù)探索、交互式報(bào)表生成任務(wù)中 SQL 動(dòng)態(tài)構(gòu)建,提升模型交互智能與自適應(yīng)能力,滿足用戶動(dòng)態(tài)信息需求,塑造自然流暢數(shù)據(jù)庫(kù)交互體驗(yàn)。

4.方法論

4.1 傳統(tǒng)文本到 SQL 方法

早期文本到 SQL 任務(wù)多依賴模板或規(guī)則方法,將自然語(yǔ)言生硬映射至預(yù)定義 SQL 模板,缺乏靈活性與適應(yīng)性,面對(duì)復(fù)雜數(shù)據(jù)庫(kù)架構(gòu)與查詢需求常力不從心。

伴隨深度學(xué)習(xí)發(fā)展,LSTM 與 Transformer 模型成為主流。LSTM 憑借獨(dú)特門控機(jī)制捕捉序列數(shù)據(jù)長(zhǎng)期依賴,率先應(yīng)用于文本到 SQL 任務(wù),在處理簡(jiǎn)單查詢場(chǎng)景展現(xiàn)初步成效,可學(xué)習(xí)問(wèn)題與 SQL 語(yǔ)句間順序依賴關(guān)系。然而,面對(duì)長(zhǎng)距離復(fù)雜語(yǔ)義關(guān)聯(lián)查詢,如深度嵌套子查詢或多表長(zhǎng)鏈關(guān)聯(lián)查詢,其信息傳遞易衰減、梯度消失問(wèn)題凸顯,導(dǎo)致性能瓶頸。

Transformer 模型攜自注意力機(jī)制革新文本到 SQL 領(lǐng)域,通過(guò)為輸入元素動(dòng)態(tài)分配權(quán)重,精準(zhǔn)捕捉長(zhǎng)距離依賴,高效處理復(fù)雜查詢語(yǔ)義。諸多基于此架構(gòu)模型應(yīng)運(yùn)而生,如 GraPPa 引入語(yǔ)法增強(qiáng)預(yù)訓(xùn)練提升模型對(duì)數(shù)據(jù)庫(kù)模式理解深度,精準(zhǔn)解析查詢語(yǔ)法語(yǔ)義;TaBERT 創(chuàng)新聯(lián)合學(xué)習(xí)文本與表格數(shù)據(jù)語(yǔ)義表征,強(qiáng)化語(yǔ)義解析精準(zhǔn)度,尤其在含模糊語(yǔ)義或隱式關(guān)聯(lián)查詢中表現(xiàn)卓越,實(shí)現(xiàn)更準(zhǔn)確自然語(yǔ)言到 SQL 映射,推動(dòng)傳統(tǒng)方法向精準(zhǔn)語(yǔ)義理解與復(fù)雜查詢處理進(jìn)化,為后續(xù)技術(shù)迭代筑牢根基。

4.2 基于提示的文本到 SQL

大語(yǔ)言模型增強(qiáng)的文本到 SQL 生成:綜述-AI.x社區(qū)

4.2.1 零樣本提示

零樣本提示模式下,模型未針對(duì)任務(wù)專項(xiàng)訓(xùn)練,僅憑任務(wù)描述、測(cè)試問(wèn)題與數(shù)據(jù)庫(kù)概要信息生成 SQL 查詢。此策略高度依賴模型大規(guī)模預(yù)訓(xùn)練積累知識(shí)與數(shù)據(jù)泛化能力,在簡(jiǎn)單通用查詢場(chǎng)景或新領(lǐng)域初步探索中可快速響應(yīng),但面對(duì)復(fù)雜數(shù)據(jù)庫(kù)結(jié)構(gòu)與語(yǔ)義模糊查詢,因缺乏任務(wù)特定知識(shí)與實(shí)例引導(dǎo),準(zhǔn)確性波動(dòng)大,輸出結(jié)果可能偏離預(yù)期,如處理含多層嵌套邏輯或?qū)I(yè)領(lǐng)域術(shù)語(yǔ)查詢時(shí)易出錯(cuò),僅適用于對(duì)精度要求適中的快速查詢場(chǎng)景或新任務(wù)原型探索階段,為模型應(yīng)用提供初步方向指引與應(yīng)急響應(yīng)能力。

4.2.2 少樣本提示

少樣本提示為模型提供少量?jī)?yōu)質(zhì)案例輔助學(xué)習(xí)任務(wù)模式,顯著提升復(fù)雜任務(wù)處理性能。SC-prompt 創(chuàng)新采用結(jié)構(gòu)與內(nèi)容分離策略,先依案例生成含占位符 SQL 結(jié)構(gòu)框架,再精準(zhǔn)填充值,增強(qiáng)查詢生成邏輯性與準(zhǔn)確性;MCS-SQL 經(jīng)多輪模式鏈接、并行 SQL 生成與智能篩選,借多個(gè)提示挖掘參數(shù)空間,精準(zhǔn)匹配查詢意圖,提升復(fù)雜查詢處理精度與可靠性,有效解決因數(shù)據(jù)稀疏導(dǎo)致的模型理解困難,增強(qiáng)模型在少樣本條件下學(xué)習(xí)能力與查詢生成質(zhì)量,拓展模型對(duì)復(fù)雜任務(wù)適應(yīng)性與處理精度邊界,在實(shí)際應(yīng)用中降低數(shù)據(jù)標(biāo)注成本,提升任務(wù)處理效率與效果。

4.2.3 思維鏈提示(CoT)

思維鏈提示為模型注入推理思維,借中間步驟注釋激活復(fù)雜邏輯處理能力,與少樣本提示協(xié)同增效。如在處理含多條件篩選、分組聚合復(fù)雜查詢時(shí),引導(dǎo)模型“逐步思考”,從數(shù)據(jù)需求拆解、關(guān)聯(lián)表確定到條件篩選順序規(guī)劃,優(yōu)化查詢生成過(guò)程。實(shí)驗(yàn)證明關(guān)鍵推理語(yǔ)句添加可顯著提升模型在復(fù)雜任務(wù)中推理表現(xiàn),尤其在無(wú)充足樣本場(chǎng)景下助力模型理解深層語(yǔ)義、構(gòu)建合理查詢邏輯,精準(zhǔn)處理模糊歧義查詢,提升生成 SQL 查詢可解釋性與準(zhǔn)確性,推動(dòng)模型從單純數(shù)據(jù)擬合邁向智能推理決策,增強(qiáng)用戶對(duì)模型結(jié)果信任度與交互體驗(yàn)深度。

4.3 微調(diào)文本到 SQL

大語(yǔ)言模型增強(qiáng)的文本到 SQL 生成:綜述-AI.x社區(qū)

4.3.1 全參數(shù)微調(diào)

全參數(shù)微調(diào)對(duì)模型全體參數(shù)依特定任務(wù)與領(lǐng)域數(shù)據(jù)深度優(yōu)化,在如 Spider 數(shù)據(jù)集高精度任務(wù)中,全面重塑模型參數(shù)空間提升 SQL 生成準(zhǔn)確性,使模型精準(zhǔn)適配任務(wù)需求。然而,此方法計(jì)算資源與數(shù)據(jù)需求巨大,易引發(fā)過(guò)擬合風(fēng)險(xiǎn),如小規(guī)模數(shù)據(jù)集微調(diào)易致模型記憶數(shù)據(jù)細(xì)節(jié)而非掌握通用規(guī)則,在新數(shù)據(jù)或跨域任務(wù)中泛化力弱,需海量標(biāo)注數(shù)據(jù)與強(qiáng)大算力支撐,常用于對(duì)精度要求嚴(yán)苛、任務(wù)邊界明確且數(shù)據(jù)資源充沛場(chǎng)景,為特定任務(wù)打造高精度模型,確保任務(wù)關(guān)鍵性能指標(biāo)達(dá)成,推動(dòng)技術(shù)在專業(yè)領(lǐng)域深度應(yīng)用。

4.3.2 參數(shù)高效微調(diào)

參數(shù)高效微調(diào)另辟蹊徑,僅針對(duì)模型關(guān)鍵參數(shù)或模塊精準(zhǔn)微調(diào),如聚焦 SQL 語(yǔ)句結(jié)構(gòu)解析層、數(shù)據(jù)庫(kù)模式理解模塊,在保留預(yù)訓(xùn)練模型通用語(yǔ)言知識(shí)前提下優(yōu)化任務(wù)適配能力。此方法大幅削減訓(xùn)練成本與資源消耗,縮短訓(xùn)練周期,提升模型迭代效率。在處理多領(lǐng)域任務(wù)時(shí),能快速適應(yīng) SQL 復(fù)雜度變化與不同數(shù)據(jù)庫(kù)模式,如金融、醫(yī)療領(lǐng)域數(shù)據(jù)查詢?nèi)蝿?wù)切換中,高效平衡模型通用性與專業(yè)性,以輕量微調(diào)實(shí)現(xiàn)性能優(yōu)化,增強(qiáng)模型在資源受限環(huán)境下適應(yīng)性與任務(wù)處理靈活性,拓展文本到 SQL 技術(shù)應(yīng)用廣度與多樣性,促進(jìn)技術(shù)在多領(lǐng)域廣泛落地。

4.4 任務(wù)訓(xùn)練文本到 SQL

4.4.1 混合專家模型

混合專家模型為文本到 SQL 任務(wù)創(chuàng)新引入分工協(xié)作架構(gòu),如 SQL-GEN 集成自然語(yǔ)言理解、數(shù)據(jù)庫(kù)模式解析、SQL 生成等多領(lǐng)域?qū)<夷K。各模塊各司其職、協(xié)同作戰(zhàn),自然語(yǔ)言理解模塊剖析查詢意圖,模式解析模塊拆解數(shù)據(jù)庫(kù)架構(gòu),SQL 生成模塊依前序處理構(gòu)建精準(zhǔn)查詢,提升系統(tǒng)學(xué)習(xí)效率與效果。在處理復(fù)雜跨域任務(wù)時(shí),借模塊專業(yè)化優(yōu)勢(shì)靈活調(diào)配資源,快速處理不同領(lǐng)域、結(jié)構(gòu)數(shù)據(jù)庫(kù)查詢需求,如應(yīng)對(duì)電商、醫(yī)療融合查詢場(chǎng)景,依任務(wù)階段激活對(duì)應(yīng)專家模塊,精準(zhǔn)生成跨領(lǐng)域 SQL 查詢,提升模型處理復(fù)雜任務(wù)協(xié)同性與準(zhǔn)確性,為大規(guī)模復(fù)雜數(shù)據(jù)交互場(chǎng)景提供高效解決方案,推動(dòng)文本到 SQL 技術(shù)向集成化、專業(yè)化方向創(chuàng)新發(fā)展。

4.4.2 基于 Transformer 模型

基于 Transformer 架構(gòu)模型專為文本到 SQL 任務(wù)量身定制,CodeS 開(kāi)源架構(gòu)通過(guò)削減參數(shù)規(guī)模、預(yù)訓(xùn)練 SQL 生成任務(wù)優(yōu)化模型效率與準(zhǔn)確性,借數(shù)據(jù)庫(kù)提示技術(shù)精準(zhǔn)篩選數(shù)據(jù)元素提升查詢精度,且利用數(shù)據(jù)增強(qiáng)技術(shù)提升跨域適應(yīng)力,為開(kāi)發(fā)者提供高效工具;MIGA 借預(yù)訓(xùn)練模型知識(shí)遷移優(yōu)勢(shì),將任務(wù)拆解為多子任務(wù),如模式預(yù)測(cè)、語(yǔ)句轉(zhuǎn)換預(yù)測(cè)等,并引入 SQL 擾動(dòng)技術(shù)增強(qiáng)模型魯棒性,在處理大規(guī)模復(fù)雜任務(wù)中表現(xiàn)卓越,有效提升查詢生成質(zhì)量與穩(wěn)定性,推動(dòng)模型在復(fù)雜數(shù)據(jù)庫(kù)交互中不斷拓展能力邊界,實(shí)現(xiàn)從自然語(yǔ)言到精準(zhǔn) SQL 查詢高效轉(zhuǎn)換,為數(shù)據(jù)密集型任務(wù)提供強(qiáng)大技術(shù)支撐。

4.5 基于 LLM 智能體的文本到 SQL

智能體框架為文本到 SQL 任務(wù)開(kāi)辟全新協(xié)作范式。MAC-SQL 集成分解、選擇與修正智能體,分解智能體依邏輯拆解復(fù)雜查詢?yōu)樽訂?wèn)題鏈,選擇智能體篩除無(wú)關(guān)數(shù)據(jù)干擾,修正智能體借外部工具驗(yàn)證修正 SQL 錯(cuò)誤,多輪協(xié)作提升復(fù)雜查詢處理效率與準(zhǔn)確性;Tool-SQL 配備專業(yè)檢索與檢測(cè)工具智能體,檢索工具精確定位數(shù)據(jù)庫(kù)元素,檢測(cè)工具實(shí)時(shí)診斷修正 SQL 語(yǔ)句匹配問(wèn)題,保障查詢精準(zhǔn)度;SQLFixAgent 多智能體協(xié)同流程中,生成智能體發(fā)起查詢草案,檢測(cè)智能體揪出語(yǔ)法語(yǔ)義瑕疵,優(yōu)化智能體借工具迭代優(yōu)化 SQL,確保高質(zhì)量輸出;MAG-SQL 從模式篩選、問(wèn)題分解到子查詢迭代優(yōu)化,全程智能協(xié)同,提升查詢處理效率與精度;MAGIC 自動(dòng)生成糾錯(cuò)指南智能體,依錯(cuò)誤模式智能引導(dǎo) SQL 修正;Distyl AI 引擎智能體依用戶反饋動(dòng)態(tài)優(yōu)化查詢結(jié)果,跨領(lǐng)域知識(shí)檢索增強(qiáng)查詢背景知識(shí)支撐;SuperSQL 融合架構(gòu)、提示工程與優(yōu)化策略智能體,在預(yù)處理強(qiáng)化數(shù)據(jù)關(guān)聯(lián),選例生成確保查詢可靠性,解碼生成高效 SQL 查詢,多技術(shù)協(xié)同提升系統(tǒng)性能。此范式借智能體協(xié)作靈活處理復(fù)雜任務(wù),提升模型交互性、適應(yīng)性與自優(yōu)化能力,塑造自然語(yǔ)言與數(shù)據(jù)庫(kù)交互新生態(tài),引領(lǐng)文本到 SQL 技術(shù)邁向智能協(xié)作新時(shí)代,為各行業(yè)數(shù)據(jù)管理與利用帶來(lái)革命性變革。

5.結(jié)論

本文對(duì)大語(yǔ)言模型增強(qiáng)的文本到 SQL 生成技術(shù)展開(kāi)全景式綜述,系統(tǒng)梳理其發(fā)展脈絡(luò)、技術(shù)分類、評(píng)估體系與研究挑戰(zhàn)。傳統(tǒng)方法奠定技術(shù)根基,從早期模板規(guī)則演進(jìn)至深度學(xué)習(xí)架構(gòu)優(yōu)化;提示工程為模型注入靈活應(yīng)變能力,零樣本快速探索、少樣本精準(zhǔn)學(xué)習(xí)、思維鏈深度推理各擅勝場(chǎng);微調(diào)技術(shù)平衡通用與專用,全參數(shù)微調(diào)追求極致精度、參數(shù)高效微調(diào)兼顧成本效率;任務(wù)訓(xùn)練塑造專業(yè)模型,混合專家協(xié)同分工、Transformer 架構(gòu)創(chuàng)新驅(qū)動(dòng);LLM 智能體框架開(kāi)啟智能協(xié)作新紀(jì)元,多智能體協(xié)同攻克復(fù)雜查詢難題。評(píng)估指標(biāo)與豐富數(shù)據(jù)集為技術(shù)演進(jìn)精準(zhǔn)導(dǎo)航、提供成長(zhǎng)養(yǎng)分,從單域?qū)iL(zhǎng)培育到跨域復(fù)雜挑戰(zhàn),再到增強(qiáng)數(shù)據(jù)魯棒性錘煉,全方位推動(dòng)技術(shù)成熟。展望未來(lái),持續(xù)深化提示工程策略、創(chuàng)新微調(diào)優(yōu)化路徑、拓展智能體協(xié)作潛能,將提升模型性能、拓展應(yīng)用邊界,推動(dòng)文本到 SQL 技術(shù)在智能數(shù)據(jù)交互領(lǐng)域持續(xù)創(chuàng)新,深度賦能各行業(yè)數(shù)字化轉(zhuǎn)型,解鎖海量數(shù)據(jù)潛藏價(jià)值,以智能數(shù)據(jù)語(yǔ)言交互驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新與決策優(yōu)化,引領(lǐng)智能時(shí)代數(shù)據(jù)管理與利用新潮流。

論文地址:??https://arxiv.org/pdf/2410.06011??

Large Language Model Enhanced Text-to-SQL Generation: A Survey  

原文鏈接:https://www.yuque.com/u21774036/qnmlr1/oqbgit10n67zl9q4?singleDoc# 《大語(yǔ)言模型增強(qiáng)的文本到 SQL 生成:綜述》

本文轉(zhuǎn)載自??AIGC前沿技術(shù)追蹤??,作者:AIGC前沿技術(shù)追蹤


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产精品传媒在线观看| 久久人人妻人人人人妻性色av| 免费黄色在线| 国产91精品精华液一区二区三区| 777午夜精品福利在线观看| 少妇人妻好深好紧精品无码| 国产精一区二区| 欧美午夜激情在线| 国产资源第一页| 可以在线观看的黄色| 精品一区二区国语对白| 91精品国产高清久久久久久久久 | 一区二区网站| 欧美伊人久久大香线蕉综合69| 五月天激情图片| 久色视频在线| 成人免费黄色在线| 成人av在线亚洲| 日日摸天天添天天添破| 亚洲乱码在线| 国产一区二区三区视频在线观看| 亚洲av无码专区在线播放中文| jvid一区二区三区| 精品毛片三在线观看| 7777在线视频| 尤物在线视频| 久久久久久久网| 国产精品大全| 国产日韩欧美视频在线观看| 日韩综合小视频| 69av在线视频| 日韩精品一区二区三区国语自制| 国产国产精品| 在线视频欧美日韩| 国产精品一二三区在线观看| 国产精品jk白丝蜜臀av小说| 日韩丝袜情趣美女图片| 亚洲欧美aaa| 日本一区二区电影| 欧美性猛交xxxx久久久| 久久99中文字幕| 好吊日av在线| 亚洲综合999| 亚洲av首页在线| 午夜在线视频| 国产精品日日摸夜夜摸av| 欧美一区观看| 精品资源在线看| 99这里都是精品| 狠狠色狠狠色综合人人| 黄色片一区二区| 国产91丝袜在线观看| 91免费在线观看网站| av免费在线观看不卡| 精品一区二区日韩| 成人欧美在线观看| 99热这里只有精品在线| 国产一区二区精品久久91| 成人黄色免费片| 国产农村妇女毛片精品| 久久99久久99小草精品免视看| 国产美女久久精品| 一卡二卡在线观看| 国产一区福利在线| 国产另类自拍| 欧美婷婷久久五月精品三区| 久久蜜臀中文字幕| 亚洲a∨一区二区三区| av网站在线免费观看| 亚洲欧洲一区二区三区| 国产精品88久久久久久妇女| 日本高清在线观看| 亚洲国产成人va在线观看天堂| av高清在线免费观看| 狼人综合视频| 欧美午夜精品久久久久久孕妇| 婷婷免费在线观看| 欧美电影在线观看一区| 亚洲成人av在线播放| 国产网站无遮挡| 国产va免费精品观看精品视频| 在线视频亚洲欧美| 精品99久久久久成人网站免费| 91久久黄色| 国产成人免费av| 国产jzjzjz丝袜老师水多| 成人黄色综合网站| 日本一区二区在线视频观看| 暖暖日本在线观看| 亚洲电影在线免费观看| 麻豆传传媒久久久爱| 91麻豆精品国产综合久久久| 亚洲精品久久久久| 妖精视频在线观看免费| 国产一区二区中文| 青青草原成人在线视频| 国产精品女同一区二区| 成+人+亚洲+综合天堂| 日韩影视精品| 国产精品偷拍| 欧美视频完全免费看| 久久精品aⅴ无码中文字字幕重口| 国产一区二区三区电影在线观看| 另类色图亚洲色图| 黄色片视频免费| 国产成人aaa| 亚洲bbw性色大片| 美女网站在线看| 欧美一区二区三区四区久久 | 中文字幕一区日韩精品欧美| 欧美一级视频免费看| 色综合久久久| 亚洲欧美国产精品va在线观看| 性色av无码久久一区二区三区| 欧美亚洲一区| 成人在线观看网址| 黄色网页网址在线免费| 一本到一区二区三区| 亚洲丝袜在线观看| 日韩理论电影院| 亲子乱一区二区三区电影| 丰满人妻一区二区三区免费视频 | 国产成人精品一区二三区| 激情综合网最新| 日韩激情久久| 成人性生活视频| 亚洲激情在线观看视频免费| 极品美妇后花庭翘臀娇吟小说| 久久午夜视频| 精品无码久久久久国产| 91白丝在线| 精品国产一区二区三区久久影院 | 国产交换配乱淫视频免费| 韩日精品在线| 99国产超薄丝袜足j在线观看 | 女人高潮一级片| 国产尤物久久久| 日本高清+成人网在线观看| 黄色片一区二区三区| 一区二区三区视频在线看| 一道本在线免费视频| 欧美女优在线视频| 97超碰色婷婷| 毛片免费在线观看| 色天天综合久久久久综合片| 素人fc2av清纯18岁| 亚洲精品精选| 久久大片网站| 美女一区网站| 亚洲人成电影在线| 人人爽人人爽人人片av| 国产婷婷精品av在线| 国产黄色特级片| 国产精品一线天粉嫩av| 国产精欧美一区二区三区| 色视频在线看| 91久久精品一区二区二区| 蜜桃无码一区二区三区| 日韩高清在线观看| 亚洲一区二区在线看| 日韩有码欧美| 欧美激情三级免费| 香蕉视频网站在线| 一本大道av伊人久久综合| 国产又大又粗又爽的毛片| 青青青爽久久午夜综合久久午夜| 永久久久久久| av男人一区| 欧美在线视频免费| 成a人片在线观看www视频| 欧美色窝79yyyycom| 成人在线观看高清| 成人在线综合网站| 久久无码高潮喷水| 欧美一区2区| 2022国产精品| 美女av在线免费看| 国产午夜精品视频| 国产黄频在线观看| 精品国产999| 国产一区二区三区四区在线| 久久69国产一区二区蜜臀| 三级在线免费观看| 少妇久久久久| 成人免费网站在线| 国产美女高潮在线| 国产亚洲欧美日韩精品| 国产三级三级在线观看| 污片在线观看一区二区| 中文字幕伦理片| 丰满亚洲少妇av| 欧美一级黄色片视频| 亚洲色图88| 久久手机视频| 国产精品免费精品自在线观看| 97av视频在线| 成人短视频在线| 亚洲欧美精品伊人久久| 国产特级黄色片| 色婷婷亚洲婷婷| 久久久久黄色片| 国产日韩欧美不卡在线| 黑人巨大猛交丰满少妇| 日韩中文欧美在线| 青青视频免费在线观看| 国产免费播放一区二区| 国产69精品久久久久9999apgf| 日韩三级影视| 久久久久久久91| 男人天堂久久久| 国产视频精品久久久| a级片免费观看| 欧美亚日韩国产aⅴ精品中极品| 国产一级中文字幕| 亚洲欧洲精品成人久久奇米网| www.免费av| 成人国产精品视频| 亚洲在线观看网站| 蜜臀久久久久久久| 黄色片一级视频| 国产情侣久久| 韩日视频在线观看| 中文一区一区三区免费在线观看| 色噜噜狠狠一区二区三区| 色狼人综合干| 精品无人区一区二区三区| 亚洲精品国产九九九| 91久久久国产精品| 欧美成人三级| 国产欧美日韩免费看aⅴ视频| 免费看av不卡| 2019亚洲男人天堂| www.综合网.com| 欧美激情免费观看| 国模雨婷捆绑高清在线| 欧美精品亚州精品| bt在线麻豆视频| 欧美xxxx综合视频| 在线观看男女av免费网址| 久久久精品久久久久| 秋霞a级毛片在线看| 中文字幕亚洲一区在线观看 | 国产欧美综合在线| 在线免费观看麻豆| 久久久不卡网国产精品一区| jizz日本免费| 久久亚洲一级片| 熟女俱乐部一区二区| 久久久久久99久久久精品网站| aa片在线观看视频在线播放| 91亚洲永久精品| 欧美激情aaa| 久久精品欧美日韩精品| 一级片手机在线观看| 中文在线一区二区| 婷婷国产成人精品视频| 成人免费在线观看入口| 农村妇女精品一区二区| 亚洲一区二区在线免费看| 国产在线一区视频| 欧美午夜片在线免费观看| 无码人妻久久一区二区三区不卡| 91国内精品野花午夜精品| 中文在线免费观看| 欧美高清www午色夜在线视频| 国产美女明星三级做爰| 日韩欧美一二区| 性xxxxbbbb| 最近2019中文字幕第三页视频| 九色porny在线| 欧美激情视频网站| 亚洲精品mv| 91午夜在线播放| 久久人人爽人人爽人人片av不| 欧美激情专区| 天天插综合网| 无码人妻丰满熟妇区96| 日韩精品国产欧美| 久久精品无码一区二区三区毛片| 国产**成人网毛片九色 | 国产黄色高清视频| 亚洲国产欧美久久| yjizz视频网站在线播放| 日韩色av导航| a'aaa级片在线观看| 日韩免费精品视频| 国产精品美女久久久久人| 精品欧美国产| 888久久久| 国产精品秘入口18禁麻豆免会员| 日本不卡一区二区| 少妇伦子伦精品无吗| 久久免费国产精品| 99热精品免费| 色妞www精品视频| www.日韩在线观看| 亚洲人a成www在线影院| 亚洲卡一卡二| 国产精品麻豆va在线播放| 国产+成+人+亚洲欧洲在线| 亚洲成人自拍视频| 国产精品毛片一区二区三区| 国产欧美精品一二三| 久久精品在线观看| 国产亚洲欧美久久久久| 欧美日韩一区三区四区| 婷婷在线观看视频| 久久国产精品偷| www.26天天久久天堂| 久久久久久久久久久久久久久久av| 亚洲影视一区二区三区| 天美星空大象mv在线观看视频| 99在线热播精品免费| 极品盗摄国产盗摄合集| 精品视频1区2区3区| 天堂网av2014| 欧美福利视频网站| 一区二区三区日本视频| 日韩久久久久久久| 麻豆91精品| 人妻在线日韩免费视频| 亚洲影视在线观看| 国产人妻精品一区二区三| 在线丨暗呦小u女国产精品| 亚洲风情在线资源| 精品国产综合区久久久久久| 国产一区观看| 丰满人妻一区二区三区大胸 | 狠狠久久综合| 日本一区视频在线| 亚洲免费在线| 熟女人妻在线视频| 狠狠爱在线视频一区| 欧美视频xxx| 久久久久久香蕉网| 视频在线观看免费影院欧美meiju| 亚洲天堂av免费在线观看| 蜜桃视频免费观看一区| 久久久精品成人| 欧美日韩国产天堂| 香蕉视频在线免费看| 国产在线精品自拍| 7777久久香蕉成人影院| 亚洲综合伊人久久| 亚洲久本草在线中文字幕| 国产区精品在线| 欧美国产日韩中文字幕在线| 日本高清久久| 97视频在线免费| av成人免费在线| 黄色片网站在线免费观看| 国产视频精品久久久| 成人性生交大片免费观看网站| 日本黑人久久| 免费一级片91| 成人自拍小视频| 日韩小视频在线观看专区| 欧美性猛片xxxxx免费中国| 大波视频国产精品久久| 91久久在线| 成年人在线免费看片| 欧美日韩在线一区二区| 色视频在线免费观看| 亚洲sss综合天堂久久| 国产一在线精品一区在线观看| 日韩精品视频一区二区| 色偷偷88欧美精品久久久| 91在线视频免费看| 99在线看视频| 美女尤物久久精品| 九一在线免费观看| 日韩欧美一级二级三级久久久 | 91精品久久久久久久久久久久久| 亚洲xxx拳头交| 蜜臀av粉嫩av懂色av| 色视频成人在线观看免| 欧美尤物美女在线| 国产传媒一区| 日韩精品每日更新| 男人与禽猛交狂配| 日韩精品中文字幕久久臀| 国产精品伦一区二区| 欧美日韩不卡在线视频| 91免费看视频| 国产麻豆免费观看| 992tv在线成人免费观看| 蜜臀av一区| 一区二区免费av| 精品色蜜蜜精品视频在线观看| av电影在线观看| 97中文在线观看| 午夜在线视频一区二区区别| av黄色免费网站| 日韩网站在线看片你懂的| 黑人巨大精品| 黄色一级大片免费| 国产人成一区二区三区影院| 国产黄色一区二区| 日韩av高清不卡| 国产精品mv在线观看|