精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估

發(fā)布于 2025-5-23 06:49
瀏覽
0收藏

1.引言

1.1 研究背景與意義

在當(dāng)今數(shù)字化時代,數(shù)據(jù)的高效處理和利用至關(guān)重要。Text-to-SQL 作為自然語言處理和數(shù)據(jù)庫領(lǐng)域的關(guān)鍵技術(shù),旨在實現(xiàn)自然語言問題到 SQL 查詢的自動轉(zhuǎn)換,從而打破非專業(yè)用戶與數(shù)據(jù)庫系統(tǒng)之間的障礙,提高數(shù)據(jù)處理效率,拓展智能數(shù)據(jù)庫服務(wù)、自動數(shù)據(jù)分析和數(shù)據(jù)庫問答等應(yīng)用范圍。隨著人工智能技術(shù)的不斷發(fā)展,特別是大型語言模型(LLMs)的出現(xiàn),為 Text-to-SQ 任務(wù)帶來了新的機(jī)遇和挑戰(zhàn)。

1.2 現(xiàn)有研究的不足

盡管 Text-to-SQ 研究取得了一定進(jìn)展,但仍存在諸多問題。以往研究主要集中在提取問題到 SQL 的模式并通過訓(xùn)練編解碼器模型進(jìn)行泛化,而對于基于 LLM 的Text-to-SQ 解決方案,核心的提示工程問題缺乏系統(tǒng)研究。具體表現(xiàn)為:在問題表示方面,現(xiàn)有研究雖有多種方式,但缺乏對不同表示及其與 LLMs 配合效果的系統(tǒng)分析;在示例選擇和組織上,策略多樣但最優(yōu)選擇不明確;此外,開源 LLMs 在 Text-to-SQ 中的潛力未得到充分挖掘,且提示效率問題也亟待解決。

2.預(yù)備知識

2.1 Text-to-SQL 的發(fā)展脈絡(luò)

Text-to-SQL 的研究歷程涵蓋了多個階段和方法。早期研究采用預(yù)定義規(guī)則或查詢枚舉的方式,之后將其視為序列到序列任務(wù),利用編碼器 - 解碼器架構(gòu)訓(xùn)練機(jī)器學(xué)習(xí)模型。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,諸如注意力機(jī)制、圖表示、語法解析等眾多技術(shù)被應(yīng)用于 Text-to-SQ 任務(wù),其中 BERT 是具有代表性的模型之一。近年來,隨著 LLMs 的興起,Text-to-SQ 研究進(jìn)入新的階段。LLMs 通過在大規(guī)模文本語料上預(yù)訓(xùn)練,能夠執(zhí)行多種自然語言任務(wù),其在 Text-to-SQ 中的應(yīng)用核心在于找到最優(yōu)提示,即提示工程。本文提出的 DAIL-SQL 從問題表示、上下文學(xué)習(xí)、監(jiān)督微調(diào)三個方面來實現(xiàn) T2SQL。

2.2 關(guān)鍵概念定義

2.2.1 問題表示

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

在零樣本場景下的 Text-to-SQL 中,問題表示的目標(biāo)是在給定數(shù)據(jù)庫  D 上,對于自然語言目標(biāo)問題  q,最大化 LLM  M  生成正確 SQL ??? 的可能性。這需要綜合考慮數(shù)據(jù)庫模式等有用信息,以及可能的指令語句、規(guī)則暗示和外鍵信息等,通過函數(shù)??(?,?) 來實現(xiàn)。

2.2.2 上下文學(xué)習(xí)

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

在少樣本場景下,上下文學(xué)習(xí)是 LLMs 從輸入提示中的示例學(xué)習(xí)的過程。它包括示例選擇和示例組織兩個關(guān)鍵環(huán)節(jié),目標(biāo)是在目標(biāo)問題 q 和數(shù)據(jù)庫 D 上,最大化 LLM M 生成正確 SQL ??? 的可能性,同時考慮從給定的示例集合 Q 中選擇 k 個示例,并通過函數(shù)??(?,?,?) 進(jìn)行表示。

2.2.3 監(jiān)督微調(diào)

監(jiān)督微調(diào)是使用額外的任務(wù)特定訓(xùn)練數(shù)據(jù)來增強(qiáng) LLMs,使其更適合特定下游任務(wù)的方法。對于 Text-to-SQ 任務(wù),給定一個大型語言模型 M 和一組 Text-to-SQ 訓(xùn)練數(shù)據(jù) T,目標(biāo)是最小化經(jīng)驗損失,包括對給定 LLM 進(jìn)行微調(diào)以及尋找最優(yōu)問題表示兩個子任務(wù)。

3.方法

3.1 問題表示方法探究

3.1.1 現(xiàn)有方法對比

基本提示(BS??):以清單 1 中所示,一種簡單的表示方法,由表 schemas 組成、以 Q 為前綴的自然語言問題 和以 A 為前綴 : SELECT 提示 LLM 生成 SQL。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

文本表示提示(TR??):如清單 2 所示,用自然語言表示模式和問題,并在開頭添加指令,引導(dǎo) LLMs。在零樣本場景下對 Spider - dev 的執(zhí)行準(zhǔn)確率為 69.0%。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

OpenAI 演示提示(OD??):如清單 2 所示,由指令、schema 和問題組成,所有信息用 #注釋,指令更具體,例如 “僅需完成的sqlite SQL查詢語句,無需提供說明。”。它在不同 LLMs 上有不同表現(xiàn),在某些情況下能取得較好的性能。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

代碼表示提示(CR??):如清單 4 所示,以 SQL 語法呈現(xiàn) Text-to-SQ 任務(wù),直接呈現(xiàn)  CREAT TABLE 建表語句,并在注釋中給出自然語言問題。它能提供全面的數(shù)據(jù)庫創(chuàng)建信息,如列類型和主 / 外鍵,對 LLM CODE - DAVINCI - 002 的準(zhǔn)確率較達(dá)到了 75.6% 。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

Alpaca SFT 提示(AS??):如清單 5 所示,為監(jiān)督微調(diào)設(shè)計的提示,以 Markdown 格式提示 LLM 根據(jù)輸入上下文完成任務(wù)。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

3.1.2 實驗結(jié)果與分析

(1)通過在 zero-shot 零樣本 場景下對 Spider-dev 數(shù)據(jù)集的實驗(圖 1),比較不同問題表示方法在不同 LLMs 上的性能。結(jié)果顯示,不同 LLMs 對問題表示方法有不同偏好。例如,OD??適合多種 LLMs,在 GPT-3.5-Turbo 上執(zhí)行準(zhǔn)確率達(dá)到75.5%;而 AS??在 GPT-3.5-Turbo、TEXT-DAVINCI-003 和 Vicuna-33B 上表現(xiàn)較差。GPT-4 對簡單的 BS?? 有偏好,這表明強(qiáng)大的 LLM 可能會減輕表示設(shè)計的復(fù)雜性。綜合不同 LLMs 的平均性能,GPT-4 和 GPT-3.5-Turbo  在零樣本場景下能力較強(qiáng)。因此,對于零樣本場景,GPT-3.5-Turbo  和 OD?? 可能是較好的選擇;對于較弱的 LLMs,如 TEXT-DAVINCI- 003 和 Vicuna-33B,OD?? 和 CR?? 更優(yōu)。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

(2)消融研究進(jìn)一步探討了外鍵(FK)和規(guī)則暗示(RI)對性能的影響。

  • 外鍵暗示不同關(guān)系表之間的關(guān)系,在 Text-to-SQL 任務(wù)中可能有幫助。只有 CR?? 包含外鍵信息,通過在其他表示中添加外鍵信息并在 Spider-dev 上進(jìn)行評估(圖 2),發(fā)現(xiàn)外鍵能顯著提高多數(shù) LLMs 的執(zhí)行準(zhǔn)確率,但對某些組合有負(fù)面影響。例如,外鍵使 BS??的執(zhí)行準(zhǔn)確率提高了 5.0%,但對 OD??和 AS??的性能有不利影響。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

  • 受 OD?? 性能的啟發(fā),研究規(guī)則暗示的影響。通過在不同表示中加入 “沒有解釋” 規(guī)則暗示并進(jìn)行消融研究(圖 3),發(fā)現(xiàn)添加該規(guī)則能一致提高所有 LLMs 在精確集匹配和執(zhí)行準(zhǔn)確率方面的性能,其中最顯著的改進(jìn)分別超過 6% 和 3%。而對于 OD??,移除該規(guī)則會導(dǎo)致精確集匹配準(zhǔn)確率下降 2.4% - 6.2%,執(zhí)行準(zhǔn)確率下降 1.3% - 2.4%,表明該規(guī)則暗示的重要性。同時,對另一種規(guī)則暗示 “Let’s think step by step” 進(jìn)行測試,發(fā)現(xiàn)其在 Text-to-SQ 任務(wù)中的性能高度不穩(wěn)定。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

3.2 上下文學(xué)習(xí)的關(guān)鍵要素

上述問題表示方法使 LLM 能夠直接通過 zero-shot 零樣本學(xué)習(xí)輸出所需的 SQL。但是 LLM 還可以通過上下文學(xué)習(xí),在文本中輸入少量的示例,使其在文本到 SQL 方面表現(xiàn)的更好。因此,在本小節(jié)中,我們將討論上下文的關(guān)鍵學(xué)習(xí),即示例選擇和示例組織。我們首先給出上下文學(xué)習(xí)的方案,以進(jìn)一步進(jìn)行討論。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

3.2.1 示例選擇

隨機(jī)選擇:隨機(jī)從可用候選示例中選取 k 個示例,是示例選擇的一種基線方法。

問題相似性選擇(QTS??):選擇 k 個與目標(biāo)問題最相似的示例,通過將示例問題和目標(biāo)問題嵌入預(yù)訓(xùn)練語言模型,應(yīng)用距離度量方法選擇示例。

掩碼問題相似性選擇(MQS??):針對跨域 Text-to-SQ,通過用掩碼標(biāo)記替換表名、列名和值來消除特定領(lǐng)域信息的負(fù)面影響,然后計算嵌入相似度選擇示例。

查詢相似性選擇(QRS??):不使用目標(biāo)問題,而是旨在選擇 k 個與目標(biāo) SQL 查詢相似的示例。通過初步模型生成近似的 SQL 查詢,然后根據(jù)關(guān)鍵詞將示例查詢編碼為二進(jìn)制離散語法向量,綜合考慮相似度和多樣性選擇示例。

指出在示例選擇時應(yīng)綜合考慮問題和 SQL 查詢,因為根據(jù)上下文學(xué)習(xí)的本質(zhì)是從類比中學(xué)習(xí),在 Text-to-SQ 任務(wù)中需要生成與給定問題匹配的查詢,所以 LLMs 應(yīng)該學(xué)習(xí)從問題到 SQL 查詢的映射。

3.2.2 示例組織

全信息組織(FI??):如清單 6 所示,組織示例的方式與目標(biāo)問題相同,包含完整信息,包括指令、模式、問題和對應(yīng)的 SQL 查詢,僅在結(jié)尾的 “SELECT” 處與目標(biāo)問題有所不同,此處為對應(yīng)的 SQL 查詢。這種方式保證了質(zhì)量,但可能在數(shù)量上受限。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

僅 SQL 組織(SO??):如清單 7 所示,只包含所選示例的 SQL 查詢,并在提示中有前綴指令。這種方式旨在最大化示例數(shù)量,但丟失了問題與 SQL 查詢的映射信息,而該信息可能是有用的。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

提出一種新的示例組織策略 DAIL - SQL 的示例組織(DAIL??),它呈現(xiàn)問題和相應(yīng)的 SQL 查詢,作為 FI??和 SO??的折衷,保留問題-SQL 映射,同時減少示例的標(biāo)記長度,通過去除標(biāo)記成本較高的數(shù)據(jù)庫模式來實現(xiàn)。

3.3 DAIL-SQL 的創(chuàng)新方法

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

示例選擇(DAIL??):綜合考慮問題和查詢來選擇候選示例。首先在目標(biāo)問題??和候選集 Q 中的示例問題????中掩碼特定領(lǐng)域的單詞,然后根據(jù)掩碼后的問題嵌入的歐幾里得距離對候選示例進(jìn)行排序,同時計算預(yù)預(yù)測的 SQL 查詢??′與 Q 中的????的查詢相似性,最后根據(jù)問題相似性和查詢相似性大于預(yù)定義閾值??的標(biāo)準(zhǔn)選擇示例,使得所選的 k 個示例在問題和查詢方面都有良好的相似性。

示例組織(DAIL??):呈現(xiàn)問題和相應(yīng)的 SQL 查詢,保留問題 - SQL 映射,同時減少示例的標(biāo)記長度。通過去除標(biāo)記成本較高的數(shù)據(jù)庫模式來實現(xiàn),既保證了質(zhì)量又考慮了數(shù)量。

3.4 監(jiān)督微調(diào)的應(yīng)用與探索

為了提高大型語言模型在零樣本場景下的性能,現(xiàn)有的文本到 SQL 方法中流行的選擇是上下文學(xué)習(xí),這在上述小節(jié)中進(jìn)行了討論。作為一種替代但有前途的選擇,有監(jiān)督微調(diào)目前探索較少。與針對各種語言任務(wù)的有監(jiān)督微調(diào)類似,我們可以將其應(yīng)用于文本到 SQL 領(lǐng)域,并提高大型語言模型在這個下游任務(wù)上的性能。為了進(jìn)一步了解有監(jiān)督微調(diào)在文本到 SQL 中的作用,我們首先提供如下簡要公式。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

3.4.1 公式及原理

對于 Text-to-SQ 任務(wù),給定一個大型語言模型 M 和一組 Text-to-SQ 訓(xùn)練數(shù)據(jù)  

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

,監(jiān)督微調(diào)的目標(biāo)是最小化經(jīng)驗損失。其中,???? 和 ???? 分別是自然語言問題和其在數(shù)據(jù)庫????上的對應(yīng)查詢,通過最小化損失函數(shù) L 來衡量生成查詢與真實查詢之間的差異。監(jiān)督微調(diào)包括兩個子任務(wù):對給定 LLM 進(jìn)行微調(diào)以及尋找最優(yōu)問題表示,這與問題表示部分相關(guān)聯(lián)。

3.4.2 數(shù)據(jù)準(zhǔn)備和微調(diào)過程

從給定的 Text-to-SQ 數(shù)據(jù)集中生成提示 - 響應(yīng)對進(jìn)行微調(diào)。具體而言,給定數(shù)據(jù)集

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

,將目標(biāo)問題和給定數(shù)據(jù)庫作為提示,將期望的查詢作為 LLM 的響應(yīng),即生成 T ={(???? = ??(????, ????), ???? = ????)}。根據(jù)計算資源情況,可以選擇全微調(diào)或參數(shù)高效微調(diào)。例如,在有足夠計算資源時可選擇全微調(diào),否則可選擇參數(shù)高效微調(diào)。

3.4.3 開源 LLMs 的監(jiān)督微調(diào)研究

(1)選擇 LLaMA 及其對齊變體作為研究對象,包括 LLaMA - 7B、LLaMA - 13B、LLaMA - 33B、Falcon - 40B、Alpaca - 7B、GPT4ALL - 7B、Vicuna - 7B、Vicuna - 13B、Vicuna - 33B、LLaMA - 2 - CHAT - 7B、LLaMA - 2 - CHAT - 13B、LLaMA - 2 - CHAT - 70B 和 CodeLLaMA - 34B 等。

(2)在零樣本場景下,通過對不同開源 LLMs 在 Spider - dev 上的實驗(表 3),研究問題表示、模型規(guī)模和對齊對性能的影響。結(jié)果表明,CR??在不同開源 LLMs 上表現(xiàn)最佳,可能是因為其包含的全數(shù)據(jù)庫知識補(bǔ)償了開源 LLMs 的能力不足,或者刺激了 LLMs 的編碼能力。從模型規(guī)模來看,LLaMA 和 Vicuna 的模型規(guī)模與性能呈正相關(guān),例如 LLaMA - 2 - CHAT - 70B 隨著參數(shù)增多性能提高。從對齊角度看,對齊后的 LLMs 在 Text-to-SQ 任務(wù)中表現(xiàn)更好,例如 Vicuna 在相同模型規(guī)模下比 LLaMA 執(zhí)行準(zhǔn)確率高約 5%。Falcon - 40B 由于訓(xùn)練數(shù)據(jù)集中缺乏專用代碼數(shù)據(jù),表現(xiàn)較差。CodeLLaMA - 34B 通過精心收集的代碼數(shù)據(jù)在對齊階段表現(xiàn)出顯著的性能提升,盡管其參數(shù)只有 LLaMA - 2 - CHAT - 70B 的一半,但性能卻超過了后者,這凸顯了訓(xùn)練語料在 LLMs 中的重要性。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

(3)在少樣本場景下,以 LLaMA - 33B 和 Vicuna - 33B 為例,使用 CR??和 DAIL Selection 進(jìn)行實驗(圖 5)。結(jié)果表明,LLaMA - 33B 受益更多,在 5 - shot Full - Information Organization 示例下達(dá)到 36.4% 的精確集匹配準(zhǔn)確率。不同組織策略在不同 k - shot 場景下表現(xiàn)不同,F(xiàn)ull - Information Organization 在多數(shù)情況下表現(xiàn)較好。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

(4)監(jiān)督微調(diào)后,在零樣本場景下,開源 LLMs 的性能得到顯著提升(圖 6)。不同表示方法和模型規(guī)模之間的差距在微調(diào)后變窄,可能是因為微調(diào)后 LLMs 學(xué)會了在沒有任務(wù)指令和外鍵的情況下回答新的 Text-to-SQ 問題。在少樣本場景下,對微調(diào)后的 LLaMA - 7B 和 13B 進(jìn)行實驗(表 4)。結(jié)果表明,微調(diào)后的 LLMs 無法從示例中學(xué)習(xí),添加上下文示例反而導(dǎo)致精確集匹配和執(zhí)行匹配準(zhǔn)確率下降,這可能是因為 LLM 過度擬合零樣本提示,使得示例變得無用。

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

4.實驗

4.1 實驗設(shè)置

4.1.1 數(shù)據(jù)集選擇

使用了兩個被廣泛認(rèn)可的數(shù)據(jù)集:Spider 和 Spider - Realistic。Spider 是一個大規(guī)模的跨域 Text-to-SQ 數(shù)據(jù)集,包含 200 個數(shù)據(jù)庫的 8659 個訓(xùn)練實例和 1034 個開發(fā)實例,每個實例由一個特定數(shù)據(jù)庫上的自然語言問題及其對應(yīng)的 SQL 查詢組成。在本文中,使用開發(fā)集 Spider - dev 進(jìn)行評估。Spider - Realistic 是 Spider 的一個更具挑戰(zhàn)性的變體,它從 Spider - deV 中選擇了 508 個示例,并手動修改了問題,同時保持 SQL 查詢不變。在少樣本場景中,使用 Spider 的訓(xùn)練集作為示例候選集,用于在 Spider - dev 和 Spider - Realistic 上進(jìn)行測試。

4.1.2 評估指標(biāo)確定

采用精確集匹配準(zhǔn)確率(EM)和執(zhí)行準(zhǔn)確率(EX)作為評估指標(biāo)。精確集匹配準(zhǔn)確率衡量預(yù)測的 SQL 查詢與對應(yīng)的真實 SQL 查詢之間匹配的 SQL 關(guān)鍵詞數(shù)量,執(zhí)行準(zhǔn)確率則比較預(yù)測的 SQL 查詢在某些數(shù)據(jù)庫實例上的執(zhí)行輸出與真實 SQL 查詢的執(zhí)行輸出。這兩個指標(biāo)能夠更準(zhǔn)確地評估模型的性能,因為對于一個給定的問題可能存在多個有效的 SQL 查詢。

4.1.3 LLM 參數(shù)設(shè)置

為了確保公平比較,對所有方法使用相同的最大上下文長度,OpenAI LLM 為 4096,開源 LLM 為 2048。在評估過程中,預(yù)留 200 個標(biāo)記用于響應(yīng)生成。默認(rèn)情況下,將溫度參數(shù)設(shè)置為 0,以消除隨機(jī)性的影響。在處理響應(yīng)時,遵循現(xiàn)有工作,提取響應(yīng)中的第一個 SQL 查詢并去除額外的輸出。

4.2 問題表示實驗結(jié)果

4.2.1 零樣本場景評估

通過在零樣本場景下對 Spider - dev 數(shù)據(jù)集的實驗(圖 1),比較了不同問題表示方法在不同 LLMs 上的性能。結(jié)果表明,不同 LLMs 對問題表示方法的偏好不同,OD??在大多數(shù) LLMs 上表現(xiàn)較好,而 AS??在部分 LLMs 上表現(xiàn)較差。通過消融研究(圖 2、圖 3),進(jìn)一步探討了外鍵(FK)和規(guī)則暗示(RI)對性能的影響。外鍵在多數(shù)情況下能提高 LLMs 的執(zhí)行準(zhǔn)確率,但對某些組合有負(fù)面影響;規(guī)則暗示 “沒有給出任何解釋” 能顯著提高所有 LLMs 的性能,而另一種規(guī)則暗示 “讓我們一步一步地思考。” 性能不穩(wěn)定。綜合來看,OD??與外鍵和 GPT - 3.5 - TURBO 的組合在零樣本場景下是最有效和經(jīng)濟(jì)的。

4.2.2 消融實驗總結(jié)

對外鍵和規(guī)則暗示的消融實驗結(jié)果表明,它們對 Text-to-SQ 任務(wù)的性能有重要影響。外鍵信息對不同的問題表示方法和 LLMs 組合有不同的影響,而規(guī)則暗示 “沒有給出任何解釋” 在提高性能方面表現(xiàn)出一致性。這些結(jié)果為進(jìn)一步優(yōu)化問題表示方法提供了依據(jù)。

4.3 上下文學(xué)習(xí)實驗詳情

在少樣本場景下,我們使用 GPT-4、GPT-3.5-Turbo、TEXT-DAVINCI-003 和 Vicuna-33B 來檢驗不同的示例選擇和組織策略。

4.3.1 示例選擇實驗分析

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

在少樣本場景下,對不同示例選擇策略進(jìn)行了實驗(表 2)。通過計算問題和查詢的 Jaccard 相似度,并與目標(biāo)實例進(jìn)行比較,結(jié)果表明 DAIL??策略在大多數(shù)情況下優(yōu)于其他策略。同時,問題和查詢相似度越高,執(zhí)行準(zhǔn)確率越高,這進(jìn)一步強(qiáng)調(diào)了在示例選擇中同時考慮問題和查詢的重要性。

4.3.2 示例組織實驗解讀

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

在少樣本場景下,對不同示例組織策略進(jìn)行了實驗(圖 4)。結(jié)果表明,不同 LLMs 對不同示例組織策略有不同的偏好。例如,GPT-4 在 DAIL 組織下受益最大,其執(zhí)行準(zhǔn)確率在 Spider-dev 上從 72.3% 提高到 83.5%,在 Spider-Realistic 上從 66.5% 使得該組織方式對其效果較好。對于 GPT-3.5-Turbo 和 TEXT-DAVINCI-003,添加示例可能會導(dǎo)致執(zhí)行準(zhǔn)確率下降,這可能是由于它們的上下文學(xué)習(xí)能力有限。對于 Vicuna-33B 隨著示例數(shù)量的增加,其性能在 DAIL 組織下持續(xù)提高。綜合來看,DAIL 組織在某些情況下能夠取得較好的性能,并且對于具有較強(qiáng)上下文學(xué)習(xí)能力的 LLM,如 GPT-4 效果更為明顯。

4.4 監(jiān)督微調(diào)實驗成果

在這一部分中,我們研究文本到 SQL 的有監(jiān)督微調(diào)。由于對 OpenAI 大語言模型進(jìn)行微調(diào)的成本高得難以承受,我們專注于開源大語言模型。鑒于很少有現(xiàn)有工作采用開源大語言模型且它們的性能尚不清楚這一事實,我們首先對開源大語言模型進(jìn)行全面評估,采用各種問題表示、示例選擇和組織策略。之后,我們在文本到 SQL 中對開源大語言模型進(jìn)行微調(diào),并觀察它們在零樣本和少樣本場景下的性能提升。

4.4.1 開源 LLMs 實驗總結(jié)

在零樣本場景下,對不同開源 LLMs 進(jìn)行了實驗(表 3),分析了問題表示、模型規(guī)模和對齊對性能的影響。結(jié)果表明,CR??在不同開源 LLMs 上表現(xiàn)最佳,模型規(guī)模和對齊對性能有積極影響。在少樣本場景下,以 LLaMA - 33B 和 Vicuna - 33B 為例進(jìn)行實驗(圖 5),結(jié)果表明 LLaMA - 33B 受益更多,F(xiàn)ull - Information Organization 在不同 k - shot 場景下表現(xiàn)較好。在監(jiān)督微調(diào)方面,零樣本場景下監(jiān)督微調(diào)能顯著提升性能,不同表示方法和模型規(guī)模之間的差距在微調(diào)后變窄(圖 6)。少樣本場景下,微調(diào)后的 LLMs 無法從示例中學(xué)習(xí)(表 4)。

從實驗結(jié)果可以看出,開源 LLMs 在 Text-to-SQ 任務(wù)中具有一定的潛力,尤其是在監(jiān)督微調(diào)后,其性能在零樣本場景下有明顯提升,能夠與一些非開源的 LLMs 相媲美。然而,少樣本場景下的問題也不容忽視,這可能需要進(jìn)一步研究如何更好地利用示例信息,或者探索更合適的微調(diào)方法來解決。

4.4.2 標(biāo)記效率實驗探討

阿里 DAIL-SQL:大型語言模型支持的文本到 SQL:基準(zhǔn)評估-AI.x社區(qū)

強(qiáng)調(diào)了標(biāo)記效率在 Text-to-SQ 任務(wù)中的重要性,并對不同表示方法和組織策略進(jìn)行了標(biāo)記效率的實驗(圖 7)。在零樣本場景下,外鍵相關(guān)的提示在提高執(zhí)行準(zhǔn)確率的同時可能會消耗更多的標(biāo)記。在少樣本場景下,F(xiàn)I??組織方式效率較低,DAIL??在準(zhǔn)確性和效率方面優(yōu)于 SO??和 FI??。與其他先進(jìn)的 Text-to-SQ 方法相比,DAIL - SQL 在準(zhǔn)確性和效率上表現(xiàn)更優(yōu)。對于開源 LLMs,微調(diào)后的 LLMs 標(biāo)記效率有所提高,但添加示例可能會降低效率。

標(biāo)記效率的研究為實際應(yīng)用提供了重要的參考。在實際使用 LLMs 進(jìn)行 Text-to-SQ 任務(wù)時,需要考慮如何在保證性能的前提下,盡可能地減少標(biāo)記的使用,以提高效率和降低成本。DAIL - SQL 在這方面表現(xiàn)出了優(yōu)勢,為未來的研究和應(yīng)用提供了一個良好的方向。

5.討論

5.1 問題表示建議

推薦使用代碼表示提示(CR??)和 OpenAI 演示提示(OD??),因為它們在實驗中表現(xiàn)出較好的性能。同時,外鍵和規(guī)則暗示等信息對于問題表示也非常有幫助,可以進(jìn)一步提高性能。在實際應(yīng)用中,可以根據(jù)具體的 LLM 和任務(wù)需求,靈活選擇和組合這些方法,以達(dá)到最佳的效果。

5.2 示例選擇要點

強(qiáng)調(diào)在示例選擇中應(yīng)同時考慮自然語言問題和 SQL 查詢的相似性,這是設(shè)計有效示例選擇策略的關(guān)鍵因素。通過實驗證明,同時考慮這兩個因素的 DAIL??策略在大多數(shù)情況下優(yōu)于其他策略。未來的研究可以進(jìn)一步探索如何更準(zhǔn)確地衡量和利用這種相似性,以提高示例選擇的質(zhì)量。

5.3 示例組織策略

根據(jù)所采用的 LLM 的能力來選擇示例組織策略。如果 LLM 足夠強(qiáng)大,如 GPT - 4,呈現(xiàn)問題和 SQL 查詢對是一種有效且高效的選擇;否則,呈現(xiàn)全信息示例可能更為合適。這一結(jié)論為不同能力的 LLMs 在處理 Text-to-SQ 任務(wù)時提供了一種實用的指導(dǎo)原則,有助于提高任務(wù)的處理效率和效果。

5.4 開源 LLM 的思考

指出擁有更多參數(shù)的 LLMs 對 Text-to-SQ 任務(wù)有益,但訓(xùn)練語料在其中起著更為關(guān)鍵的作用。監(jiān)督微調(diào)對于開源 LLMs 在 Text-to-SQ 任務(wù)中具有必要性且有很大的潛力。未來的研究可以進(jìn)一步探索如何更好地利用監(jiān)督微調(diào)技術(shù),提高開源 LLMs 的性能,同時也需要關(guān)注訓(xùn)練語料的質(zhì)量和多樣性,以充分發(fā)揮 LLMs 的潛力。

5.5 研究局限性分析

由于資源有限,只測試了兩種規(guī)則暗示,未來可以進(jìn)一步探索更多規(guī)則暗示以提高性能。只使用了 Spider 訓(xùn)練集對開源 LLMs 進(jìn)行微調(diào),額外的 Text-to-SQ 數(shù)據(jù)可能會進(jìn)一步增強(qiáng) LLMs。Spider 和 Spider - Realistic 中的數(shù)據(jù)庫可能不夠大,在面對大量表的 Text-to-SQ 任務(wù)時可能會出現(xiàn)新的挑戰(zhàn)。當(dāng)前的評估指標(biāo)優(yōu)先考慮正確性而非效率,未來可以進(jìn)一步研究如何促使 LLM 生成高效的 SQL 查詢。

這些局限性為未來的研究指明了方向。研究人員可以在規(guī)則暗示、數(shù)據(jù)使用、數(shù)據(jù)庫規(guī)模和評估指標(biāo)等方面進(jìn)行進(jìn)一步的探索和改進(jìn),以推動 Text-to-SQ 技術(shù)的不斷發(fā)展。

6.結(jié)論

6.1 研究總結(jié)

本文對基于 LLM 的 Text-to-SQ 任務(wù)進(jìn)行了系統(tǒng)的研究。通過對現(xiàn)有提示工程方法的系統(tǒng)比較,提出了一種新的集成解決方案 DAIL - SQL,該方案在 Spider 排行榜上取得了 86.6% 的執(zhí)行準(zhǔn)確率,刷新了紀(jì)錄。在問題表示方面,深入研究了不同的表示方法及其組成部分對性能的影響;在上下文學(xué)習(xí)方面,提出了 DAIL - SQL 的示例選擇和組織方法,強(qiáng)調(diào)了同時考慮問題和查詢的重要性;在監(jiān)督微調(diào)方面,展示了開源 LLMs 在 Text-to-SQ 任務(wù)中的潛力,同時也指出了微調(diào)后可能出現(xiàn)的問題,如在少樣本場景下無法從示例中學(xué)習(xí)。此外,還強(qiáng)調(diào)了標(biāo)記效率在提示工程中的重要性,并通過實驗證明了 DAIL - SQL 在準(zhǔn)確性和效率方面的優(yōu)勢。

6.2 未來研究方向

然而,本文也存在一些局限性,未來的研究可以進(jìn)一步探索更多規(guī)則暗示、使用更多的 Text-to-SQ 數(shù)據(jù)、應(yīng)對更大規(guī)模的數(shù)據(jù)庫以及優(yōu)化評估指標(biāo)以提高 Text-to-SQ 任務(wù)的性能。這些方向?qū)⒂兄谶M(jìn)一步完善 Text-to-SQ 技術(shù),使其在實際應(yīng)用中發(fā)揮更大的作用。

總之,本文為 Text-to-SQ 任務(wù)的進(jìn)一步研究提供了全面的理論基礎(chǔ)和實踐指導(dǎo),希望能夠激發(fā)更多的研究人員關(guān)注和參與到這一領(lǐng)域的研究中來,共同推動 Text-to-SQ 技術(shù)的不斷發(fā)展。

論文地址:https://arxiv.org/pdf/2308.15363

Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

代碼地址:https://github.com/BeachWang/DAIL-SQL

原文鏈接:https://www.yuque.com/u21774036/qnmlr1/ilxxsoh26grbafe4

本文轉(zhuǎn)載自????AIGC前沿技術(shù)追蹤????,作者:AIGC前沿技術(shù)追蹤

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
中文国产成人精品| 欧美在线视频你懂得| 国产乱码精品一区二区三区中文| 五月天婷婷久久| 日韩欧美综合| 日韩欧美国产一二三区| 熟女少妇在线视频播放| av在线1区2区| 成人av电影在线播放| 青青草成人在线| 777777国产7777777| 日韩高清三区| 5566中文字幕一区二区电影| 女人和拘做爰正片视频| 福利在线视频网站| 久久精品欧美一区二区三区不卡| 成人在线免费观看一区| 一级一级黄色片| 国产一区二区三区四区三区四| 国产亚洲欧洲高清| 99re这里只有| 久久69av| 欧美精选在线播放| 成年人免费在线播放| 日本高清成人vr专区| 国产日韩欧美高清| 久久精品一区二区三区不卡免费视频| 91影院在线播放| 日韩经典中文字幕一区| 性欧美激情精品| 中文字幕在线有码| 日韩精品久久| 一个人看的www久久| 香蕉视频黄色在线观看| av成人综合| 91精品国产综合久久福利| 免费黄色一级网站| 黑人巨大精品| 欧美性极品xxxx做受| 成人手机在线播放| 老司机av在线免费看| 国产欧美精品一区| 日产国产精品精品a∨| 污视频在线免费| av中文字幕不卡| 韩国一区二区三区美女美女秀| 性猛交富婆╳xxx乱大交天津| 精品一二三四在线| 成人激情视频在线观看| 这里只有精品9| 捆绑调教美女网站视频一区| 国产精品美乳在线观看| 日本熟妇一区二区三区| 久久一区激情| 国产精品综合网站| 国产精品久久影视| 国产精品一区二区无线| 亚洲xxxxx| 91福利在线观看视频| 美女在线一区二区| 国产在线精品一区免费香蕉| 亚洲一区二区三区高清视频| 国产在线一区观看| av一区二区三区四区电影| 亚洲精品网站在线| jizz一区二区| 欧美乱偷一区二区三区在线| 成人jjav| 最新日韩av在线| 黄色网在线视频| 97人人在线视频| 欧美视频一区二区三区…| 日本xxxxxxx免费视频| 素人一区二区三区| 欧美一区二区在线观看| 男人的天堂影院| 沈樵精品国产成av片| 伊人亚洲福利一区二区三区| 亚洲综合图片一区| 午夜欧美精品久久久久久久| 97精品视频在线播放| 亚洲av无码精品一区二区| 久久超碰97人人做人人爱| 91精品天堂| 欧美日韩国产综合视频| 中文字幕亚洲欧美在线不卡| 国产美女永久无遮挡| 伊人久久av| 一区二区高清在线| 欧美牲交a欧美牲交aⅴ免费下载| 精品自拍视频| 亚洲成色999久久网站| 中字幕一区二区三区乱码| 亚洲精品小说| 秋霞av国产精品一区| 国产又粗又黄又爽的视频| 成人涩涩免费视频| 99国产视频在线| 韩日视频在线| 亚洲午夜精品久久久久久久久| 黄色免费网址大全| 亚洲高清999| 亚洲图中文字幕| 国产无码精品视频| 久久99精品久久久久久国产越南| 国产伦精品一区二区三区在线| 日本在线播放| 日韩欧美在线看| 国产乱国产乱老熟300部视频| 一区二区导航| 欧美高清第一页| 中文字幕在线播出| 91麻豆国产香蕉久久精品| 久久国产精品免费观看| 懂色aⅴ精品一区二区三区| 亚洲精品在线观看视频| 五月天免费网站| 久久精品道一区二区三区| 成人在线免费网站| 黄网在线观看| 欧美日韩中文字幕综合视频| 杨幂一区二区国产精品| 999久久久国产精品| 国产成人精品久久亚洲高清不卡 | 色婷婷综合久久久| 又大又长粗又爽又黄少妇视频| 成人综合久久| 国产福利成人在线| 青青草娱乐在线| 午夜精品福利一区二区三区av| 日日夜夜精品视频免费观看| 色999国产精品| 国产精品美女久久久久av超清| 日韩在线免费看| 亚洲成年人影院| 中国特级黄色片| 一本到12不卡视频在线dvd| 国产精品丝袜一区二区三区| 久热av在线| 一本色道久久综合狠狠躁的推荐 | 久久久久五月天| 91精品国自产| 亚洲欧洲成人自拍| 亚洲第一天堂久久| 欧美成人激情| 成人黄色在线播放| 国产黄色在线观看| 日韩一区二区三免费高清| 污软件在线观看| 国产在线一区二区| 裸体大乳女做爰69| 天堂va在线高清一区| 欧美激情中文字幕乱码免费| 韩国av在线免费观看| 亚洲第一福利视频在线| 国产精品久久久久久亚洲色| 亚洲激情一区| 欧美日韩一区二区视频在线| 日韩高清中文字幕一区二区| 一本一本久久a久久精品牛牛影视| 中文字幕乱码中文字幕| 国产精品久久久久影视| 拔插拔插华人永久免费| 国产精品啊v在线| 精品视频免费观看| 678在线观看视频| 亚洲欧洲在线观看| 中文字幕无码乱码人妻日韩精品| 中文字幕五月欧美| 制服丝袜av在线| 久久精品日产第一区二区| 日韩视频在线播放| 亚洲精品大片| 久久久久亚洲精品成人网小说| 天堂在线资源库| 欧美在线短视频| 岛国毛片在线观看| av一区二区三区四区| 天堂av在线网站| 欧美精品啪啪| 女同一区二区| 成人免费91| 97碰在线观看| 亚洲成人三级| 亚洲精品在线电影| 国产精品熟女视频| 亚洲精品国产成人久久av盗摄| 国产激情视频网站| 麻豆91精品91久久久的内涵| 国产自产在线视频| 波多野结衣在线观看一区二区三区| 92看片淫黄大片看国产片| 蜜臀久久精品| 久久精品人人做人人爽| 婷婷丁香一区二区三区| 欧美日韩一区小说| 日韩欧美中文字幕一区二区| 国产精品国产三级国产普通话三级 | 狼狼综合久久久久综合网| 欧美在线一级| 欧美一级视频免费在线观看| yellow91字幕网在线| 亚洲精品一区中文字幕乱码| 国产精品无码一区二区桃花视频| 欧美色播在线播放| 久久久久久久久久久网| 国产精品丝袜一区| 中文在线一区二区三区| 国产一区二区三区香蕉| 欧美午夜性生活| 一本一道久久综合狠狠老精东影业| 一区二区三区国| 久久99精品久久久久久园产越南| 91传媒视频免费| 高清av一区| 国产99久久精品一区二区 夜夜躁日日躁| 黄网站在线播放| 尤物九九久久国产精品的分类| 蜜桃av中文字幕| 日韩一区二区三区在线视频| 国产午夜无码视频在线观看| 精品日韩美女的视频高清| 国产女人被狂躁到高潮小说| 亚洲欧洲一区二区在线播放| 在线观看日本中文字幕| 99国产精品久| 99久久久无码国产精品性波多 | 国产一区喷水| 在线播放一区二区精品视频| 成人a免费视频| 精品久久毛片| 国产精品一区久久久| 欧美xxxx做受欧美护士| 国产91精品网站| 欧美电影免费观看| 情事1991在线| 日韩性xxx| 国产a∨精品一区二区三区不卡| 精精国产xxxx视频在线播放| 97在线免费观看| sm久久捆绑调教精品一区| 久久久久免费精品国产| 欧美videos另类精品| 欧美成人激情视频| a级毛片免费观看在线| 精品中文字幕视频| 特级毛片在线| 久久久视频在线| 电影k8一区二区三区久久 | 亚洲欧美日韩国产yyy| 激情五月综合网| 日韩精品一区二区三区四区五区 | 国产精品视频免费| ass极品国模人体欣赏| 国产精品美女久久久久aⅴ| 永久免费av无码网站性色av| 国产精品人成在线观看免费| 国产在线观看免费视频软件| 最近中文字幕一区二区三区| 欧美人妻精品一区二区免费看| 亚洲精品视频一区| 久久精品国产亚洲av麻豆色欲| 亚洲国产一区在线观看| 中文字幕超碰在线| 欧美午夜精品久久久久久孕妇| 一区二区视频免费| 日韩午夜精品视频| 天天躁日日躁狠狠躁伊人| 亚洲精品视频免费| 成年人在线免费观看| 啊v视频在线一区二区三区 | www男人天堂| 久久综合久久综合九色| 99精品全国免费观看| 亚洲天堂免费看| 日韩欧美a级片| 欧美性色综合网| 成人激情四射网| 亚洲精品色婷婷福利天堂| freemovies性欧美| 欧美激情视频一区二区| 久久sese| 99re视频在线| 精品黄色一级片| 伊人再见免费在线观看高清版| 夜夜嗨一区二区| jizz欧美性11| 成人av在线播放网址| 丁香花五月婷婷| 夜夜嗨av一区二区三区四季av| 久久久久99精品成人片我成大片 | ass极品水嫩小美女ass| 久久综合色之久久综合| 国产黄在线免费观看| 欧美视频裸体精品| 精品人妻无码一区二区| 亚洲人午夜精品| 牛牛电影国产一区二区| 国产精品亚发布| 欧美调教在线| xxxxxx在线观看| 青青草97国产精品免费观看无弹窗版 | 成人性教育av免费网址| 91影视免费在线观看| 国产精品欧美在线观看| 久久综合久久网| 精品无人区卡一卡二卡三乱码免费卡| 国产人妻黑人一区二区三区| 亚洲视频免费看| 精人妻无码一区二区三区| 精品福利一二区| 成人免费高清| 国产精品视频在线观看| 国产一区二区亚洲| 2018中文字幕第一页| 激情久久五月天| 东方伊人免费在线观看| 欧美日韩国产黄| 丰满熟妇乱又伦| 成年人精品视频| 深夜日韩欧美| 亚洲精品国产精品国自产观看| 免费亚洲视频| av在线播放网址| 亚洲国产精品一区二区久久恐怖片 | 美女网站色91| 免费看污片网站| 欧美日韩色婷婷| 婷婷综合激情网| 97在线视频免费播放| 7777精品| www.av蜜桃| 国产超碰在线一区| 午夜69成人做爰视频| 制服.丝袜.亚洲.另类.中文| 免费黄色在线| 国产精品自产拍在线观| 爽成人777777婷婷| 污污动漫在线观看| 国产精品灌醉下药二区| 一区二区三区亚洲视频| 色妞一区二区三区| 亚洲aⅴ网站| 成人免费看片视频在线观看| 精品午夜久久福利影院 | 精品久久久久久中文字幕| 粉嫩小泬无遮挡久久久久久| 欧美激情一级精品国产| 都市激情亚洲| 男女视频网站在线观看| 91麻豆免费观看| 国产真人无遮挡作爱免费视频| 亚洲一级一级97网| 日本国产亚洲| 天天在线免费视频| 国产99久久久久| www.国产成人| 一区二区欧美日韩视频| 中文幕av一区二区三区佐山爱| 在线免费观看成人| 国产精品资源网| www日韩精品| 亚洲性视频网站| 99精品视频在线免费播放 | 免费黄色激情视频| 欧美一区二区三区免费视频| 超碰在线最新网址| 久中文字幕一区| 久久99精品国产.久久久久久| 男女性高潮免费网站| 亚洲国产私拍精品国模在线观看| 成人性生活视频| 正在播放精油久久| 成人午夜电影久久影院| 日韩欧美在线观看免费| www日韩欧美| 国产精品对白久久久久粗| 欧洲黄色一级视频| 中文字幕乱码日本亚洲一区二区 | 亚洲免费中文字幕| 亚洲精品乱码日韩| 国产视频在线观看网站| 91一区二区三区在线观看| 最新在线中文字幕| 欧美日本中文字幕| 欧美热在线视频精品999| 超碰91在线播放| 欧美丝袜第一区| av免费在线免费观看| 欧美一区二区三区在线播放| 国产自产视频一区二区三区| 西西44rtwww国产精品| 日韩视频免费大全中文字幕| 岛国精品一区| 国产成人黄色网址| 亚洲午夜免费电影| 精品美女在线观看视频在线观看| 久久久久se| 国内精品免费**视频| 国产免费一级视频|