精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG系列:切分優化 - 基于 Markdown 語法的文檔切分

人工智能
本文我們接著上篇文章解析轉換后的 Markdown 文件,介紹下基于 Markdown 語法的文檔切分方法。

引言

RAG系列:解析優化 - 不同文件類型統一轉換成Markdown一文中我們介紹了將不同文件類型統一解析轉換成 Markdown 文件的好處。本文我們接著這篇文章解析轉換后的 Markdown 文件,介紹下基于 Markdown 語法的文檔切分方法。

關于指標

RAG系列:系統評估 - 五個主流評估指標詳解一文中我們介紹了評估 RAG 系統的五個主流指標,從本文開始,我會根據不同優化階段來選擇要重點關注的指標,不必要每次都關注五個指標的表現,這樣可以讓我們的優化更聚焦,通過優化每個階段的重點指標,從而逐步優化系統的各個環節。

在不同優化階段需要重點關注的指標:

  • 問題優化:上下文召回率、答案正確性;
  • 切分優化:上下文召回率、上下文相關性、答案正確性;
  • 檢索優化:上下文召回率、上下文相關性、答案正確性;
  • 生成優化:答案忠實度、答案相關性、答案正確性。

代碼實踐

本文完整代碼地址[1]

基于換行符&空格等字符切分

在之前的示例中,我們用的切分方法是 langchainjs 的 RecursiveCharacterTextSplitter,這是默認推薦(常用)的切分方法。與簡單的基于字符計數或固定分隔符的分割方法不同,RecursiveCharacterTextSplitter 使用一種遞歸的方法來嘗試在多個級別的分隔符上進行分割,從而盡量保持文本的語義完整性。

RecursiveCharacterTextSplitter 默認分隔符序列是 ["\n\n", "\n", " ", ""],意味著它會先嘗試按段落分割,然后是句子,接著是單詞,最后是逐字符處理。

代碼實現:

async function splitDocuments_v50(docs) {
  const textSplitter = new RecursiveCharacterTextSplitter({
    chunkSize: 500, // 文本切分大小
    chunkOverlap: 50, // 文本切分重疊大小
  });
  const documents = await textSplitter.splitDocuments(docs);
  return documents;
}

使用該方法切分出來的文檔塊大小相對比較均勻,都比較接近設置的 chunkSize(500):

圖片

[379,425,396,376,425,206,495,400,248,299,304,335,314,484,485,425,474,479,352,378,441,443,460,400,398,211,481,346,307,476,414,358,494,480,412,367,383,485,421,407,494,487,334,448,493,397,443,410,400,388,460,492,423,55,484,498,488,422,485,414,382,361,431,157,482,485,192,271,332,424,150,456,410,427,491,477,379,202,461,456,48,39,494,235,474,407,405,248,472,473,134,351,407,102,491,413,486,478,210,495,476,163,383,421,406,486,431,224,488,488,93,487,442,388,496,169,487,485,361,412,468,357,421,362,489,445,468,251,495,477,101,202,498,211,494,328,470,422,332,246,295,393,264]

以下是我們用該方法對 《2024少兒編程教育行業發展趨勢報告.md》文件進行切分后的結果:

[
  {
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月\n\n## 少兒編程教育行業圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)",
},
{
    "pageContent":"![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)\n\n## 專家觀點\n\n### 【童程童美 CEO/孫瀅】\n\n? 當前,素質教育市場比較分散,但包括少兒編程教育在內的市場規模仍將繼續擴大。人工智能浪潮越大,人們越可能認識到通過素質教育發展孩子其他能力的重要性,包括體育、藝術、編程等,因此素質教育將會繼續蓬勃發展。  \n? 鑒于提升學科成績的剛需長期持續存在,優質的教師資源將始終都是稀缺資源。有實力的大品牌和大公司會在素質教育發展的過程當中獲得更大的優勢。與此同時,市場里具有個性化特點的小公司也會蓬勃發展,最終呈現巨頭和小而美并存的共榮局面。\n\n### 【點貓科技創始人兼 CEO/李天馳】",
},
{
    "pageContent":"### 【點貓科技創始人兼 CEO/李天馳】\n\n? 點貓科技將以“為下一代提供更有價值的教育”為使命,持續聚焦工具和內容研發,培養青少年的計算思維以及用數字化的方法和手段解決實際問題的能力,幫助更多地區和學校開展人工智能編程教育服務,不斷為科技教育事業添磚加瓦,并為振興鄉村教育、助力教育公平貢獻自己的力量。\n\n### 【核桃編程創始人兼 CEO/曾鵬軒】\n\n? 未來教育的趨勢是以實操為主的教育方式。少兒編程是學習的工具,一種能夠實現主動學習的教育方式,也是一種未來教育的理念。核桃編程讓孩子通過編程來學習,而不是學習編程,而實操是對編程最有效的學習方式,也是核桃編程的核心理念。我們希望通過核桃編程帶來一種正向的學習理念,不只是為了學而學,而是為了用而學。我們要培養的孩子,是對科學充滿好奇、擁有無限創造力,最重要的是具有獨立思考與自主學習的能力。\n\n### 【斯坦星球 CEO/崔顯耿】",
}
  ...
]

然后對此進行評測,將該評測結果(v5.0)作為本文的基準:

圖片

基于 Markdown 語法切分

要基于 Markdown 語法進行切分,我們采用的是 langchainjs 提供的MarkdownTextSplitterMarkdownTextSplitterRecursiveCharacterTextSplitter的子類,也就是在RecursiveCharacterTextSplitter 默認分隔符序列的基礎上添加了一些 Markdown 特有的分隔符['\n## ', '\n### ','\n#### ', '\n##### ','\n###### ', '```\n\n','\n\n***\n\n', '\n\n---\n\n','\n\n___\n\n' ],這樣就意味著它會先嘗試按 Markdown 標題 分割,然后是代碼塊、接著是分割線,最后是按 RecursiveCharacterTextSplitter 方法切分,這樣就能夠識別并考慮 Markdown 文本中的不同元素(如標題、段落、列表項、代碼塊等),從而進行更加合理的切分。

代碼實現:

async function splitDocuments_v51(docs, config) {
  const textSplitter = new MarkdownTextSplitter({
    chunkSize: 500, // 文本切分大小
    chunkOverlap: 50, // 文本切分重疊大小
  });
  const documents = await textSplitter.splitDocuments(docs);
  return documents;
}

使用該方法切分出來的文檔塊大小分布的比較分散,最小的文檔塊大小只有 10:

圖片

[192,340,402,378,387,400,495,381,225,273,275,314,281,435,485,245,350,302,387,411,378,383,445,451,32,463,398,143,359,359,484,359,39,490,271,437,420,308,28,441,443,436,465,25,407,494,487,334,14,432,148,343,182,437,145,72,410,400,388,172,29,255,492,423,55,484,498,28,458,168,252,451,32,477,225,419,392,37,118,482,485,192,19,250,332,424,150,19,27,481,242,487,491,175,300,36,462,35,10,461,456,48,27,10,494,235,14,458,32,206,380,387,27,22,472,473,134,339,10,407,102,412,407,27,13,486,478,210,14,467,129,412,30,31,350,170,206,29,492,71,263,378,253,488,88,440,487,353,38,279,432,170,34,133,487,485,361,392,468,357,243,31,474,203,28,484,203,127,32,460,37,31,12,495,477,101,14,142,30,10,498,211,327,404,36,393,183,453,448,277,393,264]

我們再看下用該方法對 《2024少兒編程教育行業發展趨勢報告.md》文件進行切分的結果:

[
  {
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月",
},
{
    "pageContent":"## 少兒編程教育行業圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)",
},
{
    "pageContent":"### 【極客晨星創始人、CTO/張軍彪】\n\n? 2023 年以 AIGC 和大模型為代表的 AI 技術迅猛發展,如何為中小學生提供更加優質的科學教育、全面提高科學素質,成為一個急迫的時代命題,編程作為鏈接 AI 時代和創新人才的“鑰匙”越來越剛需,整個青少年編程市場也進入活躍期。編程教育的目標是要培養個性化、創新性人才。  \n? 編程教育最根本的是要立足課程體系,用科技加持的方法教好科技的課程,打造好的平臺和工具,為孩子們提供更加優質的教育資源,激發好奇心、培養創造力,實現個性化、創新性人才的培養,在助力科學教育做加法中的作用越來越突出。",
},
  ...
{
    "pageContent":"#### 各地積極響應國家政策號召,推動編程教育與人工智能的融合及普及國家戰略政策利好,少兒編程教育重要性逐步提升\n\n國家政策支持\n\n從教育部到各地方教育主管部門陸續出臺多項政策支持少兒編程教育普及推廣\n\n- 2018 -2019 年\n\n? 河南省建議在中小學開設 Scratch、Python 等程序設計課程,培養編程思維,普及編程教育。  \n? 天津市政府招生辦發布的《 2018 年天津科技特長生招生計劃》中,多所中學將信息學奧賽、信息技術、人工智能等納入了招生范疇。  \n? 重慶市教委發布《關于加強中小學編程教育的通知》,將編程列為重慶中小學必修課,要求小學三年級開始學編程。  \n? 北京市教育委員會將人工智能納入北京中小學社會實踐,明確了人工智能與教育融合發展在教育各學段主要任務。  \n? 山東省教育廳整合人工智能、編程教育、機器人教育等創客資源,著力打造創客教育課程體系。\n\n- 2020 -2021 年",
},
{
    "pageContent":"- 2020 -2021 年\n\n? 新疆烏魯木齊市教育局通知將在小學初中和高中年級里分別開展圖形化編程和 Python 課程,并附對課程及課時安排的具體要求,要求對老師進行線上與線下結合的編程培訓。  \n? 浙江省發布消息,八年級新增 Python 內容,五六年級按照教材規劃開始接觸大數據、人工智能、程序設計與算法。  \n? 北京市海淀區明確指出:將信息技術(包含編程)納入初中學業水平測試,考試不通過不予畢業。  \n? 上海市教委提出推進人工智能、編程技術等課程進中小學課堂,支持高校人工智能相關專業建設,提升師生信息素養。  \n? 長沙市發改委等部門指出,中小學新增“人工智能教育”和“編程教育”。  \n? 廣州市將“信息技術”列入初中學業水平考試錄取參考科目之一,示范性普通高中投檔考生的錄取參考科目成績均須達到 C 級及以上。\n\n- 2022 年",
}
]

該切分方法的評測結果(v5.1)如下:

圖片

從評測結果來看,該方法對各項指標有提升但不是很明顯,因此我們進一步分析下原因并優化。

合并過小的文檔塊

在使用 MarkdownTextSplitter 進行切分文檔的時候,我們可以看到切分后的文檔塊大小分布是比較分散的,最小的文檔塊大小只有 10,由于 MarkdownTextSplitter 切分方法的特性,這些小的文檔塊可能就是一個標題,比如:["##### 業務模式", "##### 課程體系", "##### 產品優勢"]。由于我們是根據向量距離檢索相關文檔的,由于更大的文本塊,其所涵蓋的信息量也增大,可能導致向量表示變得更加稀疏,往往我們檢索出來的是這些更小的文檔,但這些文檔往往不包含或包含很少答案所需的關鍵信息,從而影響到上下文召回率

因此我們需要將這些過小的文檔塊進行合并,由于這些過小的文檔塊是標題,所以簡單的方法就是將過小的文檔塊直接合并到下一個文檔塊上,代碼實現:

async functionsplitDocuments_v52(docs) {
// 在 splitDocuments_v51 的結果上進行處理
const documents = awaitsplitDocuments_v51(docs);
for (let i = 0; i < documents.length; i++) {
    const doc = documents[i];
    // 長度小于100的文檔
    if (doc.pageContent.length < 100) {
      // 如果不是最后一個元素,則合并到下一個元素
      if (i < documents.length - 1) {
        console.log('合并內容:', doc.pageContent, '到下一個');
        documents[i + 1].pageContent =
          doc.pageContent + '\n' + documents[i + 1].pageContent;
      }
      // 刪除當前元素
      documents.splice(i, 1);
      i--; // 回退索引以適應數組縮短的情況
    }
  }
return documents;
}

通過這樣的優化,我們看下評測結果(v5.2)如下:

圖片

此時我們可以看到,上下文召回率較 v5.1 有了比較明顯的提升。

給文檔塊補充標題

之所有要把不同的文件轉換成 Markdown 文件,其中的好處是 Markdown 文件能夠以純文本形式保留文檔的基本結構(標題、列表、代碼塊、表格),其中的標題提供了文檔的關鍵詞和上下文信息,能來用來幫助快速理解文檔內容,并在檢索時更準確地定位到與用戶提問相關的信息,這可以提高上下文相關性,因此給每個文檔塊補充標題是非常有必要的。

MarkdownTextSplitter切分后的結果:

[
  {
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月",
},
{
    "pageContent":"## 少兒編程教育行業圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)",
},
{
    "pageContent":"### 【極客晨星創始人、CTO/張軍彪】\n\n? 2023 年以 AIGC 和大模型為代表的 AI 技術迅猛發展,如何為中小學生提供更加優質的科學教育、全面提高科學素質,成為一個急迫的時代命題,編程作為鏈接 AI 時代和創新人才的“鑰匙”越來越剛需,整個青少年編程市場也進入活躍期。編程教育的目標是要培養個性化、創新性人才。  \n? 編程教育最根本的是要立足課程體系,用科技加持的方法教好科技的課程,打造好的平臺和工具,為孩子們提供更加優質的教育資源,激發好奇心、培養創造力,實現個性化、創新性人才的培養,在助力科學教育做加法中的作用越來越突出。",
},
  ...
{
    "pageContent":"#### 各地積極響應國家政策號召,推動編程教育與人工智能的融合及普及國家戰略政策利好,少兒編程教育重要性逐步提升\n\n國家政策支持\n\n從教育部到各地方教育主管部門陸續出臺多項政策支持少兒編程教育普及推廣\n\n- 2018 -2019 年\n\n? 河南省建議在中小學開設 Scratch、Python 等程序設計課程,培養編程思維,普及編程教育。  \n? 天津市政府招生辦發布的《 2018 年天津科技特長生招生計劃》中,多所中學將信息學奧賽、信息技術、人工智能等納入了招生范疇。  \n? 重慶市教委發布《關于加強中小學編程教育的通知》,將編程列為重慶中小學必修課,要求小學三年級開始學編程。  \n? 北京市教育委員會將人工智能納入北京中小學社會實踐,明確了人工智能與教育融合發展在教育各學段主要任務。  \n? 山東省教育廳整合人工智能、編程教育、機器人教育等創客資源,著力打造創客教育課程體系。\n\n- 2020 -2021 年",
},
{
    "pageContent":"- 2020 -2021 年\n\n? 新疆烏魯木齊市教育局通知將在小學初中和高中年級里分別開展圖形化編程和 Python 課程,并附對課程及課時安排的具體要求,要求對老師進行線上與線下結合的編程培訓。  \n? 浙江省發布消息,八年級新增 Python 內容,五六年級按照教材規劃開始接觸大數據、人工智能、程序設計與算法。  \n? 北京市海淀區明確指出:將信息技術(包含編程)納入初中學業水平測試,考試不通過不予畢業。  \n? 上海市教委提出推進人工智能、編程技術等課程進中小學課堂,支持高校人工智能相關專業建設,提升師生信息素養。  \n? 長沙市發改委等部門指出,中小學新增“人工智能教育”和“編程教育”。  \n? 廣州市將“信息技術”列入初中學業水平考試錄取參考科目之一,示范性普通高中投檔考生的錄取參考科目成績均須達到 C 級及以上。\n\n- 2022 年",
}
]

我們通過看 MarkdownTextSplitter切分后的結果,可以看到文檔塊所在的每一層級的標題是有缺失的,理想狀態下,該文檔塊需要有它所在的一級標題、二級標題、三級標題等等,所以在這里我們將對每個文檔塊的標題進行補充,實現代碼如下:

async functionsplitDocuments_v53(docs, config) {
// 在 splitDocuments_v52 的結果上進行處理
const documents = awaitsplitDocuments_v52(docs, config);
// 獲取每個文檔塊的標題并添加到元數據中
for (let i = 0; i < documents.length; i++) {
    const doc = documents[i];
    const lines = doc.pageContent.split('\n');
    const headers = [
      {
        key: 'header5',
        value: '##### ',
      },
      {
        key: 'header4',
        value: '#### ',
      },
      {
        key: 'header3',
        value: '### ',
      },
      {
        key: 'header2',
        value: '## ',
      },
      {
        key: 'header1',
        value: '# ',
      },
    ];
    headers.forEach((header) => {
      const { key, value } = header;
      doc.metadata[key] = [];

      // 提取每一行的標題
      for (const line of lines) {
        if (line.startsWith(value)) {
          doc.metadata[key].push(
            line.replace(newRegExp(`/^${value}/`), '').trim()
          );
        }
      }
      // 如果當前文檔沒有對應標題,則取前一個文檔的對應標題的第一個,并加入到當前文檔中
      if (i > 0) {
        if (doc.metadata[key].length === 0) {
          const preHeader = documents[i - 1].metadata[key][0];
          if (preHeader) {
            doc.pageContent = preHeader + '\n\n' + doc.pageContent;
            doc.metadata[key] = [preHeader];
          }
        }
      }
    });
  }
return documents;
}

這樣處理后,我們可以看到每個文檔塊都補充了每一級的標題:

[
  {
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/1ccfc2f4eac2045a72ee79528246c81470330e1622704ae875d7fb6e6d3ad34c.jpg)\n\n多鯨教育研究院/ 2024 年 1 月",
},
{
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n## 少兒編程教育行業圖譜\n\n### To B / To G\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/52052abeaf37e79866428e4b7b524e27a924454c764f007ee95c2d061fc5bd96.jpg)\n\n![](https://cdn-mineru.openxlab.org.cn/extract/c5ab109a-a161-4b6a-97ef-b906c0b2f3c1/57e4a9a7aafc3cded2334132be39c9517a397bf8d5ff933b0514bc473467d7b5.jpg)",
},
{
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n## 專家觀點\n\n### 【極客晨星創始人、CTO/張軍彪】\n\n? 2023 年以 AIGC 和大模型為代表的 AI 技術迅猛發展,如何為中小學生提供更加優質的科學教育、全面提高科學素質,成為一個急迫的時代命題,編程作為鏈接 AI 時代和創新人才的“鑰匙”越來越剛需,整個青少年編程市場也進入活躍期。編程教育的目標是要培養個性化、創新性人才。  \n? 編程教育最根本的是要立足課程體系,用科技加持的方法教好科技的課程,打造好的平臺和工具,為孩子們提供更加優質的教育資源,激發好奇心、培養創造力,實現個性化、創新性人才的培養,在助力科學教育做加法中的作用越來越突出。",
},
  ...
{
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n## 少兒編程教育行業 十大趨勢\n\n### 01 國家戰略政策利好,少兒編程教育重要性逐步提升\n\n#### 各地積極響應國家政策號召,推動編程教育與人工智能的融合及普及國家戰略政策利好,少兒編程教育重要性逐步提升\n\n國家政策支持\n\n從教育部到各地方教育主管部門陸續出臺多項政策支持少兒編程教育普及推廣\n\n- 2018 -2019 年\n\n? 河南省建議在中小學開設 Scratch、Python 等程序設計課程,培養編程思維,普及編程教育。  \n? 天津市政府招生辦發布的《 2018 年天津科技特長生招生計劃》中,多所中學將信息學奧賽、信息技術、人工智能等納入了招生范疇。  \n? 重慶市教委發布《關于加強中小學編程教育的通知》,將編程列為重慶中小學必修課,要求小學三年級開始學編程。  \n? 北京市教育委員會將人工智能納入北京中小學社會實踐,明確了人工智能與教育融合發展在教育各學段主要任務。  \n? 山東省教育廳整合人工智能、編程教育、機器人教育等創客資源,著力打造創客教育課程體系。\n\n- 2020 -2021 年",
},
{
    "pageContent":"# 少兒編程教育行業發展趨勢報告\n\n## 少兒編程教育行業 十大趨勢\n\n### 01 國家戰略政策利好,少兒編程教育重要性逐步提升\n\n#### 各地積極響應國家政策號召,推動編程教育與人工智能的融合及普及國家戰略政策利好,少兒編程教育重要性逐步提升\n\n- 2020 -2021 年\n\n? 新疆烏魯木齊市教育局通知將在小學初中和高中年級里分別開展圖形化編程和 Python 課程,并附對課程及課時安排的具體要求,要求對老師進行線上與線下結合的編程培訓。  \n? 浙江省發布消息,八年級新增 Python 內容,五六年級按照教材規劃開始接觸大數據、人工智能、程序設計與算法。  \n? 北京市海淀區明確指出:將信息技術(包含編程)納入初中學業水平測試,考試不通過不予畢業。  \n? 上海市教委提出推進人工智能、編程技術等課程進中小學課堂,支持高校人工智能相關專業建設,提升師生信息素養。  \n? 長沙市發改委等部門指出,中小學新增“人工智能教育”和“編程教育”。  \n? 廣州市將“信息技術”列入初中學業水平考試錄取參考科目之一,示范性普通高中投檔考生的錄取參考科目成績均須達到 C 級及以上。\n\n- 2022 年",
}
]

通過這樣的優化,我們看下評測結果(v5.3)如下:

圖片

此時我們可以看到,上下文相關性較 v5.2 有了比較明顯的提升。

結語

通過對比基于通用字符遞歸切分方法與基于 Markdown 語法的文檔切分方法,我們可以看到基于 Markdown 語法的文檔切分方法對 RAG 系統的各項指標是有一定的提升作用,然后我們通過合并過小的文檔塊提升了上下文召回率,通過給文檔塊補充標題提升了上下文相關性

引用鏈接

[1] 本文完整代碼地址: https://github.com/laixiangran/ai-learn/blob/main/src/app/rag/05_document_split_optimize/route.ts

責任編輯:龐桂玉 來源: 燃哥講AI
相關推薦

2025-06-24 09:51:10

2024-09-04 09:11:42

2025-08-01 01:55:00

2022-01-07 14:00:35

分庫分表業務量

2025-06-23 09:21:53

2019-11-25 10:12:59

Python技巧工具

2011-08-18 16:03:48

數據切分MySQL

2024-08-05 10:23:36

2025-06-03 08:50:24

RAGMarkdown

2025-05-22 06:48:50

RAGAI應用開發框架DeepSeek

2017-07-17 14:45:43

數據庫DB分庫切分策略

2021-03-17 16:15:55

數據MySQL 架構

2017-12-08 10:42:49

HBase切分細節

2017-08-28 16:40:07

Region切分觸發策略

2024-06-24 14:32:33

2017-06-19 16:45:41

數據庫水平切分用戶中心

2025-05-26 09:57:46

2024-02-05 14:12:37

大模型RAG架構

2025-07-16 01:00:00

2023-10-10 14:03:47

swap排序解法
點贊
收藏

51CTO技術棧公眾號

国产性70yerg老太| 福利视频999| 欧美日韩国产中文字幕在线| 青青草国产成人av片免费 | 五月婷婷在线播放| 日韩国产欧美在线播放| 亚洲日本一区二区| 国产精品一区二区av| 无码任你躁久久久久久久| 999成人网| 色婷婷综合久久久中文字幕| 亚洲欧美电影在线观看| 精品人妻少妇AV无码专区| 亚洲在线免费| 精品免费一区二区三区| www.中文字幕在线| 日本成人网址| 久久婷婷综合激情| 91嫩草免费看| 糖心vlog精品一区二区| 亚洲国产精品一区制服丝袜| 中文字幕免费国产精品| 国产精品扒开腿做爽爽爽a片唱戏 亚洲av成人精品一区二区三区 | 丝袜亚洲欧美日韩综合| yy1111111| 日韩精品一区二区三区中文字幕| 欧洲精品中文字幕| 日本a在线免费观看| 欧美性天天影视| 97精品国产露脸对白| 欧美成人免费全部| 欧美多人猛交狂配| 噜噜噜狠狠夜夜躁精品仙踪林| 欧美高清视频在线高清观看mv色露露十八 | 无人码人妻一区二区三区免费| 欧美特黄aaaaaaaa大片| 精品久久香蕉国产线看观看亚洲 | 亚欧精品视频一区二区三区| 乱亲女h秽乱长久久久| 日韩免费看网站| 亚洲精品视频三区| 亚洲精品成a人ⅴ香蕉片| 色94色欧美sute亚洲13| 东京热加勒比无码少妇| a√中文在线观看| 亚洲综合久久久| 在线视频一二三区| 91网址在线观看| eeuss影院一区二区三区| 成人羞羞国产免费| 中文字幕一区二区三区四区视频| 久久久久一区| 国产成人精品网站| 中文字幕黄色片| 香蕉久久夜色精品| 欧美一区深夜视频| av大全在线观看| 久久成人亚洲| 国产精品video| 天堂av免费在线观看| 日韩电影在线观看一区| 国产精品第一视频| 亚洲一级黄色大片| 国产在线播放一区| 99一区二区| 五十路在线视频| 久久久欧美精品sm网站| 日韩伦理一区二区三区av在线| 国产美女性感在线观看懂色av| 国产亚洲一本大道中文在线| 色播五月综合| 欧美天天影院| 亚洲美女少妇撒尿| 青青青在线视频播放| 国产精品原创| 在线一区二区观看| 福利片一区二区三区| 精品久久免费| 精品久久久久人成| 97成人在线观看视频| **欧美日韩在线观看| 欧美日韩高清影院| 一级少妇精品久久久久久久| 女人av一区| 综合网日日天干夜夜久久| 中文字幕观看av| 伊人久久大香线蕉综合热线| 国产成人av网| 国产色视频在线| www.亚洲免费av| 日韩精品久久久毛片一区二区| 免费av在线网站| 亚洲在线成人精品| 熟女人妇 成熟妇女系列视频| 日韩精品一页| 亚洲第一精品久久忘忧草社区| 久久精品—区二区三区舞蹈| 一区二区中文字| 奇门遁甲1982国语版免费观看高清 | 亚洲欧美在线不卡| 欧美成人精品一区二区三区在线看| 欧美成年人网站| 中文字幕免费在线观看视频| 久久精品99国产精品| 激情久久av| 一本一道波多野毛片中文在线 | 黄色一级一级片| 国产色99精品9i| 亚洲美女中文字幕| 久久国产精品波多野结衣| 日韩精品亚洲专区| 国产伦精品一区二区三区在线| 在线观看精品一区二区三区| 好吊成人免视频| 超碰在线资源站| 久久av导航| 国语自产精品视频在线看抢先版图片| 岳乳丰满一区二区三区| 99re这里都是精品| 妞干网在线播放| 久久电影天堂| 亚洲欧美日本另类| 日韩人妻无码一区二区三区99| 国产一区二区三区免费播放| 日韩一区国产在线观看| 黄在线观看免费网站ktv| 欧美一级免费观看| 999久久久国产| 老司机午夜精品视频| 国产视频精品网| 久久av色综合| 欧美一级久久久| 亚洲欧美卡通动漫| 日韩激情一二三区| 日本不卡高清视频一区| 亚洲电影观看| 精品视频在线播放免| 日韩欧美亚洲视频| 99国产精品久久久久久久久久久| 青青青青在线视频| av不卡一区二区| 久久久久国产视频| 亚洲精品一区二区三区蜜桃| 亚洲精品美国一| 潘金莲一级淫片aaaaa| 在线精品国产| 99r国产精品视频| 污污的网站在线看| 欧美大胆人体bbbb| 精品在线免费观看视频| 国产+成+人+亚洲欧洲自线| 黄色一级视频播放| 日日夜夜精品视频| 国产综合在线看| 日本韩国精品一区二区| 欧美午夜视频一区二区| 国产激情在线免费观看| 免费永久网站黄欧美| 欧美少妇一区| 福利一区二区三区视频在线观看| 在线观看国产精品日韩av| 中文字幕乱伦视频| 国产精品国产三级国产aⅴ原创 | 无码人妻丰满熟妇精品区| 久久中文娱乐网| 激情五月亚洲色图| 欧美国产一级| 91久久精品国产91久久性色tv | 天堂美国久久| 97se在线视频| 中文av在线全新| 中文字幕日韩综合av| 国产成人三级一区二区在线观看一| 亚洲欧美日韩国产手机在线| 91成人在线观看喷潮蘑菇| 亚洲第一毛片| 日本亚洲欧洲精品| 99tv成人影院| 97视频在线观看播放| 国产在线你懂得| 欧美精品第1页| 国产亚洲精品久久久久久无几年桃| av成人免费在线观看| caopor在线视频| 欧美在线日韩| 免费在线国产精品| 日本免费一区二区三区视频| 欧美一区二区三区艳史| 欧美jizz18性欧美| 亚洲精品美女在线| 一区二区三区日| 黄色一区二区在线| 天天鲁一鲁摸一摸爽一爽| 成人av午夜影院| 亚洲 激情 在线| 精品二区久久| 一本一本a久久| 欧美18免费视频| 成人国产精品久久久| 日韩精品极品| 精品国产欧美一区二区三区成人| 三级在线观看网站| 欧美日韩高清一区二区不卡| 黄色大片网站在线观看| 亚洲欧美另类久久久精品| 波多野结衣一本| 国产丶欧美丶日本不卡视频| 日韩中文字幕一区| 91成人福利| 91免费视频网站| 国精产品一区二区三区有限公司| 色综合久久中文字幕综合网小说| 国产三级视频在线看| 亚洲高清色综合| 国产女18毛片多18精品| 欧美午夜在线一二页| 91porny在线| 亚洲综合免费观看高清完整版| 国产大屁股喷水视频在线观看| av在线不卡电影| 久久久久久久久久久影视| 日本亚洲三级在线| 无遮挡又爽又刺激的视频 | 中文字幕一区二区不卡| 人妻少妇一区二区| 91小视频免费看| 一区二区在线免费观看视频| 久久99精品久久久| 91淫黄看大片| 天堂精品中文字幕在线| 国产 福利 在线| 亚洲日本黄色| 国产真实老熟女无套内射| 一区二区不卡| 裸体裸乳免费看| 欧美电影免费播放| 亚洲欧美影院| 日韩欧美网址| 亚洲成人午夜在线| 欧美色图激情小说| 日韩理论片在线观看| 不卡日本视频| 视频一区二区三区免费观看| 欧美日韩伦理| 日韩中文字幕一区| 久久精品国产www456c0m| 午夜精品电影在线观看| 欧美三级美国一级| 亚洲视频在线二区| 欧美电影三区| 日本三日本三级少妇三级66| 综合视频在线| 成年在线观看视频| 国模吧视频一区| 欧美日韩黄色一级片| 国产欧美丝祙| 亚洲国产精品一区在线观看不卡 | 在线成人性视频| 国产高清欧美| 97久久国产亚洲精品超碰热| 国产综合精品| av观看免费在线| 美日韩一区二区三区| 亚洲综合20p| 国产成人综合亚洲91猫咪| 午夜福利三级理论电影| 99久久久无码国产精品| 波多野结衣a v在线| 国产精品久久午夜| 欧美日韩一级大片| 亚洲va欧美va人人爽| 区一区二在线观看| 欧美日韩国产高清一区二区| 精品人妻一区二区三区浪潮在线| 亚洲福利视频二区| 九色在线观看| 久久夜色精品国产欧美乱| 爱看av在线| 国产成人综合一区二区三区| 四虎国产精品永久在线国在线| 99国产视频| 亚洲aa在线| 在线观看福利一区| 激情六月综合| 91欧美视频在线| 成人手机电影网| 一级黄色性视频| 亚洲精品视频一区二区| 国产又黄又猛又粗又爽| 717成人午夜免费福利电影| 亚洲欧美日韩动漫| 俺去了亚洲欧美日韩| 51精品在线| 成人乱人伦精品视频在线观看| 牛牛精品成人免费视频| 中文字幕一区二区三区四区五区六区 | 男女爽爽爽视频| 国产成人精品免费一区二区| 国产色视频一区二区三区qq号| 日韩一区日韩二区| 国产99久久久| 日韩精品一区二区三区视频| 国产精品秘入口| 久久久久久亚洲精品不卡| 福利一区和二区| 久久99国产精品| 国产精品porn| 欧美午夜aaaaaa免费视频| 成人av高清在线| 欧美人禽zoz0强交| 欧美性色欧美a在线播放| 欧美特级特黄aaaaaa在线看| 日韩在线精品视频| 日韩成人动漫| 九九99久久| 欧美日韩日本国产亚洲在线 | 黄页网站大全在线观看| 精品在线亚洲视频| 永久免费av无码网站性色av| 午夜欧美在线一二页| 99riav国产| 日韩专区在线播放| 91精品韩国| 欧美成人综合一区| 亚洲视频www| 中文字幕天堂av| 亚洲资源在线观看| 亚洲va欧美va| 欧美成人精品一区二区| 9999精品免费视频| 一区二区三区欧美成人| 日产欧产美韩系列久久99| 三级网站在线免费观看| 欧美日韩中文在线观看| 人妻精品一区一区三区蜜桃91| 久国内精品在线| 日韩高清在线观看一区二区| 国产精品无码乱伦| 精品一区二区三区免费视频| 蜜桃视频最新网址| 欧美麻豆精品久久久久久| 日本精品在线| 成人精品久久av网站| 欧美一区二区三| 9l视频白拍9色9l视频| 国产精品女上位| 国产又粗又猛又黄| 久久久av电影| 国产精品美女久久久久| 国产高潮呻吟久久久| 国产精品自拍在线| 久艹视频在线观看| 亚洲高清在线观看| 在线手机中文字幕| 午夜精品一区二区三区四区 | 欧美另类女人| 性感美女一区二区三区| 亚洲va欧美va国产va天堂影院| 图片区 小说区 区 亚洲五月| 97视频免费看| 国产欧美高清视频在线| 久久婷五月综合| 亚洲乱码中文字幕| 四虎精品一区二区三区| 国产不卡在线观看| 日韩毛片视频| 国产人妻精品久久久久野外| 亚洲一区在线观看视频| 天堂av网在线| 国产精品美女呻吟| 欧美成人亚洲| 精品夜夜澡人妻无码av| 欧美探花视频资源| 尤物视频在线看| 久久久久欧美| 精品午夜一区二区三区在线观看 | 尤物网址在线观看| 99在线视频免费观看| 久久婷婷亚洲| 国产又粗又硬又长又爽| 精品福利av导航| 国产综合av| 91传媒免费视频| 久久男人中文字幕资源站| 国产伦精品一区二区三区视频痴汉 | 久久av二区| 久久精品国内一区二区三区| 欧美日韩大片在线观看| 亚洲日韩中文字幕| 日本成人精品| 成人精品视频一区二区| 亚洲欧美激情在线| 久久久久国产精品嫩草影院| 91免费版网站入口| 久久福利影视| 精品97人妻无码中文永久在线| 国产亚洲精品美女久久久| 国产厕拍一区| 亚洲自拍第三页| 在线亚洲+欧美+日本专区|