精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備 原創(chuàng) 精華

發(fā)布于 2024-11-13 09:10
瀏覽
1收藏

前言

在私有領(lǐng)域知識問答和企業(yè)知識管理領(lǐng)域,結(jié)合檢索增強(qiáng)型生成模型(Retrieval-Augmented Generation, RAG)大模型(Large Language Model, LLM)已成為一種趨勢。然而,在RAG系統(tǒng)的文檔預(yù)處理階段和檢索階段,經(jīng)常碰到三個(gè)主要問題。

  1. 企業(yè)內(nèi)部常常積累了大量包含PDF格式的文檔,這些文檔的解析精度不足,嚴(yán)重制約了基于專業(yè)知識的問答系統(tǒng)的性能。因此,提高這些PDF文件的解析質(zhì)量,對于構(gòu)建高效的RAG系統(tǒng)至關(guān)重要。
  2. 構(gòu)建起一個(gè)完備的智能文檔解析服務(wù)后,需要一個(gè)有效的評測工具來有評測文檔的解析質(zhì)量,而不是主觀的通過肉眼感知。
  3. 用戶查詢通過text embedding向量模型快速、準(zhǔn)確、有效從知識庫中檢索出相關(guān)知識片段,使得LLM回答準(zhǔn)確。

本文將先探討下文檔解析的準(zhǔn)確性對RAG系統(tǒng)的影響;然后介紹下智能文檔解析關(guān)鍵技術(shù),并介紹閉源的通用文檔解析服務(wù)——TextIn,還介紹了一款開源的文檔解析質(zhì)量評測工具-Markdown Tester,最后介紹下合合信息開發(fā)的向量表征模型-acge_text_embedding

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

RAG一般流程

一、文檔解析的準(zhǔn)確性對RAG系統(tǒng)的影響

在RAG的預(yù)處理階段,文檔解析的準(zhǔn)確性是至關(guān)重要的。如果文檔解析不準(zhǔn)確,這將直接影響到后續(xù)的檢索和生成階段,導(dǎo)致整個(gè)RAG系統(tǒng)的性能下降。以下是文檔解析不準(zhǔn)確可能帶來的具體問題及其影響:

  • 內(nèi)容識別錯誤:如果文檔中的文本、圖像或格式被錯誤識別,將導(dǎo)致原始信息的丟失或錯誤。例如:(1)表格數(shù)據(jù)可能被錯誤地解析為普通文本,表格的行列關(guān)系混亂等:導(dǎo)致表格數(shù)值類問題無法進(jìn)行精準(zhǔn)的回答和RAG系統(tǒng)可能無法正確理解數(shù)據(jù)間的關(guān)聯(lián)性。(2)圖像中的文字(OCR)被錯誤識別:如果文檔中的文本或圖像被錯誤識別,系統(tǒng)接收到的數(shù)據(jù)質(zhì)量會下降,這將影響系統(tǒng)生成的輸出質(zhì)量。
  • 布局信息丟失:PDF文件的布局信息,如頁面布局、段落、標(biāo)題層級等,在解析過程中可能會丟失,這會影響對文檔結(jié)構(gòu)的把握,進(jìn)而影響分塊(chunks)。為了適應(yīng)模型的輸入要求,文檔需要被分割成小塊。如果分塊策略不當(dāng),可能會導(dǎo)致語義信息的丟失,影響模型對文檔內(nèi)容的理解。
  • 編碼問題:PDF文件可能包含多種字符編碼、水印等,一些pdf解析工具不能正確處理這些編碼,可能會導(dǎo)致亂碼。亂碼的文本內(nèi)容如果解析出來混合在文本中,會給知識庫帶來大量的噪聲,這也會影響RAG系統(tǒng)的性能。
  • 文檔復(fù)雜性:(1)復(fù)雜的文檔結(jié)構(gòu),如多欄布局、閱讀順序恢復(fù)、混合文本和圖像等,可能會給解析帶來額外的挑戰(zhàn),增加解析錯誤的風(fēng)險(xiǎn)。(2)文檔元素的復(fù)雜性:文檔中包含各種元素類型,如:段落、表格、公式和圖表。錯誤的解析這些元素內(nèi)容,也會給RAG系統(tǒng)的知識庫帶來大量噪聲。

因此,對于C端文檔問答的RAG系統(tǒng)應(yīng)用產(chǎn)品,迫切的需要對文檔進(jìn)行精準(zhǔn)解析。理想情況下,文檔解析器應(yīng)具備以下關(guān)鍵特征:

  • 文檔結(jié)構(gòu)識別:能夠靈活地將頁面劃分為不同類型的內(nèi)容塊,如標(biāo)題、段落、表格、公式和圖表。這確保了劃分的文本塊是完整和獨(dú)立的語義單元
  • 文檔內(nèi)元素準(zhǔn)確解析:在文檔結(jié)構(gòu)識別之后,識別出來的內(nèi)容塊準(zhǔn)確解析,如:OCR準(zhǔn)確無誤的將標(biāo)題、段落解析成文本內(nèi)容;表格識別解析精確:尤其是數(shù)值類文檔問答敏感的場景;公式能夠準(zhǔn)確的解析成Latex格式。
  • 在復(fù)雜文檔布局中保持魯棒性:即使是在文檔頁面布局復(fù)雜的情況下也能保證解析效果,如多列頁面、無邊框表格甚至合并單元格的表格

二、文檔解析的技術(shù)路線

對于簡單的文檔解析,langchain 和 llama_index 中集成了各種基于規(guī)則引擎的解析工具(如:解析pdf的pdfplumber,pyPDF2等)或者簡單的開源的ocr工具(如:paddleocr),能夠?qū)Χ喾N文件類型進(jìn)行解析。

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

解析工具常出現(xiàn)的問題

對于復(fù)雜的文檔解析,常基于深度學(xué)習(xí)的方法進(jìn)行解析,在上篇文章中(《??【文檔智能 & RAG】RAG增強(qiáng)之路:增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路??》)也講解了文檔解析的一些關(guān)鍵的開源技術(shù)路徑及方案。

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

文檔內(nèi)容解析路徑

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

智能文檔(文本內(nèi)容)技術(shù)路線

然而,對于通用文檔解析而言還存在著一些挑戰(zhàn):

2.1 版式分析

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

版式分析

版面分析指的是對文檔進(jìn)行區(qū)域劃分,通過bounding box定位其中的關(guān)鍵區(qū)域,如:文字、標(biāo)題、表格、圖片等。

版式分析的優(yōu)勢

1.通過大量標(biāo)注的數(shù)據(jù),準(zhǔn)確的劃分出文檔關(guān)鍵區(qū)域。如:

  • 文本區(qū)域:頁眉、頁腳、標(biāo)題、段落、頁碼、腳注、圖片標(biāo)題、表格標(biāo)題等
  • 表格
  • 公式
  • 圖片

2.能對復(fù)雜的版式進(jìn)行區(qū)塊識別

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

復(fù)雜版式

版式分析的缺點(diǎn),目前基本都是通過目標(biāo)檢測的形式進(jìn)行版式分析,因此其挑戰(zhàn)也是伴隨著特定場景的標(biāo)注數(shù)據(jù),尤其是通用場景的版式分析,難度巨大。

2.2 表格識別與解析

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

表格識別與解析的難點(diǎn)一般如下:

  • 表格的多樣性和復(fù)雜性:表格的形式多種多樣,包括有線表、無線表和少線表,這使得檢測和分割單元格變得復(fù)雜 。
  • 表格單元格的合并與拆分:某些表格中的單元格可能跨行或跨列,甚至跨頁,需要準(zhǔn)確識別這些合并的單元格并將其恢復(fù)成標(biāo)準(zhǔn)單元格 。
  • 表格內(nèi)容的識別和解析:表格中可能包含圖像、公式、符號等非文本內(nèi)容,需要將它們轉(zhuǎn)換成文本或保留格式 。
  • 表格結(jié)構(gòu)的表示和輸出:不同的應(yīng)用場景可能需要不同的表格結(jié)構(gòu)表示方式,如 HTML、JSON、CSV 等,需要將識別結(jié)果轉(zhuǎn)換成適合目標(biāo)應(yīng)用的格式,并保留數(shù)據(jù)和樣式信息。

2.3 公式識別與解析

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

公式識別類型

數(shù)學(xué)公式識別與解析是一個(gè)技術(shù)挑戰(zhàn)性很高的領(lǐng)域,主要難點(diǎn)包括:

  • 公式結(jié)構(gòu)的復(fù)雜性:數(shù)學(xué)公式往往包含復(fù)雜的嵌套結(jié)構(gòu),這些結(jié)構(gòu)的識別需要算法能夠準(zhǔn)確理解公式的層次關(guān)系,例如多層的分?jǐn)?shù)、根號等 。
  • 形近字的識別難度:在手寫識別中,相似形狀的字符如大寫X和小寫x,大寫Z和數(shù)字2,希臘字母γ和字母r等容易混淆,增加了識別的難度 。
  • 非常規(guī)符號的識別:比賽中添加的非常規(guī)符號組合可能會與公式混淆,增加了識別的復(fù)雜度。

2.4 閱讀順序

由于文檔布局的復(fù)雜性,包括多欄、嵌套表格、不規(guī)則的文本框等,這增加了閱讀順序恢復(fù)的難度。往期中也介紹了閱讀順序相關(guān)內(nèi)容(《??【文檔智能】符合人類閱讀順序的文檔模型-LayoutReader及非官方權(quán)重開源??》)

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

多列布局閱讀順序恢復(fù)

小結(jié):以上文檔解析的每個(gè)環(huán)節(jié)無論是數(shù)據(jù)標(biāo)注、模型訓(xùn)練、實(shí)驗(yàn),都需要投入巨大的成本和精細(xì)化的優(yōu)化,在工業(yè)落地場景,在保證解析效果的同時(shí),還需要關(guān)注文檔的解析速度。尤其是OCR過程,文字密集型文檔的解析速度影響特別大。

三、TextIn

針對以上痛點(diǎn),筆者深度體驗(yàn)了一下合合信息自研文檔解析技術(shù)-TextIn。該技術(shù)深度融合了文字識別(OCR)、計(jì)算機(jī)圖形圖像技術(shù)以及智能圖像處理引擎,使得紙質(zhì)文檔或圖片中的文字信息能夠迅速、精準(zhǔn)地轉(zhuǎn)化為計(jì)算機(jī)易于處理的文本格式

TextIn文檔智能關(guān)鍵技術(shù)如下:

3.1 版面分析關(guān)鍵技術(shù) Layout-engine

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

3.2 文檔樹提取關(guān)鍵技術(shù) Catalog-engine

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

3.3 解析體驗(yàn)

測試樣例:

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

TextIn解析輸出:

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

TextIn解析結(jié)果

可以看到,TextIn將pdf文件解析成markdown格式,并將標(biāo)題、段落、行內(nèi)公式及行間公式準(zhǔn)確解析。

值得關(guān)注的是,標(biāo)題,段落的準(zhǔn)確解析、并按照閱讀順序進(jìn)行輸出,這是生成文檔目錄及文檔樹的基礎(chǔ)。

快速上手代碼:

import requests
import json

def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

class TextinOcr(object):
    def __init__(self, app_id, app_secret):
        self._app_id = app_id
        self._app_secret = app_secret
        self.host = 'https://api.textin.com'

    def recognize_pdf2md(self, image, options):
        """
        pdf to markdown
        :param options: request params
        :param image: file bytes
        :return: response

        options = {
            'pdf_pwd': None,
            'dpi': 72,
            'page_start': 0,
            'page_count': 24,
            'apply_document_tree': 0,
            'markdown_details': 0,
            'table_flavor': 'md',
            'get_image': 'none',
            'parse_mode': 'auto',
        }
        """


        url = self.host + '/ai/service/v1/pdf_to_markdown'
        headers = {
            'x-ti-app-id': self._app_id,
            'x-ti-secret-code': self._app_secret
        }

        return requests.post(url, data=image, headers=headers, params=options)

def write_file(markdown_result, filepath = 'test.md'):
    f = open(filepath, 'w')
    f.write(markdown_result)
    f.close()

if __name__ == "__main__":
    textin = TextinOcr('app-id', 'app-secret')
    image = get_file_content('test.pdf')
    resp = textin.recognize_pdf2md(image, {
        'page_start': 0,
        'page_count': 14,
        'table_flavor': 'html',
        'parse_mode': 'auto',
        'apply_document_tree': 1,
        'markdown_details': 1,
        # 'get_image': 1,
    })
    print("request time: ", resp.elapsed.total_seconds())
    json_data = json.loads(resp.text)
    write_file(json_data['result']['markdown'], 'test2.md')

3.4 一個(gè)解析引擎速度的重要性

目前,基于多模態(tài)大模型技術(shù)的快速發(fā)展,文檔解析可以通過多模態(tài)大模型進(jìn)行解決,如:gpt-4o等,但是,基于多模態(tài)大模型的解決方案,成本大、非常耗時(shí)、容易產(chǎn)生幻覺問題,尤其是表格的解析,數(shù)值上的幻覺問題是災(zāi)難性的。

筆者在體驗(yàn)TextIn時(shí),感覺解析速度非常快,這對于RAG系統(tǒng)的增益可以從離線和在線兩個(gè)方面展開講:

  1. 離線模式
  • 數(shù)據(jù)預(yù)處理: 在離線模式下,解析引擎可以預(yù)先處理和索引大量文檔,為在線查詢做好準(zhǔn)備。
  • 定期更新知識庫:可以定期更新模型和索引,以適應(yīng)新的數(shù)據(jù)和需求變化。

2. 在線模式

  • c端用戶通過網(wǎng)頁知識空間上傳新的文件時(shí),在線模式允許解析引擎實(shí)時(shí)響應(yīng)用戶查詢,提供即時(shí)的文檔解析服務(wù)。
  • 用戶體驗(yàn): 用戶期望快速且準(zhǔn)確的響應(yīng),因此解析引擎的速度和準(zhǔn)確性在在線模式下尤為重要。

4、文檔解析評測工具-Markdown Tester

在文檔解析中,有了解析工具后,對于開發(fā)者,針對文檔解析的解析效果,需要一款比較好用的評價(jià)工具來客觀對解析效果進(jìn)行評價(jià);對于購買解析服務(wù)的c端客戶,同樣也需要評價(jià)文檔解析服務(wù)的效果,在自建數(shù)據(jù)集上先評測一下,然后有針對性的進(jìn)行解析服務(wù)選購。因此,下面介紹一下 Markdown Tester

該評測工具用于評價(jià)markdown文檔相似性,從段落、標(biāo)題、表格和公式四個(gè)維度進(jìn)行評價(jià),相關(guān)評價(jià)指標(biāo)的定義如下表:

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

段落、標(biāo)題、表格和公式四個(gè)維度定義

對于RAG中文檔解析,必須強(qiáng)調(diào)為什么使用markdown進(jìn)行表示:Markdown格式因其簡潔性和易于解析的特點(diǎn),?被廣泛認(rèn)為是LLM(?大型語言模型)?友好的文檔格式。?Markdown通過明確的標(biāo)記語法,?幫助模型更好地理解文檔結(jié)構(gòu)和內(nèi)容,?從而提高信息提取的準(zhǔn)確性和效率。?特別在存在大量公式、?表格的學(xué)術(shù)論文場景下,?Markdown可能是更合適的格式選擇。?這種格式選擇的原因主要包括:?

  • 結(jié)構(gòu)化信息的保留:?Markdown能夠很好地保留結(jié)構(gòu)化信息(非常適合需要保留標(biāo)題層級、?公式和表格等結(jié)構(gòu)信息的場景),?這對于需要精確提取和分析文本內(nèi)容的場景尤為重要。?
  • 易于解析:?Markdown的簡潔性和明確的標(biāo)記語法使得它易于被計(jì)算機(jī)程序解析和處理,?這對于自動化文檔處理和數(shù)據(jù)分析任務(wù)非常有利。?
  • 支持場景多:?Markdown作為一種輕量級標(biāo)記語言,?被廣泛用于編寫文檔、?筆記、?博客文章、?技術(shù)文檔等場景。

4.1 使用方法

  • step1:

git clone https://github.com/intsig/markdown_tester.git
cd markdown_tester
./install.sh
  • step2:
    Markdown Tester的倉庫中給出了一些22份文檔的grounding truth用于評測各種解析工具效果。待測評樣本按照下述方式放置:

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/
  • step3:

python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

4.2 運(yùn)行效果

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

對比表格

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

對比雷達(dá)圖-可視化

筆者在評測過程中發(fā)現(xiàn),自研模型對于識別準(zhǔn)確率較高,但召回率普遍不行。

五、text embedding在RAG環(huán)節(jié)的作用

由于LLM固有的問題,如:LLM的知識不是實(shí)時(shí)更新的;LLM無法回答私域知識問題。因?yàn)椋琇LM的專長在于生成和理解復(fù)雜的自然語言查詢。嵌入模型(比如Embedding)的專長在于將文本映射到高維空間中,以便進(jìn)行相似性比較;生成可用于高效檢索的密集向量。

因此,目前主流的實(shí)現(xiàn)方式都是通過RAG的方式對上述問題進(jìn)行解決。text embedding在RAG中充當(dāng)重要的角色,主要有以下幾個(gè)作用:

  1. 捕捉語義信息:文本嵌入將文本轉(zhuǎn)換為數(shù)值向量,這些向量能夠捕捉到文本的語義信息。
  2. 增強(qiáng)上下文理解:在RAG系統(tǒng)中,文本嵌入幫助模型掌握輸入查詢的上下文,并在NLP任務(wù)的檢索階段提取相關(guān)信息。通過這種方式,模型能夠更好地理解和處理非結(jié)構(gòu)化文本中的模糊性和可變性。
  3. 提高檢索性能:有效的文本嵌入能夠顯著提升RAG系統(tǒng)的性能。例如,不同的嵌入模型帶來的效果也不盡相同,選擇合適的嵌入模型可以優(yōu)化模型的檢索性能。此外,結(jié)合知識圖譜和文本嵌入,可以實(shí)現(xiàn)結(jié)構(gòu)化知識和非結(jié)構(gòu)化文本的無縫融合,從而產(chǎn)生信息更豐富、上下文相關(guān)的響應(yīng)。并且,文本嵌入增強(qiáng)了對自然語言中歧義和可變性的適應(yīng)能力,使RAG模型能夠更好地應(yīng)對模糊和多義的表達(dá)。這在處理開放域問答等復(fù)雜任務(wù)時(shí)尤為重要。

下面介紹一個(gè)效果比較好的文本向量嵌入的表征模型-acge_text_embedding

5.1 acge_text_embedding

acge_text_embedding是由合合信息研發(fā)的向量表征模型,技術(shù)架構(gòu)上,acge_text_embedding采用了俄羅斯套娃表示學(xué)習(xí)(Matryoshka Representation Learning,MRL)編碼不同粒度的信息,并讓一個(gè)編碼能夠適應(yīng)不同計(jì)算資源的下游任務(wù)。MRL的目的是學(xué)習(xí)許多個(gè)小于等于 的前  維表征,即總維度的前 維。在訓(xùn)練時(shí),MRL根據(jù)指定維度的向量來計(jì)算多個(gè)。

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

TextIn:一款優(yōu)秀的文檔解析神器,提升RAG性能必備-AI.x社區(qū)

一種比較高效的做法是將每個(gè)投射頭看成是一個(gè)大投射頭的的一部分,即 ,這種做法在大輸出空間時(shí)尤其重要,稱之為Efficient Matryoshka Representation Learning (MRL–E)。

因此,該表示學(xué)習(xí)框架的核心思想是學(xué)習(xí)不同粒度的信息,允許一個(gè)嵌入向量在保持準(zhǔn)確性和豐富性的同時(shí),適應(yīng)不同計(jì)算資源的需求,并可以無縫地適應(yīng)大多數(shù)表示學(xué)習(xí)框架,并且可以擴(kuò)展到多種標(biāo)準(zhǔn)計(jì)算機(jī)視覺和自然語言處理任務(wù)。

acge_text_embedding通過應(yīng)用多模態(tài)表示學(xué)習(xí)(MRL)技術(shù),能夠?qū)崿F(xiàn)一次訓(xùn)練過程,從而獲得豐富多樣的表征維度。特別值得一提的是,自適應(yīng)粗粒度到細(xì)粒度表示(acge)模型,它采用了一種層次化的方法,從宏觀到微觀逐步深化表征的深度和精度。這種方法不僅在推理和部署階段無需額外成本,還提供了一種靈活且高效的表征方式。在具體的實(shí)踐應(yīng)用中,為了更好地適應(yīng)不同任務(wù)的需求,acge模型采用了策略學(xué)習(xí)的訓(xùn)練方法。這種方法通過針對性地調(diào)整學(xué)習(xí)策略,顯著提升了模型在檢索、聚類和排序等任務(wù)上的性能表現(xiàn)。此外,模型還引入了持續(xù)學(xué)習(xí)的訓(xùn)練機(jī)制,有效解決了神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中可能出現(xiàn)的災(zāi)難性遺忘問題。這使得模型能夠在訓(xùn)練迭代中達(dá)到更加優(yōu)秀的收斂狀態(tài),為持續(xù)優(yōu)化和提升模型性能奠定了基礎(chǔ)。

5.2 acge_text_embedding使用

  • 在sentence-transformer庫中的使用:

from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
print(model.max_seq_length)
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)
  • 在sentence-transformer庫中的使用方法,選取不同的維度

from sklearn.preprocessing import normalize
from sentence_transformers import SentenceTransformer

sentences = ["數(shù)據(jù)1", "數(shù)據(jù)2"]
model = SentenceTransformer('acge_text_embedding') # 替換成你下載的權(quán)重地址
embeddings = model.encode(sentences, normalize_embeddings=False)
matryoshka_dim = 1024
embeddings = embeddings[..., :matryoshka_dim]  # Shrink the embedding dimensions
embeddings = normalize(embeddings, norm="l2", axis=1)
print(embeddings.shape)
# => (2, 1024)

5.3 acge_text_embedding優(yōu)點(diǎn)總結(jié)

性能優(yōu)勢

  1. acge模型較小,占用資源少;
  2. 模型輸入文本長度為1024,滿足絕大部分場景的需求
  3. acge模型支持可變輸出維度,能夠根據(jù)具體場景去合理分配資源。

框架優(yōu)勢

  1. 對比學(xué)習(xí)技術(shù),通過最小化正對之間的距離和最大化負(fù)對之間的距離來呈現(xiàn)文本語義表示。
  2. 數(shù)據(jù)挖掘,構(gòu)造多場景、數(shù)量龐大的數(shù)據(jù)集提升模型泛化能力,挑選高質(zhì)量數(shù)據(jù)集加快模型收斂。
  3. 多任務(wù)混合訓(xùn)練,多l(xiāng)oss適配場景,適應(yīng)各種下游任務(wù)
  4. MRL訓(xùn)練,訓(xùn)練可變維度的嵌入,提高了處理速度,降低了存儲需求
  5. 持續(xù)學(xué)習(xí), 改善引入新數(shù)據(jù)后模型災(zāi)難性遺忘問題

總結(jié)

本文主要探討了檢索增強(qiáng)型生成模型(RAG)在私有領(lǐng)域知識問答和企業(yè)知識管理中的應(yīng)用,重點(diǎn)分析了文檔解析的準(zhǔn)確性對RAG系統(tǒng)性能的影響,介紹了智能文檔解析的關(guān)鍵技術(shù),并介紹了合合信息自研的文檔解析服務(wù)TextIn,以及開源的文檔解析質(zhì)量評測工具M(jìn)arkdown Tester。此外,還介紹了合合信息開發(fā)的文本向量嵌入模型acge_text_embedding,強(qiáng)調(diào)了其在RAG系統(tǒng)中的作用和優(yōu)勢。整體而言,文檔解析的準(zhǔn)確性、速度和質(zhì)量對RAG系統(tǒng)的性能至關(guān)重要,而TextIn和acge_text_embedding等工具能夠顯著提升文檔解析的效果和效率。

參考文獻(xiàn)

  • Markdown Tester:https://github.com/intsig/markdown_tester
  • TextIn:https://www.textin.com/experience/pdf_to_markdown?from=acg-github
  • acge_text_embedding:https://huggingface.co/aspire/acge_text_embedding


本文轉(zhuǎn)載自公眾號哎呀AIYA

原文鏈接:??https://mp.weixin.qq.com/s/T4CU19NeUf9tGNge8ls6Ow??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
97人人模人人爽人人少妇| 久久精品99久久久久久久久| 妞干网在线视频观看| 四虎成人免费在线| 免费看欧美美女黄的网站| 久久精品国产精品| 男男做爰猛烈叫床爽爽小说| 一个人看的www视频在线免费观看| 国产欧美日韩在线观看| 99精品国产一区二区| 99超碰在线观看| 亚洲澳门在线| 亚洲视频欧洲视频| 一区二区在线免费观看视频| 久久天堂av| 亚洲一区二区av在线| 日韩亚洲欧美精品| 粉嫩av一区二区夜夜嗨| 麻豆精品在线视频| 4388成人网| 少妇人妻丰满做爰xxx| 一区二区三区日本久久久| 日韩一区二区在线观看视频播放| 各处沟厕大尺度偷拍女厕嘘嘘| 精品视频在线一区二区| www亚洲一区| 国产成人一区二区三区免费看| 亚洲性猛交富婆| 在线成人av| 欧美xxxx做受欧美| 国产精品suv一区二区88| 亚欧洲精品视频在线观看| 日韩一级视频免费观看在线| 国产精品久久久毛片| 99久久精品免费看国产小宝寻花| 国产精品久久久久9999吃药| 欧美一区二区在线| 日本一区二区三区在线观看视频| 国产精品456| 91亚洲午夜在线| 一区二区三区免费在线视频| 日韩国产高清在线| 欧洲成人午夜免费大片| 久久狠狠高潮亚洲精品| 在线观看一区| 久久久久亚洲精品成人网小说| 亚洲欧美小视频| 亚洲a在线视频| 日韩视频中文字幕| 免费成人美女女在线观看| 国产欧美日韩免费观看 | 韩国三级hd中文字幕有哪些| 久久亚洲国产精品尤物| 欧美三级韩国三级日本三斤 | 久久91精品国产91久久小草| 国产精品黄色影片导航在线观看| www.国产色| 久久成人免费| 国产精品久久久久国产a级| 无码视频在线观看| 日韩av在线发布| 国产精品亚洲网站| 国产欧美熟妇另类久久久| 国产在线国偷精品产拍免费yy| 91亚洲一区精品| 亚洲国产一二三区| 99久久久精品免费观看国产蜜| 精品视频导航| 国产免费a∨片在线观看不卡| 久久青草欧美一区二区三区| 欧美日韩在线一二三| 国产黄色在线播放| 一色桃子久久精品亚洲| 男人的天堂视频在线| 888av在线视频| 日韩欧美亚洲一二三区| 欧美大尺度做爰床戏| 一区二区三区日本视频| 日韩欧美的一区二区| 天天插天天射天天干| 国产一区二区欧美| 久久婷婷国产麻豆91天堂| 国产一级做a爱免费视频| 99精品久久久| 国产美女搞久久| 欧美特级特黄aaaaaa在线看| 99国产精品久久久久| 亚洲成人网上| 888av在线视频| 欧美婷婷六月丁香综合色| 中文字幕在线视频一区二区| 第四色在线一区二区| 国产丝袜高跟一区| 欧美激情精品久久久久久免费 | 欧美视频第一区| 欧美成人毛片| 亚洲精品第一页| 欧美一区二区三区观看| 一区二区三区四区五区精品视频| 国产精品国产自产拍高清av水多 | 亚洲成年人在线| jizz18女人高潮| 亚洲承认在线| 91影视免费在线观看| 欧洲伦理片一区 二区 三区| 中文字幕视频一区二区三区久| 热99这里只有精品| 亚洲伦理久久| 亚洲欧洲国产精品| 久久免费视频6| 麻豆91小视频| 欧美日韩系列| 2020国产在线| 欧美一区二区三区免费大片| 中文字幕第4页| 影院欧美亚洲| 97国产超碰| 最近高清中文在线字幕在线观看| 精品久久久国产精品999| 麻豆网站免费观看| 日韩电影免费网站| 日本久久久a级免费| 免费av网站在线播放| 亚洲欧美另类综合偷拍| 无码少妇一区二区三区芒果| 给我免费播放日韩视频| 久色乳综合思思在线视频| 中文字幕 国产| 久久久久久久网| 久久久久久久中文| 国产精品17p| 久久999免费视频| 国产美女精品视频国产| 国产精品入口麻豆原神| 国产成人手机视频| 在线日韩网站| 欧美在线精品免播放器视频| 国产 日韩 欧美 综合| 亚洲男人的天堂在线观看| 国产视频1区2区3区| 成人看的视频| 国产精品美乳一区二区免费| 美女做暖暖视频免费在线观看全部网址91 | 日韩片之四级片| 国产免费久久久久| 激情综合色播激情啊| 尤物一区二区三区| 日韩在线激情| 久久久精品欧美| h片在线免费看| 亚洲欧美电影一区二区| 日本高清免费在线视频| 欧美777四色影| 成人性色av| 激情黄产视频在线免费观看| 亚洲国产黄色片| 青青青国产在线| 久久精品免视看| 日本特黄a级片| 99国产**精品****| 5g国产欧美日韩视频| 久久香蕉av| 日韩精品高清视频| 亚洲国产精品无码久久久| 国产精品天天看| 欧洲在线免费视频| 好看的亚洲午夜视频在线| 精品久久久久久中文字幕动漫| 波多野结衣亚洲| 色悠悠久久88| 亚洲第一页视频| 欧美性xxxxx极品| 制服丨自拍丨欧美丨动漫丨| 国产精品66部| 干日本少妇首页| 欧美电影《轻佻寡妇》| 91网免费观看| 日韩性xxx| 久久午夜a级毛片| 四虎在线视频免费观看| 在线区一区二视频| 麻豆视频在线观看| 久久久久久久久久久久久久久99| 欧美午夜aaaaaa免费视频| 欧美a级片一区| 欧美日韩国产精品一卡| 只有精品亚洲| 26uuu国产精品视频| 黄色网在线免费看| 亚洲精美色品网站| 国产乱码精品一区二区| 偷拍一区二区三区| 日韩欧美123区| 久久免费视频一区| 9191在线视频| 麻豆视频一区二区| 日本a级片免费观看| 国产国产精品| 免费一区二区三区| 秋霞一区二区三区| 国产精品av电影| 懂色av一区| 日韩在线中文字| 欧美色视频免费| 精品国产乱码久久久久久久| 精品国产www| 欧美日韩国产一区在线| 久久免费看少妇高潮v片特黄| 久久先锋影音av鲁色资源| 国产亚洲色婷婷久久| 日精品一区二区三区| 成年人看的毛片| 欧美一区影院| 亚洲国产精品久久久久久女王| 久久草在线视频| 亚洲free嫩bbb| 国产69精品久久久久按摩| 91国语精品自产拍在线观看性色| 黄色av免费在线| 在线观看久久av| 你懂的免费在线观看视频网站| 精品日产卡一卡二卡麻豆| 91中文字幕在线视频| 色婷婷久久久综合中文字幕| 日韩高清精品免费观看| 亚洲综合视频网| 中文字幕在线2021| 综合激情成人伊人| av片在线免费看| 国产日产精品1区| brazzers精品成人一区| 97精品久久久久中文字幕| 久久久精品人妻一区二区三区| 另类调教123区| 亚洲天堂网一区| 免费不卡在线观看| 最近中文字幕一区二区| 日韩中文欧美在线| 不要播放器的av网站| 久久一区欧美| 欧美在线观看视频网站| 久久一区二区三区四区五区| 日本黄网站免费| 日韩在线a电影| 国产天堂在线播放| 人人精品人人爱| 亚洲成人天堂网| 激情综合五月天| 91porn在线| aaa亚洲精品| 欧美色图亚洲激情| 国产欧美一区视频| 蜜桃av免费观看| 亚洲乱码精品一二三四区日韩在线| 成人做爰视频网站| 亚洲精品日产精品乱码不卡| 国产盗摄x88av| 亚洲午夜精品在线| 九一国产在线观看| 欧美性大战久久久久久久蜜臀| 中文字幕在线观看1| 欧美日韩国产精选| 超碰免费在线97| 亚洲第一精品夜夜躁人人爽| 香蕉人妻av久久久久天天| 亚洲精品自在久久| 91最新在线| 九九九久久国产免费| 漫画在线观看av| 国产精品扒开腿爽爽爽视频| 国产欧美自拍| 成人做爰66片免费看网站| 色婷婷综合久久久久久| 亚洲国产一区二区三区在线| 亚洲一区色图| 5月婷婷6月丁香| 久久成人精品无人区| 涩视频在线观看| 国产网红主播福利一区二区| 2014亚洲天堂| 疯狂欧美牲乱大交777| 亚洲一二区视频| 亚洲第一视频网| 国产h视频在线观看| 九九热精品在线| 小黄鸭精品aⅴ导航网站入口| 91久久久久久久久久久久久| 全国精品免费看| 国产精品h视频| 亚洲一区国产| 在线观看中文av| 久久精品无码一区二区三区| 免费看一级大片| 一本色道久久加勒比精品 | 中文字幕一区二区三区四区五区 | 不要播放器的av网站| 国产乱码字幕精品高清av | 亚洲成人久久影院| 在线观看国产精品入口男同| 亚洲成人动漫在线播放| 在线观看免费黄视频| 91极品视频在线| 国内不卡的一区二区三区中文字幕| 精品国产一区二区三区四区vr| 无需播放器亚洲| 亚洲五月天综合| www.成人在线| 欧美黑吊大战白妞| 精品视频全国免费看| 深夜影院在线观看| 欧美交受高潮1| 国产精品久久久久久久久久辛辛 | 成人免费看片网站| 日韩精品四区| www.日日操| 91美女在线观看| 亚洲国产精一区二区三区性色| 欧美精品一卡两卡| 成人亚洲综合天堂| 欧美一区二区三区艳史| 国产区精品视频在线观看豆花| 中文字幕av日韩精品| 老牛影视一区二区三区| 亚洲一区二区在线免费| 亚洲精品写真福利| 国产精品乱码一区二区| 中日韩午夜理伦电影免费| 色尼玛亚洲综合影院| 美女亚洲精品| 香蕉视频成人在线观看| 国产xxxx视频| 亚洲午夜激情网站| 亚洲免费成人网| 久久久久久18| 第四色在线一区二区| 青草视频在线观看视频| 国产成a人亚洲精品| 九九热只有精品| 欧美mv日韩mv亚洲| 国模私拍视频在线播放| 国产精品yjizz| 亚洲大胆视频| 波多野结衣av在线免费观看| 欧美日韩国产限制| 久香视频在线观看| 国产精品老女人视频| 欧美激情另类| 亚洲国产午夜精品| 亚洲激情成人在线| 国产综合无码一区二区色蜜蜜| 国语自产精品视频在免费| 久久久伦理片| 中文字幕乱码人妻综合二区三区| www欧美成人18+| 成人黄色免费网| 久久久国产精品免费| 亚洲精品在线a| 久久精品国产sm调教网站演员| 99精品久久久久久| 波多野结衣爱爱| 日韩在线欧美在线国产在线| 成人精品视频在线观看| 国产91沈先生在线播放| 99久久精品免费| 久久青青草原亚洲av无码麻豆| 亚洲人免费视频| 24小时成人在线视频| 亚洲啊啊啊啊啊| 97久久精品人人澡人人爽| 国产一级免费视频| 日韩在线观看网站| 豆花视频一区二区| 日本va中文字幕| 亚洲综合在线观看视频| 天堂91在线| 国产在线观看一区二区三区| 欧美日韩国产欧| 丰满少妇一区二区三区| 欧美二区在线观看| 99色在线观看| 一区二区三区的久久的视频| 高清在线成人网| 黄色一级视频免费看| 欧美成年人网站| 要久久爱电视剧全集完整观看| 91 在线视频观看| 亚洲777理论| 婷婷五月在线视频| 国产亚洲精品自在久久| 老鸭窝一区二区久久精品| 午夜偷拍福利视频| 中文字幕无线精品亚洲乱码一区| **爰片久久毛片| 国产高清视频网站| 五月婷婷综合网| 毛片在线不卡| 日韩.欧美.亚洲| 成人av网站大全| 国产精品伊人久久| 日韩免费在线免费观看|