精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAG文檔解析器,核心技術(shù)剖析

發(fā)布于 2024-9-20 11:08
瀏覽
0收藏

最近,RAG技術(shù)逐漸走紅,但文檔解析這一重要環(huán)節(jié)卻鮮為人知。說到底,無論使用多么高級的檢索和生成技術(shù),最終效果都取決于文檔本身的質(zhì)量。如果文檔信息不全或格式混亂,那么再怎么優(yōu)化檢索策略、嵌入模型或大型語言模型(LLMs)也無濟于事。

本文介紹三種流行的文檔提取策略,并以亞馬遜2024年第一季度報告中的表格解析為例,展示這些策略的實際應(yīng)用。

1 文本解析器:基礎(chǔ)工具

文本解析器已經(jīng)發(fā)展多年,這些工具能夠讀取文檔并從中提取文本。常見的工具有PyPDF、PyMUPDF和PDFMiner。接下來,重點介紹PyMUPDF,并通過LlamaIndex集成的PyMUPDF來解析特定頁面。以下是相應(yīng)的代碼示例:

from llama_index.core.schema import TextNode
from llama_index.core.node_parser import SentenceSplitter
import fitz

file_path = "/content/AMZN-Q1-2024-Earnings-Release.pdf"
doc = fitz.open(file_path) 
text_parser = SentenceSplitter(
    chunk_size=2048,
)
text_chunks = [] #C
for doc_idx, page in enumerate(doc):
    page_text = page.get_text("text")
    cur_text_chunks = text_parser.split_text(page_text)
    text_chunks.extend(cur_text_chunks)
nodes = [] #D
for idx, text_chunk in enumerate(text_chunks):
    node = TextNode(
        text=text_chunk,
    )
    nodes.append(node)
print(nodes[10].text)

PyMUPDF在提取文本方面表現(xiàn)優(yōu)秀,但文本的格式處理并不理想。這在后續(xù)的生成過程中可能會造成問題,尤其是當(dāng)大型語言模型難以識別文檔結(jié)構(gòu)時。

以下是亞馬遜公司的財務(wù)報表摘要:

AMAZON.COM, INC.
Consolidated Statements of Comprehensive Income
(in millions)
(unaudited)
  
Three Months Ended
March 31,
 
2023
2024
Net income
$ 
3,172 $ 
10,431 
Other comprehensive income (loss):
Foreign currency translation adjustments, net of tax of $(10) and $30
 
386  
(1,096) 
Available-for-sale debt securities:
Change in net unrealized gains (losses), net of tax of $(29) and $(158)
 
95  
536 
Less: reclassification adjustment for losses (gains) included in “Other income 
(expense), net,” net of tax of $(10) and $0
 
33  
1 
Net change
 
128  
537 
Other, net of tax of $0 and $(1)
 
—  
1 
Total other comprehensive income (loss)
 
514  
(558) 
Comprehensive income
$ 
3,686 $ 
9,873

接下來,讓我們看看OCR在文檔解析中的表現(xiàn)。

2 OCR技術(shù):圖像識別

from PIL import Image
import pytesseract
import sys
from pdf2image import convert_from_path
import os
pages = convert_from_path(file_path)
i=10
filename = "page"+str(i)+".jpg"
pages[i].save(filename, 'JPEG')
outfile =  "page"+str(i)+"_text.txt"
f = open(outfile, "a")
text= str(((pytesseract.image_to_string(Image.open(filename)))))
text = text.replace('-\n', '')    
f.write(text)
f.close()

print(text)

OCR(如下所示)能更好地捕捉文檔文本和結(jié)構(gòu)。

AMAZON.COM, INC.
Consolidated Statements of Comprehensive Income
(in millions)

(unaudited)
Three Months Ended
March 31,
2023 2024
Net income $ 3,172 §$ 10,431
Other comprehensive income (loss):
Foreign currency translation adjustments, net of tax of $(10) and $30 386 (1,096)
Available-for-sale debt securities:
Change in net unrealized gains (losses), net of tax of $(29) and $(158) 95 536
Less: reclassification adjustment for losses (gains) included in “Other income
(expense), net,” net of tax of $(10) and $0 33 1
Net change 128 231
Other, net of tax of $0 and $(1) _— 1
Total other comprehensive income (loss) 514 (558)

Comprehensive income $ 3,686 $ 9,873

最后,來看看智能文檔解析。

3 智能文檔解析(IDP):結(jié)構(gòu)化提取

智能文檔解析(IDP)是一項新興技術(shù),旨在從文檔中提取所有相關(guān)信息,并以結(jié)構(gòu)化格式呈現(xiàn)。市面上有多種IDP工具,如LlamaParse、DocSumo、Unstructured.io以及Azure Doc Intelligence等。

這些工具的共同點在于,它們都融合了OCR(光學(xué)字符識別)、文本提取技術(shù)、多模態(tài)大型語言模型(LLMs),以及將內(nèi)容轉(zhuǎn)換為markdown格式的能力,以實現(xiàn)文本的高效提取。以LlamaIndex推出的LlamaParse為例,使用前需要先獲取API密鑰,然后便可以通過API接口來解析文檔。

import getpass
import os
from copy import deepcopy

os.environ["LLAMA_CLOUD_API_KEY"] = getpass.getpass()
from llama_parse import LlamaParse
import nest_asyncio
nest_asyncio.apply()
documents = LlamaParse(result_type="markdown").load_data(file_path)
def get_page_nodes(docs, separator="\n---\n"):
    """Split each document into page node, by separator."""
    nodes = [] #C
    for doc in docs:
        doc_chunks = doc.text.split(separator)
        for doc_chunk in doc_chunks:
            node = TextNode(
                text=doc_chunk,
                metadata=deepcopy(doc.metadata),
            )
            nodes.append(node)

    return nodes


nodes_lp = get_page_nodes(documents)
print(nodes_lp[10].text)

下面的內(nèi)容以markdown格式結(jié)構(gòu)化,應(yīng)該是目前結(jié)構(gòu)最好的表示。

# 亞馬遜公司

# 綜合收益表

| |Three Months Ended March 31, 2023|Three Months Ended March 31, 2024|
|---|---|---|
|Net income|$3,172|$10,431|
|Other comprehensive income (loss):| | |
|Foreign currency translation adjustments, net of tax of $(10) and $30|386|(1,096)|
|Available-for-sale debt securities:| | |
|Change in net unrealized gains (losses), net of tax of $(29) and $(158)|95|536|
|Less: reclassification adjustment for losses (gains) included in “Other income (expense), net,” net of tax of $(10) and $0|33|1|
|Net change|128|537|
|Other, net of tax of $0 and $(1)|—|1|
|Total other comprehensive income (loss)|514|(558)|
|Comprehensive income|$3,686|$9,873|

不過,有一點需要注意,上述內(nèi)容忽略了一些關(guān)鍵的上下文信息。特別是,解析后的文檔中不再包含“millions”(百萬)這樣的單位標(biāo)識,這可能會導(dǎo)致生成器LLM在理解時產(chǎn)生誤解。

4 結(jié)論

要提升你的RAG應(yīng)用性能,重點在于選擇合適的文檔解析器。各種解析策略各有千秋,也各有局限:

  • 文本解析器:使用PyPDF或PyMUPDF等工具,可以高效提取文本,但可能會丟失文檔結(jié)構(gòu),這在生成內(nèi)容時可能會讓你的語言模型感到困惑。
  • OCR技術(shù):選擇Pytesseract等OCR工具,能更精準(zhǔn)地捕捉文本及其結(jié)構(gòu),更好地保留原始文檔的格式和上下文。但OCR處理通常耗時較長,且效果很大程度上取決于具體應(yīng)用場景。你需要權(quán)衡準(zhǔn)確性提升是否值得增加的處理時間。
  • 智能文檔解析(IDP):采用LlamaParse等高級IDP工具,可以整合OCR、文本提取和多模態(tài)語言模型,將文檔轉(zhuǎn)換為結(jié)構(gòu)化的markdown格式。但要注意,這種方法有時會丟失關(guān)鍵的上下文信息,如度量單位。此外,IDP技術(shù)尚在成熟過程中,可能面臨可擴展性和延遲問題。在部署IDP時,要充分考慮這些限制,并為可能的系統(tǒng)瓶頸做好準(zhǔn)備。

最終,選擇哪種解析器,需要根據(jù)你的具體應(yīng)用場景來決定。最佳做法是嘗試不同的解析器,評估它們在你的應(yīng)用中的表現(xiàn),然后選擇最滿足你需求的那一個。有時候,結(jié)合多種方法可能會更有效。不斷試驗和調(diào)整,以期達到最佳的RAG應(yīng)用效果。

本文轉(zhuǎn)載自 ??AI科技論談??,作者: AI科技論談

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
四虎影视在线观看2413| 欧美日韩中文一区| 精品不卡一区二区三区| 国产婷婷色一区二区在线观看| 久久99高清| 欧美日本一道本| 日韩视频免费播放| 草草影院在线观看| 成人免费视频网站在线观看| 国产精品久久久久久久午夜| 色在线观看视频| 国产欧美日韩视频在线| 日韩欧美久久一区| 韩国视频一区二区三区| 超黄网站在线观看| 亚洲丝袜自拍清纯另类| 欧美精品成人一区二区在线观看| 国产精品一区二区免费视频| 亚洲一区二区动漫| 色综合久久天天综线观看| 成人在线一级片| 成人精品毛片| 91精品国产综合久久精品麻豆| 国模吧无码一区二区三区| 先锋影音在线资源站91| 国产精品免费看片| 欧美不卡三区| 无码精品一区二区三区在线| 国产综合久久久久影院| 国产成+人+综合+亚洲欧洲| 久草免费在线观看视频| 色呦哟—国产精品| 一区二区日韩精品| 在线视频 日韩| 亚洲一级大片| 91麻豆精品久久久久蜜臀 | 先锋影音久久| 久久免费视频在线| 免费在线观看日韩| 中文字幕乱码亚洲无线精品一区| 国产一区二区三区在线视频| 五级黄高潮片90分钟视频| 久久精品国产亚洲5555| 精品乱人伦小说| 午夜性福利视频| 美女精品久久| 日韩欧美二区三区| 成人高清在线观看视频| 国产美女亚洲精品7777| 91麻豆精品国产91久久久资源速度 | 日韩成人免费电影| 日本中文字幕成人| www五月天com| 久久一二三四| 日韩免费观看在线观看| 无码一区二区三区在线观看| 老司机一区二区三区| 欧美影院在线播放| 中文字幕在线欧美| 蜜桃av一区二区| 国产日韩欧美电影在线观看| 亚洲一区中文字幕在线| 久久成人18免费观看| 91免费综合在线| 精品久久久久久亚洲综合网站| 国产一区二区三区国产| 99久久精品免费看国产一区二区三区| 精品国自产在线观看| 成人午夜看片网址| 狠狠色综合欧美激情| 欧洲毛片在线| 国产精品视频看| 粉嫩av一区二区三区天美传媒 | 亚洲国产精品欧美一二99| 777av视频| 日韩在线影院| 欧美日韩免费高清一区色橹橹 | 亚洲一区在线观| 国产精品1区2区| 精品国产综合久久| 国产大学生校花援交在线播放| 国产精品三级久久久久三级| ijzzijzzij亚洲大全| 91禁在线看| 91久久线看在观草草青青 | 亚洲国产91视频| 精品国产一区二区三区av性色| 欧亚乱熟女一区二区在线| 国产日产精品_国产精品毛片| 国产亚洲视频在线| 成人高潮免费视频| 国产在线观看福利| 蜜桃麻豆影像在线观看| 色婷婷精品大视频在线蜜桃视频| 美女在线视频一区二区| 国产成人精品福利| 中文字幕精品在线| 久久中文字幕在线观看| 石原莉奈在线亚洲三区| 91精品国产一区二区三区动漫 | 中文字幕 视频一区| 国产福利一区二区三区视频| 快播亚洲色图| 直接在线观看的三级网址| 一本色道a无线码一区v| 日批视频在线看| 国产一区二区三区网| 欧美成人精品在线| 国产主播第一页| 成人性生交大片免费看中文网站 | 欧美午夜一区| 国产欧美亚洲精品| 手机亚洲第一页| 一区二区三区在线视频观看58| caopor在线视频| 激情亚洲另类图片区小说区| 久久夜色精品国产亚洲aⅴ| 日韩精品久久久久久免费| 国产精品69久久久久水密桃| 亚洲免费视频一区| sese综合| 欧美精品一区二区不卡| 国产精品视频一区二区三 | 国产一级在线观看| 亚洲成精国产精品女| 五月天婷婷在线观看视频| 欧美亚洲在线日韩| 日本高清不卡的在线| 黄色三级网站在线观看| 亚洲人精品午夜| 99国产精品久久久久久| 教室别恋欧美无删减版| 欧美一级片免费在线| 亚洲成人一级片| 亚洲乱码日产精品bd| 欧美美女一级片| 日本大胆欧美| 国产精品老牛影院在线观看| 毛片在线免费| 欧美小视频在线观看| 少妇一级淫片免费放播放| 亚洲天堂男人| 国产日韩亚洲精品| 超碰97免费在线| 亚洲国产成人久久| 日韩三级视频在线播放| 不卡欧美aaaaa| 青青草国产精品视频| 免费成人蒂法| 欧美亚洲成人免费| 免费在线观看污视频| 欧美日韩国产中文精品字幕自在自线| 日本一区二区免费视频| 99精品视频网| 欧美视频1区| 欧美日韩精品免费观看视欧美高清免费大片| 日韩禁在线播放| 日韩美一区二区| 中文字幕 久热精品 视频在线| 在线观看的毛片| 国产精品黑丝在线播放 | 日韩欧美四区| 青青草成人在线| www亚洲人| 56国语精品自产拍在线观看| 午夜精品福利在线视频| 成人性视频网站| 精品免费国产一区二区| 91影院成人| 成人看片视频| 这里有精品可以观看| 亚洲网址你懂得| 国产绿帽刺激高潮对白| 亚洲一区二区三区视频在线播放 | 日本高清免费观看| 在线欧美不卡| 欧洲精品亚洲精品| www.久久草.com| 性视频1819p久久| 黄色片在线看| 欧美一区二区三区精品| 天天综合天天干| 国产精品国产a| 国产免费一区二区三区最新6| 亚洲影音一区| a级网站在线观看| 精品人人人人| 国产男人精品视频| 91超碰免费在线| 中文字幕日韩av电影| 亚洲AV午夜精品| 91豆麻精品91久久久久久| 小向美奈子av| 2021久久国产精品不只是精品| 成人性生生活性生交12| 亚洲国产高清视频| 一区二区视频国产| 日韩一级电影| 不卡视频一区二区| 久久久成人av毛片免费观看| 韩日精品中文字幕| 国产写真视频在线观看| 亚洲精品中文字幕av| av网站免费大全| 欧美亚洲综合在线| 久久一区二区三区视频| 一区二区三区日本| 国产精品1区2区3区4区| 99国产精品久久久久| 久久久久久久久久一区| 日韩精品电影在线| 国产精品无码人妻一区二区在线| 91日韩欧美| 日本中文不卡| 欧美激情极品| 成人动漫在线视频| 国产亚洲高清一区| 国产精品美女主播| 另类专区亚洲| 97精品一区二区视频在线观看| 日韩精品成人av| 一区二区亚洲欧洲国产日韩| 天天操天天插天天射| 欧美一区二区三区精品| 中文字幕乱码中文字幕| 日韩欧美亚洲范冰冰与中字| 国产性生活网站| 亚洲毛片av在线| www深夜成人a√在线| 中文一区二区完整视频在线观看| 野外性满足hd| 99视频精品免费视频| 亚洲av无码一区东京热久久| 国产在线播放一区三区四| 粉色视频免费看| 免费在线观看精品| 搡女人真爽免费午夜网站| 老司机精品久久| 欧美精品第三页| 久久一区二区三区超碰国产精品| 免费在线观看日韩视频| 久久国产直播| 免费黄色一级网站| 青椒成人免费视频| 性生生活大片免费看视频| 久热成人在线视频| 亚洲妇熟xx妇色黄蜜桃| 极品美女销魂一区二区三区| 91精品视频国产| 国产久卡久卡久卡久卡视频精品| 免费高清视频在线观看| 国产成人av网站| 99精品一区二区三区无码吞精| 国产成人免费视频精品含羞草妖精| 久久人人爽人人片| 成人久久18免费网站麻豆| 日本五十肥熟交尾| 91蜜桃在线免费视频| 97超碰在线免费观看| 国产午夜精品理论片a级大结局| 日本二区在线观看| 国产精品久久久久久久久晋中| 亚洲国产123| 亚洲一区在线观看网站| 91av在线免费视频| 在线视频中文字幕一区二区| 在线观看视频二区| 日韩一本二本av| 污污视频在线免费看| 亚洲欧美精品一区二区| 日本免费在线观看| 欧美激情a∨在线视频播放| 国产资源在线观看入口av| 国产成人涩涩涩视频在线观看| 欧美91在线|欧美| 波多野结衣成人在线| 久久99国内| 日本高清xxxx| 国产一区二区三区的电影 | 国产99一区视频免费| 美国黄色一级毛片| 国产精品家庭影院| 久久综合加勒比| 欧美在线|欧美| 99国产精品一区二区三区| 亚洲精品乱码久久久久久金桔影视 | 久久国产香蕉视频| 日韩欧美高清一区| 国产福利在线看| 久久久久久久久久久亚洲| 欧美精品资源| 国产超碰91| 日韩在线观看| 极品美女扒开粉嫩小泬| 精品一区二区三区在线播放视频| 亚洲av无码专区在线播放中文| 国产亚洲欧美色| 欧美日韩国产精品一区二区三区| 一本久道久久综合中文字幕 | 日本午夜小视频| 欧美揉bbbbb揉bbbbb| 少妇高潮久久久| 精品国产一区二区三区四区在线观看| 国产不卡人人| 亚洲一区亚洲二区| 欧美日韩老妇| 国产亚洲精品免费| 日本免费福利视频| 亚洲激情男女视频| 中文区中文字幕免费看| 日韩av在线播放资源| 成人黄视频在线观看| 国产精品扒开腿爽爽爽视频 | 精精国产xxx在线视频app| 成人精品视频久久久久| 国产成人一区| 欧美精品一区二区三区三州| 国产精品综合一区二区| 成人18视频免费69| 在线精品亚洲一区二区不卡| 丰满少妇一级片| 成人444kkkk在线观看| 国产精品久久久久久吹潮| 免费久久一级欧美特大黄| 黄色在线成人| 波多野结衣电影免费观看| 国产精品对白交换视频| 黄色av网站免费观看| 国产视频精品久久久| 国产乱码精品一区二三赶尸艳谈| 5566中文字幕一区二区| 亚洲最新色图| 亚洲高清av一区二区三区| 国产精品狼人久久影院观看方式| 好吊色在线视频| 亚洲欧美制服丝袜| 国产高清不卡| 欧美精品一区二区三区在线四季| 亚洲黄色av| 黄色网址在线视频| 婷婷综合在线观看| 日韩一级中文字幕| 久久久久久伊人| 欧美韩一区二区| 免费看又黄又无码的网站| 88xx成人网| 中文字幕欧美视频在线| av成人免费看| 亚洲欧洲精品一区| 九九**精品视频免费播放| 日韩三级久久久| 日韩一区二区免费在线观看| 色呦呦在线资源| 国产精品国产三级欧美二区 | 欧美高清videos高潮hd| 亚洲经典视频| 免费超爽大片黄| 99久久精品费精品国产一区二区| 国产做受高潮漫动| 亚洲乱码一区av黑人高潮| 三上悠亚激情av一区二区三区 | 欧美日韩一区在线观看视频| 久久久久久婷| 久久精品日韩无码| 欧美成人伊人久久综合网| av丝袜在线| 欧洲精品码一区二区三区免费看| 美女脱光内衣内裤视频久久网站| jizzjizz日本少妇| 日韩三区在线观看| 中文字幕资源网在线观看免费| 欧洲精品久久| 国产高清在线精品| 你懂的国产在线| 日韩中文在线视频| av毛片精品| 日韩精品无码一区二区三区免费| 中文字幕一区二区三| 亚洲精品一区二区三区蜜桃| 欧美在线激情视频| 99久久精品网站| 精品熟女一区二区三区| 欧美日韩午夜在线视频| 日本在线视频www鲁啊鲁| 欧美午夜精品久久久久免费视| 久久福利资源站| 日韩xxx高潮hd| 色噜噜亚洲精品中文字幕| www.亚洲一二| 天天插天天操天天射| 亚洲国产日韩一区二区| 成人综合影院| 国产视频99| 久久精品免费观看| 欧美一区二区三区四| 久久久国产一区二区| 久久99国内| 污污免费在线观看| 欧美精品电影在线播放| 最近高清中文在线字幕在线观看1|