精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

輕松解析本地PDF表格,基于LlamaIndex和UnstructuredIO打造RAG

發布于 2024-9-24 16:20
瀏覽
0收藏

1 使用 LlamaIndex 和 UnstructuredIO 檢索數據

在數據檢索領域,LlamaIndex 以其強大的工具和技術,為用戶帶來了全新的檢索體驗。這個框架的亮點在于索引系統的靈活性,用戶可以根據文檔的具體內容,量身定制索引策略,以適應不同的文檔結構。每種索引都設計得獨具匠心,能夠精準匹配各種文檔結構,確保信息檢索的準確性和高效性。

對于包含大量表格的 PDF 文件,建議使用 LlamaIndex 推薦的 RecursiveRetriever。這種遞歸檢索技術的精髓在于,它不僅深入挖掘與信息直接相關的節點,還會追溯這些節點與其它檢索器或查詢引擎之間的關聯,進而執行相應的檢索操作。

例如,某個節點精煉地總結了某個結構化表格的關鍵信息,并鏈接到該表格的 SQL 或 Pandas 查詢引擎。那么在檢索到這個節點之后,我們就能夠利用這些底層的查詢工具深入挖掘,從而獲取更詳盡的數據。這種深入的檢索方法,大大增強了我們從復雜數據集中提取有價值信息的能力。

輕松解析本地PDF表格,基于LlamaIndex和UnstructuredIO打造RAG-AI.x社區

為了有效實施這一策略,分步驟進行:

a. 首先,將 PDF 文件轉換成 HTML 格式,這一步已經完成。 

b. 接著,利用 UnstructuredIO 讀取轉換后的 HTML 文件。 

c. 對于 UnstructuredIO 從 HTML 中識別出的每個元素,無論是文本還是表格,都將其存儲到 LlamaIndex 的節點中。 

d. 這樣一來,就構建了一個包含文本和表格的節點列表。 

e. (可選步驟)可以專門篩選出包含表格的節點,并將這些表格發送到語言模型(LLM)以生成摘要。 

f. 然后,借助 LlamaIndex,LLM 代理將遞歸地檢索與問題相關的信息。

g. 最后,將這些檢索到的數據發送回 LLM,以生成最終的響應。

雖然這個過程聽起來頗為復雜,但得益于 LlamaIndex 提供的封裝良好的函數,我們執行這些步驟更加容易些。

1.1 讀取和處理數據

from llama_index.readers.file.flat_reader import FlatReader
from llama_index.node_parser import UnstructuredElementNodeParser
import os
import pickle
from pathlib import Path

os.environ["OPENAI_API_KEY"] = "<your openai api key>"

# 讀取數據
reader = FlatReader()
data = reader.load_data(Path('./The_Worlds_Billionaires.html'))

# 初始化 NodeParser
node_parser = UnstructuredElementNodeParser()

# 如果稍后想重用它
if not os.path.exists("qr_2023_nodes.pkl"):
    raw_nodes = node_parser.get_nodes_from_documents(data)
    pickle.dump(raw_nodes, open("the_world_billionaires_raw_nodes.pkl", "wb"))

# 基礎節點和節點映射
base_nodes, node_mappings = node_parser.get_base_nodes_and_mappings(
    raw_nodes
)

1.2 構建索引

from llama_index.retrievers import RecursiveRetriever
from llama_index.query_engine import RetrieverQueryEngine
from llama_index import VectorStoreIndex

vector_index = VectorStoreIndex(base_nodes_qr_2023)
vector_retriever = vector_index.as_retriever(similarity_top_k=3)
vector_query_engine = vector_index.as_query_engine(similarity_top_k=3)

recursive_retriever = RecursiveRetriever(
    "vector",
    retriever_dict={"vector": vector_retriever},
    node_dict=node_mappings_qr_2023,
)

query_engine = RetrieverQueryEngine.from_args(recursive_retriever)

query_engine.query("Who is the richest billionaire in 2020?")

1.3 其他類型的查詢索引

前面的例子已經展示了 UnstructuredElementNodeParser 如何無縫集成到 LlamaIndex + UnstructuredIO 的數據處理流程中,體現了其在提升數據處理效率和便捷性方面的強大能力。它采用了一種簡化的方法論,讓原本復雜的數據提取工作變得更加易于掌握。

鑒于 LlamaIndex 提供了多種索引類型和檢索技術,探索不同的選項以找到最適合你特定場景的解決方案是非常有價值的。不妨嘗試包括自動合并檢索器、結果重排序以及混合搜索在內的多種策略。

每種策略都有其獨到之處,而最終的效果也會隨著數據的復雜性而有所不同。通過實際測試和評估,你可以優化檢索流程,確保采用最合適的方法從數據集中提取關鍵信息。

2 如何從 PDF/HTML 中提取表格

這部分內容提供了一個可選的功能,它通過較低級別的 API 支持從 PDF 或 HTML 中提取表格,這可能對特定需求非常有用。雖然前面提到的方法在大多數情況下已經足夠有效,但如果需要更精細的控制,比如直接操作底層數據,那么可能需要在數據處理流程中加入額外的步驟,例如利用語言模型(LLM)來生成數據摘要。這一環節值得你進一步探索。

2.1 從 PDF 中提取表格

完成從 PDF 中提取表格的任務,可以依賴多種光學字符識別(OCR)技術和庫,同時也可以考慮使用云服務,但這涉及較高的成本。UnstructuredIO 提供了一個功能強大的 ??partition_pdf?? 方法,它通過多個參數讓你能夠靈活地在處理速度和識別準確性之間做出權衡,并且可以指定特定的深度學習模型來優化表格的提取效果。

from unstructured.partition.pdf import partition_pdf
from unstructured.staging.base import elements_to_json
import json

file_path = 'The_Worlds_Billionaires.pdf'
raw_pdf_elements = partition_pdf(
    filename=file_path,
    extract_images_in_pdf=False,
    infer_table_structure=True,
    chunking_strategy='by_title',
    max_characters=4000,
    new_after_n_chars=3800,
    combine_text_under_n_chars=2000,
    strategy = "hi_res"
)

# 將結果存儲在 json 中
elements_to_json(raw_pdf_elements, filename=f"./The_Worlds_Billionaires_Converted.json")

no_tables = 0
def process_json_file(input_filename):
    # 讀取 JSON 文件
    with open(f'./{input_filename}.json', 'r') as file:
        data = json.load(file)

    # 遍歷 JSON 數據并提取所需的表格元素
    extracted_elements = []
    for entry in data:
        if entry['type'] == 'CompositeElement':
            extracted_elements.append(entry['text'])
        if entry["type"] == "Table":
            no_tables += 1
            extracted_elements.append(entry["metadata"]["text_as_html"])

    # 將提取的元素寫入輸出文件
    with open(f"{input_filename}.txt", 'w') as output_file:
        for element in extracted_elements:
            output_file.write(element + "\n\n")  # 添加兩個換行符以分隔

process_json_file(f"The_Worlds_Billionaires_Converted")  # ## with new_file_name 是上面的 JSON 文件

print(f"Number of tables: {no_tables}")

### 加載數據

```python
# documents = SimpleDirectoryReader("./<folder_name>", 
#     input_files=['./<new_file_name.txt>']).load_data()

該方法能夠讀取 PDF 文件,并提取出其中的元素,如文本和表格。表格元素會以 JSON 格式保存為“text_as_html”。你可以逐一讀取和處理 JSON 文件中的每個元素,并將處理后的數據存儲為 TXT 文件,以便后續的 RAG 讀取。

需要注意的是,直接解析 PDF 的性能可能不盡如人意。目前,UnstructuredIO 提供了多種模型,例如 YOLOx,來幫助將 PDF 轉換為可操作的元素。然而,這些深度神經網絡模型在低配置計算機上表現不佳,建議在配備高性能 GPU 的機器上運行。唯一需要關注的問題是,當同時處理千份文檔時,系統的性能表現如何。

3 總結

開源項目和云服務提供商在應對 PDF 處理復雜性方面展現了行業的協同努力。

在這個不斷變化的環境中,沒有一種通用的方法能夠有效管理復雜的 PDF 文件。經驗表明,結合使用 LlamaIndex、UnstructuredIO 以及 PDF 到 HTML 的轉換,是一種簡單而高效的解決方案,能夠產生優異的結果。

此外,提高 RAG 準確性的關鍵策略之一是靈活地結合不同的索引和檢索器。這種多元化的方法認識到沒有一套固定的索引規則適用于所有情況,強調需要根據每種文檔的具體特性和處理細節來定制策略。通過接受這種靈活性,并使用量身定制的索引和檢索器組合,你可以構建一個更準確、更復雜的檢索系統,以應對數據的復雜性。

本文轉載自 ??AI科技論談??,作者: AI科技論談

收藏
回復
舉報
回復
相關推薦
欧美日韩一区二区视频在线| 中文字幕日韩有码| 亚洲色成人www永久在线观看| 性做久久久久久久久久| 一道本一区二区| 国产亚洲精品久久久久动| 日日干日日操日日射| 国产精品偷拍| 国产女人aaa级久久久级| 91亚洲精品久久久久久久久久久久| 久久精品99国产精| 狠狠综合久久av一区二区蜜桃| 欧美日本一区二区三区四区| 日韩国产欧美亚洲| 天天在线视频色| 成人丝袜18视频在线观看| 国产精品久久久| 国产五月天婷婷| 欧美3p在线观看| 亚洲精品av在线| 四季av一区二区三区| 国产直播在线| 一区二区在线看| 日韩精品久久久毛片一区二区| 性一交一乱一伧老太| 日本中文一区二区三区| 97国产一区二区精品久久呦| www.xxxx日本| 成人羞羞网站入口| 精品一区二区三区四区| 天天久久综合网| 欧美日韩国产网站| 亚洲第一福利一区| 激情成人开心网| 在线免费观看黄| 久久日韩粉嫩一区二区三区| 99re视频| 国产熟女一区二区丰满| 另类小说综合欧美亚洲| 日本中文字幕久久看| 日本三级午夜理伦三级三| 亚洲一区二区| 日韩在线中文字| 性猛交娇小69hd| 九九综合久久| 亚洲欧洲日韩国产| 日本高清www| 亚洲国产精品嫩草影院久久av| 欧美成人精品二区三区99精品| 拔插拔插华人永久免费| 国产91欧美| 欧美三级日韩三级国产三级| 88av.com| 欧美大片1688网站| 欧美三级韩国三级日本三斤| 亚洲欧美另类动漫| 成人一级视频| 欧美日韩你懂得| 国产三级精品三级在线| av在线精品| 91精品视频网| www.色.com| 1204国产成人精品视频| 精品国产不卡一区二区三区| 无码人妻丰满熟妇啪啪网站| 538任你躁精品视频网免费| 日韩欧美一级在线播放| 国产一级二级av| 国产美女撒尿一区二区| 日韩av在线免费观看| 欲求不满的岳中文字幕| 亚洲精华一区二区三区| 在线观看欧美www| 999精品久久久| 亚洲综合自拍| 亚洲91精品在线| 欧美a视频在线观看| 日本午夜精品视频在线观看 | 蜜桃视频在线观看一区| 国产日韩精品入口| 精品人妻一区二区三区麻豆91| 国产不卡在线播放| 欧美日本韩国国产| 求av网址在线观看| 亚洲一二三四在线| 可以免费在线看黄的网站| 欧美一级网址| 精品国产91久久久久久久妲己| 亚洲调教欧美在线| 国产真实有声精品录音| 久久精品国产96久久久香蕉| 国产无套粉嫩白浆内谢| 美女在线视频一区| 国产精品v欧美精品∨日韩| 全部免费毛片在线播放网站| 国产精品每日更新| 福利视频一二区| av在线不卡精品| 日韩免费电影一区| 久久久视频6r| 午夜精品亚洲| 国产精品69久久| www.亚洲黄色| 国产精品网站在线| 国产亚洲黄色片| 日本成人在线网站| 精品无码久久久久久国产| 欧美一区二区三区观看| 99精品国产在热久久婷婷| 国产免费久久av| 日本亚洲一区| 亚洲女与黑人做爰| 久久精品免费网站| 精品资源在线| 萌白酱国产一区二区| 黄色片视频免费| 成人激情免费网站| 国产精品波多野结衣| 丝袜美腿一区| 亚洲精品国产精品国自产在线| 希岛爱理中文字幕| 男男视频亚洲欧美| 久久久综合亚洲91久久98| 中文字幕有码在线视频| 欧美网站一区二区| 素人fc2av清纯18岁| 激情视频一区二区三区| 91免费的视频在线播放| 成人免费视频| 色拍拍在线精品视频8848| 久久久高清视频| 欧美 日韩 国产精品免费观看| 国产精品久久91| 精品福利视频导航大全| 午夜精品久久久久久| 可以看的av网址| 欧美69视频| 91免费国产网站| 黄色av网站在线播放| 欧美日韩三级一区| 91无套直看片红桃在线观看| 日韩成人一区二区三区在线观看| 久久久久久久久一区二区| 丁香花高清在线观看完整版| 日韩欧美中文一区| 精品国产精品国产精品| 国产资源在线一区| 精品91一区二区三区| 欧美成人免费全部网站| 中文字幕亚洲欧美日韩高清| 国产精品自拍第一页| 国产亚洲1区2区3区| 欧美黄色免费影院| 久草成人在线| 国产精品福利在线| 伊人在线视频| 91麻豆精品91久久久久久清纯| 疯狂撞击丝袜人妻| 国产一区二区看久久| 中文字幕色呦呦| 91综合久久爱com| 91国内精品久久| 日韩电影在线观看完整版| 欧美性猛交xxxx乱大交极品| 中文字幕第4页| 蜜臀av一区二区在线免费观看 | 午夜国产福利在线| 欧美女孩性生活视频| 日韩在线中文字幕视频| 国产激情偷乱视频一区二区三区 | 久久精品盗摄| 日韩精品最新在线观看| 久久精品xxxxx| 欧美成人精品在线观看| 黄色www视频| 欧美日韩中国免费专区在线看| 在线观看福利片| 麻豆精品久久精品色综合| 欧美日韩视频免费在线观看| 国产精品sss在线观看av| 日本精品久久久久久久| 91se在线| 欧美mv日韩mv亚洲| 黄色一级视频免费看| 成人欧美一区二区三区视频网页| 国产精久久久久| 久久亚洲影院| 中文字幕第50页| 日韩欧美国产大片| 91精品久久久久久| 91视频欧美| 中文字幕在线观看日韩| 国精品人妻无码一区二区三区喝尿| 精品国产鲁一鲁一区二区张丽| 欧美黄色高清视频| 风间由美性色一区二区三区 | av在线不卡电影| 欧美一级特黄a| 激情婷婷欧美| 超碰成人在线免费观看| 日韩有码一区| 91麻豆桃色免费看| 免费观看成人性生生活片| 久久成人亚洲精品| 国产资源在线看| 欧美不卡在线视频| 伊人22222| 精品国产91久久久久久| 亚洲成人生活片| 国产三级一区二区| 亚洲av成人无码一二三在线观看| 麻豆极品一区二区三区| 成人综合视频在线| 国产精品99免费看| 亚洲欧美国产不卡| 亚洲精品白浆高清| 国产精品一区二| 国产精品亲子伦av一区二区三区| 97av在线视频| 波多一区二区| 欧美激情精品久久久久久| 91大神在线网站| 在线电影中文日韩| 青青青草网站免费视频在线观看| 日韩精品一区二区三区中文不卡| 中文字幕二区三区| 色一情一乱一乱一91av| 中文在线观看免费网站| 一区二区三区四区不卡视频| 人与动物性xxxx| 中文幕一区二区三区久久蜜桃| 精品国产av色一区二区深夜久久 | 欧美久久久久久蜜桃| 国产情侣小视频| 欧美性开放视频| 99精品视频99| 精品日韩中文字幕| 天天插天天操天天干| 亚洲一区二区三区视频在线播放| 成人在线观看高清| 亚洲欧美精品午睡沙发| 国产精品国产精品88| 中文字幕日韩一区| 免费观看特级毛片| 中文字幕日韩欧美一区二区三区| 青青青视频在线播放| 中文字幕av资源一区| 一区二区伦理片| 国产精品乱码一区二区三区软件 | 在线视频欧美精品| 加勒比在线一区| 欧美无砖砖区免费| 97在线播放免费观看| 3d动漫精品啪啪| av高清一区二区| 精品粉嫩aⅴ一区二区三区四区| 亚洲av少妇一区二区在线观看| 欧美一区二区三区公司| 国产黄色高清视频| 精品1区2区在线观看| 日韩欧美亚洲系列| 亚洲视频精品在线| 日本精品在线| 久国内精品在线| 182在线播放| 国产精品久久久久久av福利| 九七影院97影院理论片久久| 亚洲一区二区三区久久| 97久久综合精品久久久综合| 精品国产乱码久久久久| 国产99精品| 在线电影看在线一区二区三区| 亚洲欧洲美洲一区二区三区| 日韩精品一区二区三区四| 亚洲国产一区二区三区高清| 日韩中文字幕组| 极品销魂美女一区二区三区| 黑森林av导航| 久久先锋资源网| 免费成人深夜夜行网站| 亚洲国产日韩a在线播放性色| 欧美日韩一二三四区| 欧美精品18+| 日日夜夜精品免费| 中文字幕精品网| 国内高清免费在线视频| 国产精品99久久久久久人| 成人在线视频区| 久久久久se| 99久久夜色精品国产亚洲1000部| 日韩免费在线观看av| 日韩精品一级二级| 丰满人妻一区二区三区大胸| 久久人人超碰精品| 日本妇女毛茸茸| 91极品视觉盛宴| 精品人妻少妇嫩草av无码专区| 亚洲图片在区色| 日本性爱视频在线观看| 国产精品国产三级国产aⅴ9色 | 黄网站免费久久| 国产人妻人伦精品1国产丝袜| 中文字幕日本乱码精品影院| 无码人妻精品一区二区三区蜜桃91| 日韩欧美一区在线观看| 成人午夜影视| 国产91成人在在线播放| 日韩精品一级| 五月天婷亚洲天综合网鲁鲁鲁| 亚洲精选一区| 青娱乐国产精品视频| 中文字幕巨乱亚洲| 黄色在线观看国产| 欧美一区二区黄色| 一级毛片视频在线| 欧美一级片在线播放| 大伊香蕉精品在线品播放| 女女同性女同一区二区三区按摩| 日韩电影在线一区二区| 欧美亚一区二区三区| 香蕉成人啪国产精品视频综合网| av观看在线免费| 久久精品视频在线观看| 九色成人搞黄网站| 欧美极品日韩| 香蕉久久夜色精品国产| 中文字幕a在线观看| 亚洲自拍与偷拍| www.97超碰| 美女久久久久久久| 亚洲成人a级片| 亚洲精品永久www嫩草| 日韩二区在线观看| 午夜精产品一区二区在线观看的| 欧美日韩午夜剧场| 婷婷在线免费视频| 久久人人爽人人爽人人片av高请 | 韩国三级中文字幕hd久久精品| 午夜精产品一区二区在线观看的| 一本久久综合亚洲鲁鲁五月天| 四虎在线免费看| 欧美亚洲成人网| 中文有码一区| 天美星空大象mv在线观看视频| 国产亚洲一区二区在线观看| 91精品国产高清一区二区三密臀| 国产丝袜精品第一页| 二吊插入一穴一区二区| 日产精品久久久一区二区| 日本不卡在线视频| 综合 欧美 亚洲日本| 欧美日韩国产综合一区二区三区| 永久免费av在线| 91免费福利视频| 在线国产一区二区| 曰本三级日本三级日本三级| 亚洲色图丝袜美腿| av一区二区三| 色综合天天狠天天透天天伊人| 国产精品高潮呻吟久久久久| 欧美a级免费视频| 北条麻妃一区二区三区| 亚洲一区二区91| 日韩欧美高清一区| 国产网红在线观看| 91久久久久久久久久久久久| 中文精品电影| 亚洲成人精品在线播放| 天天色 色综合| 日本啊v在线| 成人在线小视频| 欧美激情偷拍| 成人午夜福利一区二区| 欧美在线视频你懂得| 国产福利电影在线| 国产一区二区丝袜| 俺要去色综合狠狠| 91丨porny丨九色| 午夜精品成人在线| av在线二区| 99re视频在线| 日韩影院在线观看| 午夜爱爱毛片xxxx视频免费看| 亚洲第一区中文99精品| 日韩电影免费看| 在线看无码的免费网站| 岛国一区二区三区| 国产亚洲久一区二区| 欧美成人精品xxx| 成人影院网站ww555久久精品| 国产精品又粗又长| 国产日韩高清在线| 午夜精品久久久久久久99热黄桃 | 日韩一级片大全| 亚洲精品mp4| 四虎地址8848精品| 日本三级免费网站| 国产精品久久毛片av大全日韩| 色婷婷在线视频| 国产欧美日韩视频|