精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從RAG到多模態搜索看OpenAI的技術演進

原創 精選
人工智能
本文探討了信息檢索與文本生成領域的最新進展,特別關注了OpenAI的RAG模型及其在文本內容搜索上的應用。文章詳細介紹了gpt-4-vision-preview模型,這一模型標志著從結構化搜索向非結構化搜索的重大轉變,能夠有效處理和解釋多模態信息,如圖片、表格和文本。

作者 | 崔皓

審校 | 重樓

摘要

本文探討了信息檢索與文本生成領域的最新進展,特別關注了OpenAI的RAG模型及其在文本內容搜索上的應用。文章詳細介紹了gpt-4-vision-preview模型,這一模型標志著從結構化搜索向非結構化搜索的重大轉變,能夠有效處理和解釋多模態信息,如圖片、表格和文本。通過實際案例分析,文章展示了如何利用這些技術進行企業文檔管理、學術研究和媒體內容分析,為讀者提供了關于如何運用這些先進技術進行多模態數據處理的深入見解。

開篇

在人工智能的領域內,信息檢索與文本生成一直是兩個重要的研究方向。OpenAI的RAG(Retrieval-Augmented Generation)模型,作為這一領域的突破性成果,成功地將神經網絡的文本生成能力與大規模數據集的檢索功能結合起來。這一創新不僅提升了文本生成模型的準確性和信息豐富度,而且解決了傳統模型在應對復雜查詢時的局限性。

RAG模型的主流應用體現在文本內容的搜索上,例如企業知識庫的檢索。通過文本加載、切割、嵌入、索引等方法建立輸入與目標的相關性,最終將搜索結果呈現給用戶。然而,隨著信息類型的多樣化,傳統的文本搜索已經不能滿足所有的需求。

此時,OpenAI推出了gpt-4-vision-preview模型,這不僅是技術上的一大躍進,更標志著從結構化搜索走向非結構化搜索的重要轉變。該模型具備處理和解釋多模態信息的能力,無論是圖片、表格還是文本,都能夠被有效地摘要和搜索。這一進步極大地擴展了RAG功能的外延,為多模態數據處理開辟了新的道路。

例如,在企業文檔管理方面,gpt-4-vision-preview可以分析含有圖表和文本的PDF格式文檔,如合同和報告,提供精準的摘要和關鍵信息提取。在學術研究領域,這一技術能自動整理和分析學術論文中的數據和圖像,極大提升研究效率。而在媒體內容分析上,新聞報道中的圖片與文本內容可以被整合分析,為媒體從業者提供更深入的洞察。

今天我會通過這篇文章,手把手帶大家如何實現對一個多模態PDF的分析和搜索。

場景分析

那么今天的主角就要登場了,如下圖所示,這個PDF文件是一個典型的財經市場分析報告,包含了豐富的文字、圖表和數據。

財經市場分析報告財經市場分析報告

報告不僅包含了詳細的文本描述,如市場趨勢的分析和預測,還包括了大量的圖表和數據,如股票市場的指數、固定收益產品的收益率和關鍵利率等。這些圖表和數據在理解整個市場情況中起著至關重要的作用。

然而,人工處理這類多模態的PDF文件常常是耗時且勞力密集的。分析師需要仔細閱讀文本,解讀圖表和數據,并將這些信息綜合起來以形成完整的市場觀點。這個過程不僅耗時,還容易出錯,特別是在處理大量復雜數據時。

傳統的RAG模型在處理這類多模態PDF文件時顯得力不從心。盡管RAG在處理和生成基于文本的信息方面表現出色,但它主要針對文字內容進行搜索和生成,對于非文本元素,如圖表和數據,其處理能力有限。這就意味著,在使用RAG模型進行信息檢索時,對于包含非文本元素的復雜PDF文件,它可能無法充分理解和利用文件中的所有信息。

因此,針對這種業務場景就需要使用OpenAI推出的多模態的處理方式,利用GPT-4-Vision-Preview模型處理文本、圖表和數據,以提供更加全面和準確的分析。從而提高分析效率,還能減少由于人工處理的錯誤而造成的風險。

技術分析

在多模態PDF文檔處理中,首要挑戰是識別文檔中的非結構化信息,如圖片、表格和文字。這里我們需要使用unstructured庫,它提供了用于攝取和預處理圖像和文本文檔的開源組件,如PDF、HTML、Word文檔等。它的主要用途是簡化和優化大型語言模型(LLMs)的數據處理工作流程。unstructured的模塊化功能和連接器形成了一個簡化數據攝取和預處理的一致系統,使其適應不同平臺,有效地將非結構化數據轉換為結構化輸出

除此之外,為了更好處理PDF文檔,我們還引入了poppler-utils工具, 它被用來提取圖片和文本。特別是其中的pdfimages和pdftotext工具,分別用于從PDF中提取嵌入的圖像和全部文本,這對于多模態PDF的分析至關重要。

備注:Poppler是一個PDF文檔渲染庫,可以使用兩種后端進行繪制,分別是Cairo和Splash。這兩種后端的特性有所不同,Poppler的功能也可能依賴于它使用的后端。此外,還有一個基于Qt4的繪圖框架“Arthur”的后端,但這個后端不完整且已停止開發。Poppler為Glib和Qt5提供綁定,這些綁定提供了對Poppler后端的接口,盡管Qt5綁定只支持Splash和Arthur后端。Cairo后端支持矢量圖形的抗鋸齒和透明對象,但不支持平滑位圖圖像如掃描文檔,并且不依賴于X Window系統,因此Poppler可以在Wayland、Windows或macOS等平臺上運行。Splash后端支持位圖的縮小過濾。Poppler還附帶一個文本渲染后端,可通過命令行工具pdftotext調用,用于在命令行中搜索PDF中的字符串,例如使用grep工具。

解決了圖片、表格和問題的提取問題之后,在將圖片和表格內容轉換為可分析的文本格式方面,Tesseract-OCR工具發揮了關鍵作用。盡管Tesseract不能直接處理PDF文件,但它可以將轉換為.tiff格式的PDF文件中的圖像轉換為文本。這個過程是處理多模態PDF的關鍵環節,使得原本以圖像或表格形式存在的信息轉化為可供進一步分析的文本形式。

當然除了上面提到的識別和分離PDF元素的技術之外,例如:向量存儲、向量索引器等技術也會用到,由于在傳統的RAG 中經常用到,這里就不贅述了。

代碼實現

經過場景和技術分析之后,我們了解到如果需要對PDF進行多模態的分析和查詢,首先是要對其中的圖片、表格、文字進行識別。這里我們會引入unstructured 、Poppler庫以及Tesseract-OCR工具。有了這些工具的加持讓我們的編碼過程更加如虎添翼。

安裝庫和工具

!pip install langchain unstructured[all-docs] pydantic lxml openai chromadb tiktoken -q -U
!apt-get install poppler-utils tesseract-ocr

上面的庫有幾個之前沒有提到的,這里做一下說明。

  • pydantic:用于數據驗證和設置管理。
  • lxml: XML和HTML處理庫。
  • openai:與OpenAI的API進行交互。
  • chromadb:用于向量數據庫管理或數據存儲

提取PDF信息

既然工具都準備好了,接下來就是處理PDF 的內容了,代碼如下:

from typing import Any

from pydantic import BaseModel
from unstructured.partition.pdf import partition_pdf

# 設置存放圖像的路徑
images_path = "./images"

# 調用 partition_pdf 函數處理PDF文件,提取其中的元素
raw_pdf_elements = partition_pdf(
    filename="weekly-market-recap.pdf",           # 指定要處理的PDF文件名
    extract_images_in_pdf=True,                   # 設置為True以從PDF中提取圖像
    infer_table_structure=True,                   # 設置為True以推斷PDF中的表格結構
    chunking_strategy="by_title",                 # 設置文檔切分策略為按標題切分
    max_characters=4000,                          # 設置每個塊的最大字符數為4000
    new_after_n_chars=3800,                       # 在達到3800字符后開始新的塊
    combine_text_under_n_chars=2000,              # 將少于2000字符的文本組合在一起
    image_output_dir_path=images_path,            # 指定輸出圖像的目錄路徑
)

這段Python代碼使用了pydantic和unstructured庫來處理PDF文件。下面是代碼的逐行解釋:

images_path = "./images":設置一個變量images_path,用于存放從PDF中提取的圖像。

接下來調用partition_pdf函數,這個函數用于處理PDF文件并提取其中的元素:

  • filename="weekly-market-recap.pdf":指定要處理的PDF文件名。
  • extract_images_in_pdf=True:設置為True以從PDF中提取圖像。
  • infer_table_structure=True:設置為True以推斷PDF中的表格結構。
  • chunking_strategy="by_title":設置文檔切分策略為按標題切分。
  • max_characters=4000:設置每個塊的最大字符數為4000。
  • new_after_n_chars=3800:在達到3800字符后開始新的塊。
  • combine_text_under_n_chars=2000:將少于2000字符的文本組合在一起。
  • image_output_dir_path=images_path:指定輸出圖像的目錄路徑。

可以通過命令獲取PDF圖片的信息,由于通過上面代碼將圖片保存到images目錄下面了,所以通過如下代碼展示圖片。

from IPython.display import Image
Image('images/figure-1-1.jpg')

從PDF 中抽取的圖片信息從PDF 中抽取的圖片信息

為圖片信息產生摘要

下面這段代碼定義了一個名為ImageSummarizer的類,用于生成圖像內容的摘要信息

# 引入所需的庫
import base64
import os

# 從langchain包導入ChatOpenAI類和HumanMessage模塊
from langchain.chat_models import ChatOpenAI
from langchain.schema.messages import HumanMessage

# 定義圖像摘要類
class ImageSummarizer:

    # 初始化函數,設置圖像路徑
    def __init__(self, image_path) -> None:
        self.image_path = image_path
        self.prompt = """你的任務是將圖像內容生成摘要信息,以便檢索。
        這些摘要將被嵌入并用于檢索原始圖像。請給出一個簡潔的圖像摘要,以便于檢索優化。
"""

    # 定義函數將圖像轉換為base64編碼
    def base64_encode_image(self):
        with open(self.image_path, "rb") as image_file:
            return base64.b64encode(image_file.read()).decode("utf-8")

    # 定義摘要函數
    def summarize(self, prompt = None):
        # 獲取圖像的base64編碼數據
        base64_image_data = self.base64_encode_image()
        # 創建ChatOpenAI對象,使用gpt-4-vision預覽模型,最大token數為1000
        chat = ChatOpenAI(model="gpt-4-vision-preview", max_tokens=1000)

        # 調用chat對象的invoke方法,發送包含文本和圖像的消息
        response = chat.invoke(
            [
                #人類提示語的輸入
                HumanMessage(
                    content=[
                        {
                            "type": "text",
                            "text": prompt if prompt else self.prompt
                        },
                        {
                            "type": "image_url",
                            "image_url": {"url": f"data:image/jpeg;base64,{base64_image_data}"},
                        },
                    ]
                )
            ]
        )
        # 返回base64編碼的圖像數據和響應內容
        return base64_image_data, response.content

以下是代碼的詳細解釋:

1.導入庫

導入base64和os庫,用于圖像編碼和操作系統相關功能。

從Langchain包中導入ChatOpenAI類和HumanMessage模塊,這些用于與OpenAI的聊天模型交互。

2.定義圖像摘要類 ImageSummarizer

__init__方法初始化圖像路徑和摘要生成的提示語。

base64_encode_image方法將圖像文件讀取并轉換為base64編碼,這種編碼格式適用于在網絡上傳輸圖像,便于圖片信息與GPT模型交互。

3. 定義摘要函數 summarize

使用base64_encode_image方法獲取圖像的base64編碼數據。

創建ChatOpenAI對象,指定使用gpt-4-vision-preview模型,最大token數設為1000,用于處理圖像摘要任務。

使用chat.invoke方法,向模型發送包含文本提示和圖像數據的消息。文本提示用于指導模型生成圖像的摘要。

創建summarize函數的目的就是為了給圖片生成摘要,接下來就是調用該函數。下面這段代碼創建圖像數據和圖像摘要的列表,并遍歷指定路徑下的所有文件以生成這些信息。

# 創建圖像數據和圖像摘要的列表
image_data_list = []
image_summary_list = []

# 遍歷指定路徑下的所有文件
for img_file in sorted(os.listdir(images_path)):
    # 檢查文件擴展名是否為.jpg
    if img_file.endswith(".jpg"):
        # 創建ImageSummarizer對象
        summarizer = ImageSummarizer(os.path.join(images_path, img_file))
        # 調用summarize方法生成摘要
        data, summary = summarizer.summarize()
        # 將base64編碼的圖像數據添加到列表
        image_data_list.append(data)
        # 將圖像摘要添加到列表
        image_summary_list.append(summary)

代碼解釋:

1. 初始化列表

image_data_list和image_summary_list兩個列表被創建用于存儲圖像的base64編碼數據和對應的圖像摘要。

2.遍歷指定路徑下的所有文件

使用os.listdir(images_path)列出指定路徑(images_path)下的所有文件,并使用sorted函數對文件名進行排序。

3. 檢查和處理每個文件

通過if img_file.endswith(".jpg")檢查文件擴展名是否為.jpg,以確保只處理圖像文件。

對于每個.jpg文件,創建ImageSummarizer對象,傳入圖像的完整路徑。

調用summarize方法生成該圖像的摘要。

將返回的base64編碼圖像數據添加到image_data_list列表。

將返回的圖像摘要添加到image_summary_list列表。

最終會生成兩個列表:一個包含了圖像文件的base64編碼數據,另一個包含了相應的圖像摘要,這些信息可以用于圖像檢索或其他處理。

我們通過如下代碼來查看圖片的摘要信息

image_summary_list

輸出結果如下:

['這個圖像包含了三個不同的圖表,提供了有關假日銷售增長、各行業一周和年迄今(YTD)的表現對比的數據。\n\n第一個圖表是一個柱狀圖,標題為“Holiday sales growth is set to return to its pre-pandemic pace”,展示了2010年至2023年間11月和12月銷售同比增長的實際數據和預測數據。藍色柱子代表實際數據,條紋柱子代表預測數據,藍色虛線代表2010-2019年平均增長率,綠色虛線代表2020-2022年平均增長率。\n\n第二個圖表是一個色塊圖,分為兩部分,展示了“V”, “B”, 和 “G”在不同的尺度(大、中、小)下的1周和年迄今(YTD)的表現。數值在色塊內以白色文字顯示。\n\n第三個圖表是兩個并列的柱狀圖,分別顯示了不同行業在1周和年迄今(YTD)的表現。左側的藍色柱狀圖展示了一周的變化,右側的綠色柱狀圖展示了年迄今的變化。圖表的Y軸代表了百分比變化,X軸列出了不同的行業。\n\n摘要:三個圖表顯示假日銷售增長預計將恢復至疫情前水平,不同市場尺度(大、中、小)的1周和年迄今表現,以及不同行業的1周和年迄今表現數據。']

從結果可以看出GPT-4-Vision-Preview 模型對圖片是能夠識別,并且對一些細節也能夠把控。

識別表格和文本信息

圖片、表格和文本信息組成了PDF的完整內容, 在識別了圖片信息之后,就需要對表格和文本信息下手了。

下面這段代碼定義了處理PDF文檔元素的過程。

# 定義一個基本模型Element,用于存儲文檔元素的類型和文本內容
class Element(BaseModel):
    type: str
    text: Any

# 創建表格元素和文本元素的空列表
#表格信息
table_elements = []
#文本信息
text_elements = []

# 遍歷從PDF中分割出的所有元素
for element in raw_pdf_elements:
    # 判斷元素是否為表格:非結構化-文檔-元素-表格
    if "unstructured.documents.elements.Table" in str(type(element)):
        # 如果是表格,將其添加到表格元素列表
        table_elements.append(Element(type="table", text=str(element)))
    # 判斷元素是否為復合元素
    elif "unstructured.documents.elements.CompositeElement" in str(type(element)):
        # 如果是復合元素,將其添加到文本元素列表
        text_elements.append(Element(type="text", text=str(element)))

代碼解釋如下:

1.定義Element基本模型

使用pydantic的BaseModel定義了一個名為Element的類,用于存儲文檔元素的類型(如表格或文本)和文本內容。這個類使用類型注解str和Any定義了兩個屬性:type(元素類型)和text(元素內容)。

2. 創建空列表以存儲表格和文本元素

table_elements和text_elements分別用于存儲表格信息和文本信息。

3. 遍歷PDF中的元素

對于從PDF文件中分割出的每個元素(在raw_pdf_elements中),代碼通過判斷元素的類型來分類處理:

如果元素是表格(unstructured.documents.elements.Table),則創建Element對象,并將其類型設為"table",文本內容設為元素的字符串表示,然后將此對象添加到table_elements列表。

如果元素是復合元素(unstructured.documents.elements.CompositeElement),則以相似的方式處理,將其類型設為"text",并添加到text_elements列表。

在對PDF文檔中的不同元素進行分類和存儲,接下來就需要對其進行處理,對這些表格和文字進行總結。代碼如下:

# 導入所需模塊
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser

# 定義用于生成總結的提示文本
prompt_text = """
  您負責簡潔地總結表格或文本塊,中文輸出。:
  {element}
"""
# 從模板創建提示
prompt = ChatPromptTemplate.from_template(prompt_text)

# 創建總結鏈,結合提示和GPT-3.5模型
summarize_chain = {"element": lambda x: x} | prompt | ChatOpenAI(temperature=0, model="gpt-3.5-turbo") | StrOutputParser()

# 從表格元素中提取文本
tables = [i.text for i in table_elements]
# 使用總結鏈批量處理表格文本,設置最大并發數為5
table_summaries = summarize_chain.batch(tables, {"max_concurrency": 5})

# 從文本元素中提取文本
texts = [i.text for i in text_elements]
# 使用總結鏈批量處理文本,設置最大并發數為5
text_summaries = summarize_chain.batch(texts, {"max_concurrency": 5})

這段代碼用于生成表格和文本塊的總結,利用LangChain和GPT-3.5模型:

1.導入模塊

導入LangChain的ChatOpenAI、ChatPromptTemplate和StrOutputParser模塊。

2.定義生成總結的提示文本

定義了一個用于指導模型總結表格或文本塊的提示文本模板。

3.創建提示和總結鏈

使用ChatPromptTemplate.from_template根據定義的提示文本創建提示。

創建一個名為summarize_chain的總結鏈,該鏈結合了提示、GPT-3.5模型(由于生成總結的能力不需要用到GPT-4,為了節省Token使用GPT-3.5),和字符串輸出解析器(StrOutputParser)。

4.處理表格和文本元素

從table_elements中提取表格文本,使用summarize_chain.batch方法批量處理這些文本,最大并發數設為5。

從text_elements中提取文本塊文本,同樣使用summarize_chain.batch批量處理,最大并發數設為5。

我們將總結的內容打印如下:

表格和文字摘要信息表格和文字摘要信息

創建索引器

好了,目前為止我們將PDF中的圖片、表格和文本信息都逐一抽取出來了并針對這些信息生成了摘要,其目的是方便后續搜索,在做好這一系列準備之后就需要安排上索引器了索引器顧名思義就是對被搜索信息添加上索引,方便搜索之用。

下面這段代碼創建了一個多向量檢索器,用于存儲和檢索文本、表格和圖像數據:

import uuid  # 導入uuid庫,用于生成唯一標識符

# 導入所需的langchain模塊
from langchain.embeddings import OpenAIEmbeddings
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.schema.document import Document
from langchain.storage import InMemoryStore
from langchain.vectorstores import Chroma

id_key = "doc_id"  # 設置文檔的唯一標識鍵

# 初始化多向量檢索器,初始為空,文字,圖片,表格
retriever = MultiVectorRetriever(
    vectorstore=Chroma(collection_name="summaries", embedding_function=OpenAIEmbeddings()),  # 使用OpenAI的嵌入方法
    docstore=InMemoryStore(),  # 使用內存存儲文檔
    id_key=id_key,  # 設置文檔的唯一標識鍵
)

# 為文本添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in texts]  # 為每個文本生成一個唯一的UUID
# 創建文本的文檔對象并添加到檢索器
summary_texts = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})  # 將文本封裝為文檔對象
    for i, s in enumerate(text_summaries)
]
retriever.vectorstore.add_documents(summary_texts)  # 將文本文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, texts)))  # 將文本文檔的ID和內容存儲在內存存儲中

# 為表格添加唯一標識
table_ids = [str(uuid.uuid4()) for _ in tables]  # 為每個表格生成一個唯一的UUID
# 創建表格的文檔對象并添加到檢索器
summary_tables = [
    Document(page_content=s, metadata={id_key: table_ids[i]})  # 將表格封裝為文檔對象
    for i, s in enumerate(table_summaries)
]
retriever.vectorstore.add_documents(summary_tables)  # 將表格文檔添加到向量存儲中
retriever.docstore.mset(list(zip(table_ids, tables)))  # 將表格文檔的ID和內容存儲在內存存儲中

# 為圖像添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in image_data_list]  # 為每個圖像生成一個唯一的UUID
# 創建圖像的文檔對象并添加到檢索器
summary_images = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})  # 將圖像封裝為文檔對象
    for i, s in enumerate(image_summary_list)
]
retriever.vectorstore.add_documents(summary_images)  # 將圖像文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, image_data_list)))  # 將圖像文檔的ID和內容存儲在內存存儲中

代碼解釋:

1. 初始化多向量檢索器

使用Chroma作為向量存儲,它利用OpenAI嵌入方法將文檔轉換為向量形式。

使用InMemoryStore作為文檔存儲,這是一種將文檔存儲在內存中的方法。

設置id_key為文檔的唯一標識鍵。

2. 處理文本數據

為每個文本創建唯一標識符(UUID)。

將文本總結封裝為Document對象,并添加到向量存儲和文檔存儲中。

3. 處理表格數據

類似地,為每個表格創建UUID。

將表格總結封裝為Document對象,并添加到向量存儲和文檔存儲中。

4. 處理圖像數據

為每個圖像創建UUID。

將圖像總結封裝為Document對象,并添加到向量存儲和文檔存儲中。

這段代碼建立了一個系統,可以存儲和檢索多種類型的文檔數據,包括文本、表格和圖像,利用唯一標識符來管理每個文檔。這對于處理和組織大量復雜數據非常有用。

生成多模態查詢提示語

下面這段代碼包含多個函數,用來處理和展示圖像與文本數據。

from PIL import Image
from IPython.display import HTML, display
import io
import re

# 顯示基于base64編碼的圖片
def plt_img_base64(img_base64):
    display(HTML(f''))

# 檢查base64數據是否為圖片
def is_image_data(b64data):
    """
    通過查看數據開頭來檢查base64數據是否為圖片
    """
    image_signatures = {
        b"\xFF\xD8\xFF": "jpg",
        b"\x89\x50\x4E\x47\x0D\x0A\x1A\x0A": "png",
        b"\x47\x49\x46\x38": "gif",
        b"\x52\x49\x46\x46": "webp",
    }
    try:
        header = base64.b64decode(b64data)[:8]  # 解碼并獲取前8個字節
        for sig, format in image_signatures.items():
            if header.startswith(sig):
                return True
        return False
    except Exception:
        return False

# 分離base64編碼的圖片和文本
def split_image_text_types(docs):
    """
    分離base64編碼的圖片和文本
    """
    b64_images = []
    texts = []
    for doc in docs:
        # 檢查文檔是否為Document類型并提取page_content
        if isinstance(doc, Document):
            doc = doc.page_content
        #是圖片
        if is_image_data(doc):
            b64_images.append(doc)
        else:
            texts.append(doc)
    return {"images": b64_images, "texts": texts}

# 根據數據生成提示信息
def img_prompt_func(data_dict):
    messages = []

    # 如果存在圖片,則添加到消息中
    #圖片的信息單獨拿出來, 需要和提示語一起傳給大模型的。
    if data_dict["context"]["images"]:
        for image in data_dict["context"]["images"]:
            image_message = {
                "type": "image_url",
                "image_url": {"url": f"data:image/jpeg;base64,{image}"},
            }
            messages.append(image_message)

    # 添加文本到消息
    formatted_texts = "\n".join(data_dict["context"]["texts"])
    text_message = {
        "type": "text",
        "text": (
            "You are financial analyst.\n"
            "You will be given a mixed of text, tables, and image(s) usually of charts or graphs.\n"
            "Use this information to answer the user question in the finance. \n"
            f"Question: {data_dict['question']}\n\n"
            "Text and / or tables:\n"
            f"{formatted_texts}"
        ),
    }
    messages.append(text_message)
    print(messages)
    return [HumanMessage(content=messages)]

代碼解釋:

1. 顯示基于base64編碼的圖片 (plt_img_base64)

這個函數的目的是顯示base64編碼的圖片。

2. 檢查base64數據是否為圖片 (is_image_data)

通過檢查base64編碼數據的開頭是否符合常見圖像格式(如JPEG, PNG, GIF, WEBP)的簽名來判斷數據是否為圖片。

3. 分離base64編碼的圖片和文本 (split_image_text_types)

此函數遍歷文檔集合,使用is_image_data函數來區分哪些是圖像數據,哪些是文本,然后將它們分別存儲在兩個列表中。

4. 根據數據生成提示信息 (img_prompt_func)

此函數生成用于向LangChain的大模型傳遞的消息。對于每個圖像,創建包含圖像URL的消息;對于文本數據,創建包含提示文本和問題的消息。

需要對"text"進行特別說明,它定義消息的具體文本內容。

首先說明了用戶角色:"You are financial analyst."(你是一名財務分析師)。

緊接著說明任務類型和數據格式:"You will be given a mixed of text, tables, and image(s) usually of charts or graphs."(你將會得到包含文本、表格和圖像(通常是圖表或圖形)的混合數據)。

提示使用這些信息回答財務問題:"Use this information to answer the user question in the finance."(使用這些信息來回答財務方面的用戶問題)。

{data_dict['question']}:這里{}內的部分是Python字符串格式化的占位符,用于插入變量data_dict中的'question'鍵所對應的值,即用戶提出的問題。

"Text and / or tables:\n":提示文本,說明接下來的內容是文本和/或表格。

f"{formatted_texts}":再次使用字符串格式化將變量formatted_texts(格式化后的文本數據)插入到消息中。

實現金融分析查詢

萬事俱備只欠東風,現在開始利用GPT-4-Vision-Preview模型進行推理了, 我們嘗試對索引器提問,看看結果如何。

下面這段代碼實現了一個基于RAG(Retrieval Augmented Generation)模型的查詢處理管道。

from langchain.schema.runnable import RunnableLambda, RunnablePassthrough
# 創建ChatOpenAI模型實例
model = ChatOpenAI(temperature=0, model="gpt-4-vision-preview", max_tokens=1024)

# 構建RAG(Retrieval Augmented Generation)管道
chain = (
    {
        "context": retriever | RunnableLambda(split_image_text_types), # 使用檢索器獲取內容并分離圖片和文本
        "question": RunnablePassthrough(), # 傳遞問題
    }
    | RunnableLambda(img_prompt_func) # 根據圖片和文本生成提示信息
    | model # 使用ChatOpenAI模型生成回答
    | StrOutputParser() # 解析模型的字符串輸出
)

# 定義查詢問題
query = "Which year had the highest holiday sales growth?"

# 調用chain的invoke方法執行查詢
chain.invoke(query)

代碼解釋:

1.創建ChatOpenAI模型實例

使用ChatOpenAI類創建模型實例,配置了溫度參數為0、使用的模型為gpt-4-vision-preview,最大token數設為1024。

2.構建RAG管道 (chain)

retriever | RunnableLambda(split_image_text_types):首先使用retriever檢索內容,然后通過RunnableLambda調用split_image_text_types函數分離圖片和文本。

RunnablePassthrough():用于直接傳遞查詢問題。

RunnableLambda(img_prompt_func):根據檢索到的圖片和文本生成提示信息。

model:使用配置好的ChatOpenAI模型根據生成的提示信息生成回答。

StrOutputParser():解析模型輸出的字符串。

3. 定義查詢問題 (query)

定義了一個字符串query作為查詢問題,例如:“Which year had the highest holiday sales growth?”(哪一年的假日銷售增長最高?)。

4. 執行查詢 (chain.invoke(query))

調用chain的invoke方法執行查詢,根據問題和檢索到的信息生成答案。

總的來說,這個代碼片段建立了一個復雜的查詢處理流程,結合了內容檢索、數據分離、提示生成和模型回答,用于處理和回答基于文本和圖像數據的復雜問題。

來查看輸出的結果

Based on the chart provided, the year with the highest holiday sales growth is 2021, with a growth rate of 12.7%. This is indicated by the tallest bar in the bar chart under the "Actual" section, which represents the actual year-over-year growth rate for November and December sales.

我們將其翻譯成中文如下:

根據提供的圖表,2021年的假日銷售增長率最高,為12.7%。這一點從“實心”部分的柱狀圖中最高的柱子可以看出,該柱子代表了11月和12月的年度同比增長率。

PDF中圖表部分與大模型回應對比PDF中圖表部分與大模型回應對比

通過大模型的回應,再對比PDF中描述假日銷售增長率的柱狀圖,可以明顯發現2021年的增長率是最高的,為12.7%,并且對于柱子“實心”的描述也是正確的。看來OpenAI提供的多模態功能起到了作用。

總結

文章通過分析和實例演示,清晰地展示了OpenAI的最新技術在多模態數據處理方面的潛力和應用前景。通過對unstructured庫、Poppler工具和Tesseract-OCR工具的細致介紹和代碼實現的解讀,文章不僅為讀者提供了理論知識,也指導了如何實際操作和應用這些工具。文章的結論強調了gpt-4-vision-preview模型在提高分析效率和減少人工錯誤方面的價值。

作者介紹

崔皓,51CTO社區編輯,資深架構師,擁有18年的軟件開發和架構經驗,10年分布式架構經驗。

責任編輯:華軒 來源: 51CTO
相關推薦

2025-01-02 08:36:25

多模態RAG深度學習自然語言處理

2025-10-27 08:25:01

2025-05-20 08:30:00

2025-09-01 08:53:57

2023-08-28 16:10:00

容器化DockerKubernetes

2025-04-22 07:00:00

2024-08-20 10:30:00

2024-10-29 11:54:25

2022-01-12 07:06:42

DPU網卡GPU

2022-06-10 07:42:37

搜索推薦架構

2022-10-27 09:59:55

視音學習

2019-04-12 15:36:06

KubernetesReleaseWindows

2023-11-14 11:40:00

OpenAI人工智能

2024-05-21 07:54:30

視頻多模態語義檢索算法

2025-05-26 09:49:59

多模態智能體RAG

2025-06-10 03:30:00

2022-06-02 08:37:10

架構DDDMVC

2024-01-11 16:24:12

人工智能RAG

2025-02-06 13:50:06

2025-08-05 02:25:00

多模態大語言模型
點贊
收藏

51CTO技術棧公眾號

永久看片925tv| 亚洲综合在线网站| 欧美在线 | 亚洲| 久久久久看片| 免费97视频在线精品国自产拍| 久久发布国产伦子伦精品| 成人免费网站视频| 日韩久久一区二区| 免费国产一区二区| 国产精品毛片一区视频播| 亚洲美女一区| 久久久成人精品视频| 国产美女喷水视频| 日韩欧美一级| 欧美少妇xxx| 性欧美大战久久久久久久| 免费黄网站在线| 久久综合精品国产一区二区三区| 成人a在线视频| 欧产日产国产69| 国产精品啊啊啊| 最近中文字幕日韩精品 | 国产尤物av一区二区三区| 视频污在线观看| 国产福利精品导航| 国产一区二区丝袜| 成人一二三四区| 亚洲综合精品| 久久男人的天堂| 一区视频免费观看| 亚洲成av人片一区二区密柚 | 岛国成人毛片| 欧美极品少妇xxxxⅹ高跟鞋 | 欧美日韩国产丝袜美女| 强开小嫩苞一区二区三区网站| 国产系列在线观看| 久久中文娱乐网| 99一区二区| 99久久亚洲精品日本无码| 青娱乐精品在线视频| 浅井舞香一区二区| 久久露脸国语精品国产91| 欧美激情视频一区二区三区免费| 色妞一区二区三区| 91麻豆精品久久毛片一级| 国产欧美日韩一区二区三区四区| 日韩大片免费观看视频播放| 中文视频在线观看| 成人av影音| 亚洲成在人线av| 99riav国产精品视频| ccyy激情综合| 亚洲国产精久久久久久久| 中文字幕人妻熟女在线| 国产毛片精品| 国产视频丨精品|在线观看| 醉酒壮男gay强迫野外xx| 视频小说一区二区| 亚洲男人天堂古典| 国产真人做爰视频免费| 欧美日韩在线播放视频| 中文日韩在线视频| 懂色av粉嫩av蜜臀av一区二区三区| 成人写真视频| 久久精品国产久精国产一老狼| 91香蕉视频污在线观看| 欧美激情四色| 91精品国产沙发| 69国产精品视频免费观看| 日韩av一二三| 91日本在线视频| 国产刺激高潮av| 久久久精品tv| 波多野结衣激情| 免费不卡av| 色综合久久综合中文综合网| 亚洲污视频在线观看| 天堂精品在线视频| 日韩久久免费视频| 天天操天天摸天天舔| 欧美日本二区| 欧美专区在线播放| 91麻豆视频在线观看| 成人午夜在线免费| 日本在线观看一区二区三区| 黄色的网站在线观看| 亚洲一区二区在线免费观看视频| 欧美日韩激情视频在线观看| 精品美女一区| 亚洲国产精品人久久电影| 亚洲AV无码成人精品区明星换面| 91精品国产乱码久久久久久| 91国内在线视频| 在线免费观看一区二区| 成人18视频日本| 亚洲在线色站| 忘忧草在线影院两性视频| 欧美日韩中文字幕一区| 黄色国产在线视频| 青青草国产免费一区二区下载| 欧美俄罗斯性视频| 老熟妇一区二区三区| 国产99久久久国产精品免费看| 欧美一区观看| 免费电影网站在线视频观看福利| 欧美网站一区二区| 999精品免费视频| 忘忧草精品久久久久久久高清| 97色在线观看| 国产熟女一区二区丰满| 国产丝袜在线精品| 男人添女荫道口图片| 欧美aaaaaaaa| 亚洲欧美国产日韩天堂区| 久久久久人妻一区精品色欧美| 日韩不卡一二三区| 激情一区二区三区| 久久五月精品中文字幕| 制服.丝袜.亚洲.中文.综合| 51妺嘿嘿午夜福利| 免费一级欧美片在线播放| 超碰97国产在线| 麻豆视频在线免费观看| 在线日韩av片| 醉酒壮男gay强迫野外xx| 亚洲国产免费| 国产福利不卡| 欧美野外wwwxxx| 欧美一区二区三区四区在线观看| 在线视频第一页| 亚洲一区二区三区免费在线观看| 国产精品免费观看高清| 亚洲欧美成人影院| 91精品国产综合久久精品麻豆| 特黄一区二区三区| 日韩国产精品久久| 日本午夜精品一区二区三区| 自拍网站在线观看| 亚洲精品二三区| 日韩少妇裸体做爰视频| av一二三不卡影片| 日本十八禁视频无遮挡| 国内自拍欧美| 18一19gay欧美视频网站| 日韩一级免费毛片| 午夜精品久久久久久久久久| 人妻体内射精一区二区三区| 亚洲精品美女| 精品一区二区三区日本| 成人免费短视频| 国产一区二区三区视频在线观看| 亚洲欧美偷拍一区| 国产女人aaa级久久久级| 天天操天天摸天天爽| 欧美丰满日韩| 亚洲a∨日韩av高清在线观看| 国产网站在线免费观看| 日韩视频一区二区三区在线播放| 麻豆国产尤物av尤物在线观看| 国产高清不卡二三区| 久久人人爽人人爽人人av| 日韩美女毛片| 国产成人激情小视频| 蝌蚪视频在线播放| 欧美日韩三级视频| 日本一级二级视频| jvid福利写真一区二区三区| 97在线免费公开视频| 第一会所亚洲原创| 亚洲999一在线观看www| 国产精品国精产品一二| 日韩av中文字幕在线播放| 成人a v视频| 日韩一区在线看| 制服丝袜av在线| 日韩av在线免费观看不卡| 在线成人性视频| 国产在线播放精品| 国产精品电影网| 在线观看免费视频你懂的| 日韩av在线直播| 一级做a爱片性色毛片| 亚洲国产一区二区视频| 黄色三级生活片| 国产福利电影一区二区三区| 成人在线免费在线观看| 97视频精品| 久久99精品久久久水蜜桃| 欧美精品资源| 欧美劲爆第一页| 9i精品一二三区| 精品国产乱码久久久久久图片| 国产一级免费视频| 亚洲欧洲制服丝袜| 好吊色视频一区二区三区| 日本美女一区二区三区视频| youjizz.com在线观看| 国产亚洲一卡2卡3卡4卡新区 | 日本欧美在线视频| 成人在线网址| 在线视频一区二区| 五月婷婷在线观看视频| 欧美丰满少妇xxxxx高潮对白| 欧美一级特黄视频| 亚洲精品免费播放| 国产馆在线观看| 成人国产精品免费观看| 激情文学亚洲色图| 久久亚洲色图| 成人一区二区免费视频| 日韩午夜电影网| 狠狠干一区二区| 懂色av色香蕉一区二区蜜桃| 欧美一级大片在线免费观看| 中文字幕中文字幕在线十八区 | 91精品国产自产在线老师啪| 理论片午夜视频在线观看| 久久影院资源网| 一本一道波多野毛片中文在线| 亚洲激情视频网| 亚洲精品国产手机| 3d成人h动漫网站入口| 一级黄色大片免费| 色吊一区二区三区| 亚洲图片在线视频| 大桥未久av一区二区三区| 欧美激情精品久久| ...xxx性欧美| 男人晚上看的视频| 国产精品每日更新| 欧美人与禽zoz0善交| 久久久久久久久久久黄色| 黄色录像a级片| 成人免费三级在线| 性高潮免费视频| 成人免费毛片a| 95视频在线观看| 国产v综合v亚洲欧| 自拍视频第一页| 国产精品夜夜嗨| 古装做爰无遮挡三级聊斋艳谭| 久久99日本精品| av亚洲天堂网| 国内成人自拍视频| 99中文字幕在线| 国产91精品入口| 喷水视频在线观看| 99久精品国产| 摸摸摸bbb毛毛毛片| 国产精品入口麻豆原神| 超碰人人人人人人人| 亚洲欧洲日产国码二区| 伊人久久久久久久久久久久久久| 国产精品毛片高清在线完整版| 女人裸体性做爰全过| 中文字幕一区二区三区蜜月| 国产传媒免费在线观看| 亚洲视频1区2区| 久久久久亚洲AV| 精品国产精品自拍| 久久精品五月天| 欧美日韩精品一区二区| 91成人在线免费| 精品欧美一区二区三区精品久久| 人妻丰满熟妇av无码区hd| 日韩av在线不卡| 国产视频三级在线观看播放| 日韩在线播放视频| 女同一区二区免费aⅴ| 26uuu另类亚洲欧美日本一| 精品欧美一区二区三区在线观看 | 国产日韩三级| 欧美日韩精品免费看| 日韩综合网站| 国产视频在线观看网站| 欧美一级网站| 日韩成人精品视频在线观看| 成人免费观看视频| 亚洲自拍偷拍图| 一区二区在线电影| 亚洲GV成人无码久久精品| 欧美人牲a欧美精品| 黄色片一区二区三区| 国产亚洲精品一区二区| 国产在线观看a视频| 国内精品400部情侣激情| 欧美日韩尤物久久| 成人在线看片| 欧美综合在线视频观看 | 亚洲一区二区三区高清不卡| 2025韩国理伦片在线观看| 国产成人高清在线| 亚洲第一综合网| 亚洲国产一区二区a毛片| 日韩欧美国产另类| 精品国产露脸精彩对白| 77777影视视频在线观看| 羞羞色国产精品| 91精品国产自产观看在线| 九九九九九精品| 欧美女人交a| 在线观看国产一级片| 99视频热这里只有精品免费| 国产午夜精品理论片在线| 精品成人久久av| av老司机久久| 最近中文字幕日韩精品| 亚洲校园激情春色| 国产精品二区三区| 天天久久综合| 波多野结衣天堂| 久久综合久久综合亚洲| 欧美黑人一级片| 91精品国产全国免费观看| 国产精品99999| 欧美又大又粗又长| 久久99精品国产自在现线| 国产精品88久久久久久妇女| 久久99精品一区二区三区| 成年人免费观看视频网站| 亚洲电影在线播放| 亚洲黄色在线播放| 久久国产加勒比精品无码| 久久亚洲人体| 日韩一区二区电影在线观看| 久久精品观看| 精品无码在线视频| 都市激情亚洲色图| 少妇高潮久久久| 韩国一区二区电影| 国产一区调教| 69堂免费视频| 95精品视频在线| 日韩大片免费在线观看| 精品国精品国产| 第一中文字幕在线| 国产视色精品亚洲一区二区| 好吊视频一区二区三区四区| 女女调教被c哭捆绑喷水百合| 一区二区三区日韩精品| 超碰福利在线观看| 久久久久久久999| 77成人影视| 国产69精品久久久久久久| 成人av网站在线观看免费| 天天操天天射天天爽| 日韩va亚洲va欧洲va国产| 亚洲欧美小说色综合小说一区| 美脚丝袜一区二区三区在线观看| 午夜在线精品偷拍| 99久久久无码国产精品性| 在线观看av不卡| av电影在线网| 亚洲一区二区三| 激情欧美亚洲| 欧美黑人欧美精品刺激| 色综合天天狠狠| 五月香视频在线观看| 91热精品视频| 日韩午夜免费视频| 美女脱光内衣内裤| 欧美福利视频导航| 国产后进白嫩翘臀在线观看视频| 国产精品一区在线观看| 欧美亚洲免费| 日本少妇aaa| 亚洲成人免费网站| 九九热线视频只有这里最精品| 亚洲视频sss| 国产69精品一区二区亚洲孕妇| 亚洲视频免费播放| 永久555www成人免费| 国产精品亚洲欧美一级在线| 久久国产精品网| 国产日韩高清在线| 成人av无码一区二区三区| 欧美亚洲激情在线| 五月开心六月丁香综合色啪| 亚洲成年人av| 91成人在线精品| 成人在线直播| 日本黄网免费一区二区精品| 国产精品一区专区| 日韩久久中文字幕| 久久成人精品视频| 五月天亚洲色图| 亚洲综合123| 色综合久久六月婷婷中文字幕| 久操视频在线观看| 蜜桃在线一区二区三区精品| 国产一区亚洲一区| youjizz在线视频| 欧美噜噜久久久xxx| 国产一区日韩| 欧美日韩一区二区三区四区五区六区| 在线精品视频小说1| 国产99re66在线视频| 亚洲一区三区在线观看| 91在线丨porny丨国产| 国产日韩欧美一区二区东京热|