從RAG到多模態搜索看OpenAI的技術演進

作者：崔皓 2023-12-22 08:00:00

本文探討了信息檢索與文本生成領域的最新進展，特別關注了OpenAI的RAG模型及其在文本內容搜索上的應用。文章詳細介紹了gpt-4-vision-preview模型，這一模型標志著從結構化搜索向非結構化搜索的重大轉變，能夠有效處理和解釋多模態信息，如圖片、表格和文本。

作者 | 崔皓

審校 | 重樓

摘要

本文探討了信息檢索與文本生成領域的最新進展，特別關注了OpenAI的RAG模型及其在文本內容搜索上的應用。文章詳細介紹了gpt-4-vision-preview模型，這一模型標志著從結構化搜索向非結構化搜索的重大轉變，能夠有效處理和解釋多模態信息，如圖片、表格和文本。通過實際案例分析，文章展示了如何利用這些技術進行企業文檔管理、學術研究和媒體內容分析，為讀者提供了關于如何運用這些先進技術進行多模態數據處理的深入見解。

開篇

在人工智能的領域內，信息檢索與文本生成一直是兩個重要的研究方向。OpenAI的RAG（Retrieval-Augmented Generation）模型，作為這一領域的突破性成果，成功地將神經網絡的文本生成能力與大規模數據集的檢索功能結合起來。這一創新不僅提升了文本生成模型的準確性和信息豐富度，而且解決了傳統模型在應對復雜查詢時的局限性。

RAG模型的主流應用體現在文本內容的搜索上，例如企業知識庫的檢索。通過文本加載、切割、嵌入、索引等方法建立輸入與目標的相關性，最終將搜索結果呈現給用戶。然而，隨著信息類型的多樣化，傳統的文本搜索已經不能滿足所有的需求。

此時，OpenAI推出了gpt-4-vision-preview模型，這不僅是技術上的一大躍進，更標志著從結構化搜索走向非結構化搜索的重要轉變。該模型具備處理和解釋多模態信息的能力，無論是圖片、表格還是文本，都能夠被有效地摘要和搜索。這一進步極大地擴展了RAG功能的外延，為多模態數據處理開辟了新的道路。

例如，在企業文檔管理方面，gpt-4-vision-preview可以分析含有圖表和文本的PDF格式文檔，如合同和報告，提供精準的摘要和關鍵信息提取。在學術研究領域，這一技術能自動整理和分析學術論文中的數據和圖像，極大提升研究效率。而在媒體內容分析上，新聞報道中的圖片與文本內容可以被整合分析，為媒體從業者提供更深入的洞察。

今天我會通過這篇文章，手把手帶大家如何實現對一個多模態PDF的分析和搜索。

場景分析

那么今天的主角就要登場了，如下圖所示，這個PDF文件是一個典型的財經市場分析報告，包含了豐富的文字、圖表和數據。

財經市場分析報告

報告不僅包含了詳細的文本描述，如市場趨勢的分析和預測，還包括了大量的圖表和數據，如股票市場的指數、固定收益產品的收益率和關鍵利率等。這些圖表和數據在理解整個市場情況中起著至關重要的作用。

然而，人工處理這類多模態的PDF文件常常是耗時且勞力密集的。分析師需要仔細閱讀文本，解讀圖表和數據，并將這些信息綜合起來以形成完整的市場觀點。這個過程不僅耗時，還容易出錯，特別是在處理大量復雜數據時。

傳統的RAG模型在處理這類多模態PDF文件時顯得力不從心。盡管RAG在處理和生成基于文本的信息方面表現出色，但它主要針對文字內容進行搜索和生成，對于非文本元素，如圖表和數據，其處理能力有限。這就意味著，在使用RAG模型進行信息檢索時，對于包含非文本元素的復雜PDF文件，它可能無法充分理解和利用文件中的所有信息。

因此，針對這種業務場景就需要使用OpenAI推出的多模態的處理方式，利用GPT-4-Vision-Preview模型處理文本、圖表和數據，以提供更加全面和準確的分析。從而提高分析效率，還能減少由于人工處理的錯誤而造成的風險。

技術分析

在多模態PDF文檔處理中，首要挑戰是識別文檔中的非結構化信息，如圖片、表格和文字。這里我們需要使用unstructured庫，它提供了用于攝取和預處理圖像和文本文檔的開源組件，如PDF、HTML、Word文檔等。它的主要用途是簡化和優化大型語言模型（LLMs）的數據處理工作流程。unstructured的模塊化功能和連接器形成了一個簡化數據攝取和預處理的一致系統，使其適應不同平臺，有效地將非結構化數據轉換為結構化輸出。

除此之外，為了更好處理PDF文檔，我們還引入了poppler-utils工具，它被用來提取圖片和文本。特別是其中的pdfimages和pdftotext工具，分別用于從PDF中提取嵌入的圖像和全部文本，這對于多模態PDF的分析至關重要。

備注：Poppler是一個PDF文檔渲染庫，可以使用兩種后端進行繪制，分別是Cairo和Splash。這兩種后端的特性有所不同，Poppler的功能也可能依賴于它使用的后端。此外，還有一個基于Qt4的繪圖框架“Arthur”的后端，但這個后端不完整且已停止開發。Poppler為Glib和Qt5提供綁定，這些綁定提供了對Poppler后端的接口，盡管Qt5綁定只支持Splash和Arthur后端。Cairo后端支持矢量圖形的抗鋸齒和透明對象，但不支持平滑位圖圖像如掃描文檔，并且不依賴于X Window系統，因此Poppler可以在Wayland、Windows或macOS等平臺上運行。Splash后端支持位圖的縮小過濾。Poppler還附帶一個文本渲染后端，可通過命令行工具pdftotext調用，用于在命令行中搜索PDF中的字符串，例如使用grep工具。

解決了圖片、表格和問題的提取問題之后，在將圖片和表格內容轉換為可分析的文本格式方面，Tesseract-OCR工具發揮了關鍵作用。盡管Tesseract不能直接處理PDF文件，但它可以將轉換為.tiff格式的PDF文件中的圖像轉換為文本。這個過程是處理多模態PDF的關鍵環節，使得原本以圖像或表格形式存在的信息轉化為可供進一步分析的文本形式。

當然除了上面提到的識別和分離PDF元素的技術之外，例如：向量存儲、向量索引器等技術也會用到，由于在傳統的RAG 中經常用到，這里就不贅述了。

代碼實現

經過場景和技術分析之后，我們了解到如果需要對PDF進行多模態的分析和查詢，首先是要對其中的圖片、表格、文字進行識別。這里我們會引入unstructured 、Poppler庫以及Tesseract-OCR工具。有了這些工具的加持讓我們的編碼過程更加如虎添翼。

安裝庫和工具

!pip install langchain unstructured[all-docs] pydantic lxml openai chromadb tiktoken -q -U
!apt-get install poppler-utils tesseract-ocr

上面的庫有幾個之前沒有提到的，這里做一下說明。

pydantic：用于數據驗證和設置管理。
lxml： XML和HTML處理庫。
openai：與OpenAI的API進行交互。
chromadb：用于向量數據庫管理或數據存儲。

提取PDF信息

既然工具都準備好了，接下來就是處理PDF 的內容了，代碼如下：

from typing import Any

from pydantic import BaseModel
from unstructured.partition.pdf import partition_pdf

# 設置存放圖像的路徑
images_path = "./images"

# 調用 partition_pdf 函數處理PDF文件，提取其中的元素
raw_pdf_elements = partition_pdf(
    filename="weekly-market-recap.pdf",           # 指定要處理的PDF文件名
    extract_images_in_pdf=True,                   # 設置為True以從PDF中提取圖像
    infer_table_structure=True,                   # 設置為True以推斷PDF中的表格結構
    chunking_strategy="by_title",                 # 設置文檔切分策略為按標題切分
    max_characters=4000,                          # 設置每個塊的最大字符數為4000
    new_after_n_chars=3800,                       # 在達到3800字符后開始新的塊
    combine_text_under_n_chars=2000,              # 將少于2000字符的文本組合在一起
    image_output_dir_path=images_path,            # 指定輸出圖像的目錄路徑
)

這段Python代碼使用了pydantic和unstructured庫來處理PDF文件。下面是代碼的逐行解釋：

images_path = "./images"：設置一個變量images_path，用于存放從PDF中提取的圖像。

接下來調用partition_pdf函數，這個函數用于處理PDF文件并提取其中的元素：

filename="weekly-market-recap.pdf"：指定要處理的PDF文件名。
extract_images_in_pdf=True：設置為True以從PDF中提取圖像。
infer_table_structure=True：設置為True以推斷PDF中的表格結構。
chunking_strategy="by_title"：設置文檔切分策略為按標題切分。
max_characters=4000：設置每個塊的最大字符數為4000。
new_after_n_chars=3800：在達到3800字符后開始新的塊。
combine_text_under_n_chars=2000：將少于2000字符的文本組合在一起。
image_output_dir_path=images_path：指定輸出圖像的目錄路徑。

可以通過命令獲取PDF圖片的信息，由于通過上面代碼將圖片保存到images目錄下面了，所以通過如下代碼展示圖片。

from IPython.display import Image
Image('images/figure-1-1.jpg')

從PDF 中抽取的圖片信息

為圖片信息產生摘要

下面這段代碼定義了一個名為ImageSummarizer的類，用于生成圖像內容的摘要信息。

# 引入所需的庫
import base64
import os

# 從langchain包導入ChatOpenAI類和HumanMessage模塊
from langchain.chat_models import ChatOpenAI
from langchain.schema.messages import HumanMessage

# 定義圖像摘要類
class ImageSummarizer:

    # 初始化函數，設置圖像路徑
    def __init__(self, image_path) -> None:
        self.image_path = image_path
        self.prompt = """你的任務是將圖像內容生成摘要信息，以便檢索。
        這些摘要將被嵌入并用于檢索原始圖像。請給出一個簡潔的圖像摘要，以便于檢索優化。
"""

    # 定義函數將圖像轉換為base64編碼
    def base64_encode_image(self):
        with open(self.image_path, "rb") as image_file:
            return base64.b64encode(image_file.read()).decode("utf-8")

    # 定義摘要函數
    def summarize(self, prompt = None):
        # 獲取圖像的base64編碼數據
        base64_image_data = self.base64_encode_image()
        # 創建ChatOpenAI對象，使用gpt-4-vision預覽模型，最大token數為1000
        chat = ChatOpenAI(model="gpt-4-vision-preview", max_tokens=1000)

        # 調用chat對象的invoke方法，發送包含文本和圖像的消息
        response = chat.invoke(
            [
                #人類提示語的輸入
                HumanMessage(
                    content=[
                        {
                            "type": "text",
                            "text": prompt if prompt else self.prompt
                        },
                        {
                            "type": "image_url",
                            "image_url": {"url": f"data:image/jpeg;base64,{base64_image_data}"},
                        },
                    ]
                )
            ]
        )
        # 返回base64編碼的圖像數據和響應內容
        return base64_image_data, response.content

以下是代碼的詳細解釋：

1.導入庫

導入base64和os庫，用于圖像編碼和操作系統相關功能。

從Langchain包中導入ChatOpenAI類和HumanMessage模塊，這些用于與OpenAI的聊天模型交互。

2.定義圖像摘要類 ImageSummarizer

__init__方法初始化圖像路徑和摘要生成的提示語。

base64_encode_image方法將圖像文件讀取并轉換為base64編碼，這種編碼格式適用于在網絡上傳輸圖像，便于圖片信息與GPT模型交互。

3. 定義摘要函數 summarize

使用base64_encode_image方法獲取圖像的base64編碼數據。

創建ChatOpenAI對象，指定使用gpt-4-vision-preview模型，最大token數設為1000，用于處理圖像摘要任務。

使用chat.invoke方法，向模型發送包含文本提示和圖像數據的消息。文本提示用于指導模型生成圖像的摘要。

創建summarize函數的目的就是為了給圖片生成摘要，接下來就是調用該函數。下面這段代碼創建圖像數據和圖像摘要的列表，并遍歷指定路徑下的所有文件以生成這些信息。

# 創建圖像數據和圖像摘要的列表
image_data_list = []
image_summary_list = []

# 遍歷指定路徑下的所有文件
for img_file in sorted(os.listdir(images_path)):
    # 檢查文件擴展名是否為.jpg
    if img_file.endswith(".jpg"):
        # 創建ImageSummarizer對象
        summarizer = ImageSummarizer(os.path.join(images_path, img_file))
        # 調用summarize方法生成摘要
        data, summary = summarizer.summarize()
        # 將base64編碼的圖像數據添加到列表
        image_data_list.append(data)
        # 將圖像摘要添加到列表
        image_summary_list.append(summary)

代碼解釋：

1. 初始化列表

image_data_list和image_summary_list兩個列表被創建用于存儲圖像的base64編碼數據和對應的圖像摘要。

2.遍歷指定路徑下的所有文件

使用os.listdir(images_path)列出指定路徑（images_path）下的所有文件，并使用sorted函數對文件名進行排序。

3. 檢查和處理每個文件

通過if img_file.endswith(".jpg")檢查文件擴展名是否為.jpg，以確保只處理圖像文件。

對于每個.jpg文件，創建ImageSummarizer對象，傳入圖像的完整路徑。

調用summarize方法生成該圖像的摘要。

將返回的base64編碼圖像數據添加到image_data_list列表。

將返回的圖像摘要添加到image_summary_list列表。

最終會生成兩個列表：一個包含了圖像文件的base64編碼數據，另一個包含了相應的圖像摘要，這些信息可以用于圖像檢索或其他處理。

我們通過如下代碼來查看圖片的摘要信息

image_summary_list

輸出結果如下：

['這個圖像包含了三個不同的圖表，提供了有關假日銷售增長、各行業一周和年迄今(YTD)的表現對比的數據。\n\n第一個圖表是一個柱狀圖，標題為“Holiday sales growth is set to return to its pre-pandemic pace”，展示了2010年至2023年間11月和12月銷售同比增長的實際數據和預測數據。藍色柱子代表實際數據，條紋柱子代表預測數據，藍色虛線代表2010-2019年平均增長率，綠色虛線代表2020-2022年平均增長率。\n\n第二個圖表是一個色塊圖，分為兩部分，展示了“V”, “B”, 和 “G”在不同的尺度（大、中、小）下的1周和年迄今(YTD)的表現。數值在色塊內以白色文字顯示。\n\n第三個圖表是兩個并列的柱狀圖，分別顯示了不同行業在1周和年迄今(YTD)的表現。左側的藍色柱狀圖展示了一周的變化，右側的綠色柱狀圖展示了年迄今的變化。圖表的Y軸代表了百分比變化，X軸列出了不同的行業。\n\n摘要：三個圖表顯示假日銷售增長預計將恢復至疫情前水平，不同市場尺度（大、中、小）的1周和年迄今表現，以及不同行業的1周和年迄今表現數據。']

從結果可以看出GPT-4-Vision-Preview 模型對圖片是能夠識別，并且對一些細節也能夠把控。

識別表格和文本信息

圖片、表格和文本信息組成了PDF的完整內容，在識別了圖片信息之后，就需要對表格和文本信息下手了。

下面這段代碼定義了處理PDF文檔元素的過程。

# 定義一個基本模型Element，用于存儲文檔元素的類型和文本內容
class Element(BaseModel):
    type: str
    text: Any

# 創建表格元素和文本元素的空列表
#表格信息
table_elements = []
#文本信息
text_elements = []

# 遍歷從PDF中分割出的所有元素
for element in raw_pdf_elements:
    # 判斷元素是否為表格：非結構化-文檔-元素-表格
    if "unstructured.documents.elements.Table" in str(type(element)):
        # 如果是表格，將其添加到表格元素列表
        table_elements.append(Element(type="table", text=str(element)))
    # 判斷元素是否為復合元素
    elif "unstructured.documents.elements.CompositeElement" in str(type(element)):
        # 如果是復合元素，將其添加到文本元素列表
        text_elements.append(Element(type="text", text=str(element)))

代碼解釋如下：

1.定義Element基本模型

使用pydantic的BaseModel定義了一個名為Element的類，用于存儲文檔元素的類型（如表格或文本）和文本內容。這個類使用類型注解str和Any定義了兩個屬性：type（元素類型）和text（元素內容）。

2. 創建空列表以存儲表格和文本元素

table_elements和text_elements分別用于存儲表格信息和文本信息。

3. 遍歷PDF中的元素

對于從PDF文件中分割出的每個元素（在raw_pdf_elements中），代碼通過判斷元素的類型來分類處理：

如果元素是表格（unstructured.documents.elements.Table），則創建Element對象，并將其類型設為"table"，文本內容設為元素的字符串表示，然后將此對象添加到table_elements列表。

如果元素是復合元素（unstructured.documents.elements.CompositeElement），則以相似的方式處理，將其類型設為"text"，并添加到text_elements列表。

在對PDF文檔中的不同元素進行分類和存儲，接下來就需要對其進行處理，對這些表格和文字進行總結。代碼如下：

# 導入所需模塊
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser

# 定義用于生成總結的提示文本
prompt_text = """
  您負責簡潔地總結表格或文本塊，中文輸出。:
  {element}
"""
# 從模板創建提示
prompt = ChatPromptTemplate.from_template(prompt_text)

# 創建總結鏈，結合提示和GPT-3.5模型
summarize_chain = {"element": lambda x: x} | prompt | ChatOpenAI(temperature=0, model="gpt-3.5-turbo") | StrOutputParser()

# 從表格元素中提取文本
tables = [i.text for i in table_elements]
# 使用總結鏈批量處理表格文本，設置最大并發數為5
table_summaries = summarize_chain.batch(tables, {"max_concurrency": 5})

# 從文本元素中提取文本
texts = [i.text for i in text_elements]
# 使用總結鏈批量處理文本，設置最大并發數為5
text_summaries = summarize_chain.batch(texts, {"max_concurrency": 5})

這段代碼用于生成表格和文本塊的總結，利用LangChain和GPT-3.5模型：

1.導入模塊

導入LangChain的ChatOpenAI、ChatPromptTemplate和StrOutputParser模塊。

2.定義生成總結的提示文本

定義了一個用于指導模型總結表格或文本塊的提示文本模板。

3.創建提示和總結鏈

使用ChatPromptTemplate.from_template根據定義的提示文本創建提示。

創建一個名為summarize_chain的總結鏈，該鏈結合了提示、GPT-3.5模型（由于生成總結的能力不需要用到GPT-4，為了節省Token使用GPT-3.5），和字符串輸出解析器（StrOutputParser）。

4.處理表格和文本元素

從table_elements中提取表格文本，使用summarize_chain.batch方法批量處理這些文本，最大并發數設為5。

從text_elements中提取文本塊文本，同樣使用summarize_chain.batch批量處理，最大并發數設為5。

我們將總結的內容打印如下：

表格和文字摘要信息

創建索引器

好了，目前為止我們將PDF中的圖片、表格和文本信息都逐一抽取出來了，并針對這些信息生成了摘要，其目的是方便后續搜索，在做好這一系列準備之后就需要安排上索引器了。索引器顧名思義就是對被搜索信息添加上索引，方便搜索之用。

下面這段代碼創建了一個多向量檢索器，用于存儲和檢索文本、表格和圖像數據：

import uuid  # 導入uuid庫，用于生成唯一標識符

# 導入所需的langchain模塊
from langchain.embeddings import OpenAIEmbeddings
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.schema.document import Document
from langchain.storage import InMemoryStore
from langchain.vectorstores import Chroma

id_key = "doc_id"  # 設置文檔的唯一標識鍵

# 初始化多向量檢索器，初始為空，文字，圖片，表格
retriever = MultiVectorRetriever(
    vectorstore=Chroma(collection_name="summaries", embedding_function=OpenAIEmbeddings()),  # 使用OpenAI的嵌入方法
    docstore=InMemoryStore(),  # 使用內存存儲文檔
    id_key=id_key,  # 設置文檔的唯一標識鍵
)

# 為文本添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in texts]  # 為每個文本生成一個唯一的UUID
# 創建文本的文檔對象并添加到檢索器
summary_texts = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})  # 將文本封裝為文檔對象
    for i, s in enumerate(text_summaries)
]
retriever.vectorstore.add_documents(summary_texts)  # 將文本文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, texts)))  # 將文本文檔的ID和內容存儲在內存存儲中

# 為表格添加唯一標識
table_ids = [str(uuid.uuid4()) for _ in tables]  # 為每個表格生成一個唯一的UUID
# 創建表格的文檔對象并添加到檢索器
summary_tables = [
    Document(page_content=s, metadata={id_key: table_ids[i]})  # 將表格封裝為文檔對象
    for i, s in enumerate(table_summaries)
]
retriever.vectorstore.add_documents(summary_tables)  # 將表格文檔添加到向量存儲中
retriever.docstore.mset(list(zip(table_ids, tables)))  # 將表格文檔的ID和內容存儲在內存存儲中

# 為圖像添加唯一標識
doc_ids = [str(uuid.uuid4()) for _ in image_data_list]  # 為每個圖像生成一個唯一的UUID
# 創建圖像的文檔對象并添加到檢索器
summary_images = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})  # 將圖像封裝為文檔對象
    for i, s in enumerate(image_summary_list)
]
retriever.vectorstore.add_documents(summary_images)  # 將圖像文檔添加到向量存儲中
retriever.docstore.mset(list(zip(doc_ids, image_data_list)))  # 將圖像文檔的ID和內容存儲在內存存儲中

代碼解釋：

1. 初始化多向量檢索器

使用Chroma作為向量存儲，它利用OpenAI嵌入方法將文檔轉換為向量形式。

使用InMemoryStore作為文檔存儲，這是一種將文檔存儲在內存中的方法。

設置id_key為文檔的唯一標識鍵。

2. 處理文本數據

為每個文本創建唯一標識符（UUID）。

將文本總結封裝為Document對象，并添加到向量存儲和文檔存儲中。

3. 處理表格數據

類似地，為每個表格創建UUID。

將表格總結封裝為Document對象，并添加到向量存儲和文檔存儲中。

4. 處理圖像數據

為每個圖像創建UUID。

將圖像總結封裝為Document對象，并添加到向量存儲和文檔存儲中。

這段代碼建立了一個系統，可以存儲和檢索多種類型的文檔數據，包括文本、表格和圖像，利用唯一標識符來管理每個文檔。這對于處理和組織大量復雜數據非常有用。

生成多模態查詢提示語

下面這段代碼包含多個函數，用來處理和展示圖像與文本數據。

from PIL import Image
from IPython.display import HTML, display
import io
import re

# 顯示基于base64編碼的圖片
def plt_img_base64(img_base64):
    display(HTML(f''))

# 檢查base64數據是否為圖片
def is_image_data(b64data):
    """
    通過查看數據開頭來檢查base64數據是否為圖片
    """
    image_signatures = {
        b"\xFF\xD8\xFF": "jpg",
        b"\x89\x50\x4E\x47\x0D\x0A\x1A\x0A": "png",
        b"\x47\x49\x46\x38": "gif",
        b"\x52\x49\x46\x46": "webp",
    }
    try:
        header = base64.b64decode(b64data)[:8]  # 解碼并獲取前8個字節
        for sig, format in image_signatures.items():
            if header.startswith(sig):
                return True
        return False
    except Exception:
        return False

# 分離base64編碼的圖片和文本
def split_image_text_types(docs):
    """
    分離base64編碼的圖片和文本
    """
    b64_images = []
    texts = []
    for doc in docs:
        # 檢查文檔是否為Document類型并提取page_content
        if isinstance(doc, Document):
            doc = doc.page_content
        #是圖片
        if is_image_data(doc):
            b64_images.append(doc)
        else:
            texts.append(doc)
    return {"images": b64_images, "texts": texts}

# 根據數據生成提示信息
def img_prompt_func(data_dict):
    messages = []

    # 如果存在圖片，則添加到消息中
    #圖片的信息單獨拿出來， 需要和提示語一起傳給大模型的。
    if data_dict["context"]["images"]:
        for image in data_dict["context"]["images"]:
            image_message = {
                "type": "image_url",
                "image_url": {"url": f"data:image/jpeg;base64,{image}"},
            }
            messages.append(image_message)

    # 添加文本到消息
    formatted_texts = "\n".join(data_dict["context"]["texts"])
    text_message = {
        "type": "text",
        "text": (
            "You are financial analyst.\n"
            "You will be given a mixed of text, tables, and image(s) usually of charts or graphs.\n"
            "Use this information to answer the user question in the finance. \n"
            f"Question: {data_dict['question']}\n\n"
            "Text and / or tables:\n"
            f"{formatted_texts}"
        ),
    }
    messages.append(text_message)
    print(messages)
    return [HumanMessage(content=messages)]

代碼解釋：

1. 顯示基于base64編碼的圖片 (plt_img_base64)

這個函數的目的是顯示base64編碼的圖片。

2. 檢查base64數據是否為圖片 (is_image_data)

通過檢查base64編碼數據的開頭是否符合常見圖像格式（如JPEG, PNG, GIF, WEBP）的簽名來判斷數據是否為圖片。

3. 分離base64編碼的圖片和文本 (split_image_text_types)

此函數遍歷文檔集合，使用is_image_data函數來區分哪些是圖像數據，哪些是文本，然后將它們分別存儲在兩個列表中。

4. 根據數據生成提示信息 (img_prompt_func)

此函數生成用于向LangChain的大模型傳遞的消息。對于每個圖像，創建包含圖像URL的消息；對于文本數據，創建包含提示文本和問題的消息。

需要對"text"進行特別說明，它定義消息的具體文本內容。

首先說明了用戶角色："You are financial analyst."（你是一名財務分析師）。

緊接著說明任務類型和數據格式："You will be given a mixed of text, tables, and image(s) usually of charts or graphs."（你將會得到包含文本、表格和圖像（通常是圖表或圖形）的混合數據）。

提示使用這些信息回答財務問題："Use this information to answer the user question in the finance."（使用這些信息來回答財務方面的用戶問題）。

{data_dict['question']}：這里{}內的部分是Python字符串格式化的占位符，用于插入變量data_dict中的'question'鍵所對應的值，即用戶提出的問題。

"Text and / or tables:\n"：提示文本，說明接下來的內容是文本和/或表格。

f"{formatted_texts}"：再次使用字符串格式化將變量formatted_texts（格式化后的文本數據）插入到消息中。

實現金融分析查詢

萬事俱備只欠東風，現在開始利用GPT-4-Vision-Preview模型進行推理了，我們嘗試對索引器提問，看看結果如何。

下面這段代碼實現了一個基于RAG（Retrieval Augmented Generation）模型的查詢處理管道。

from langchain.schema.runnable import RunnableLambda, RunnablePassthrough
# 創建ChatOpenAI模型實例
model = ChatOpenAI(temperature=0, model="gpt-4-vision-preview", max_tokens=1024)

# 構建RAG（Retrieval Augmented Generation）管道
chain = (
    {
        "context": retriever | RunnableLambda(split_image_text_types), # 使用檢索器獲取內容并分離圖片和文本
        "question": RunnablePassthrough(), # 傳遞問題
    }
    | RunnableLambda(img_prompt_func) # 根據圖片和文本生成提示信息
    | model # 使用ChatOpenAI模型生成回答
    | StrOutputParser() # 解析模型的字符串輸出
)

# 定義查詢問題
query = "Which year had the highest holiday sales growth?"

# 調用chain的invoke方法執行查詢
chain.invoke(query)

代碼解釋：

1.創建ChatOpenAI模型實例

使用ChatOpenAI類創建模型實例，配置了溫度參數為0、使用的模型為gpt-4-vision-preview，最大token數設為1024。

2.構建RAG管道 (chain)

retriever | RunnableLambda(split_image_text_types)：首先使用retriever檢索內容，然后通過RunnableLambda調用split_image_text_types函數分離圖片和文本。

RunnablePassthrough()：用于直接傳遞查詢問題。

RunnableLambda(img_prompt_func)：根據檢索到的圖片和文本生成提示信息。

model：使用配置好的ChatOpenAI模型根據生成的提示信息生成回答。

StrOutputParser()：解析模型輸出的字符串。

3. 定義查詢問題 (query)

定義了一個字符串query作為查詢問題，例如：“Which year had the highest holiday sales growth?”（哪一年的假日銷售增長最高？）。

4. 執行查詢 (chain.invoke(query))

調用chain的invoke方法執行查詢，根據問題和檢索到的信息生成答案。

總的來說，這個代碼片段建立了一個復雜的查詢處理流程，結合了內容檢索、數據分離、提示生成和模型回答，用于處理和回答基于文本和圖像數據的復雜問題。

來查看輸出的結果：

Based on the chart provided, the year with the highest holiday sales growth is 2021, with a growth rate of 12.7%. This is indicated by the tallest bar in the bar chart under the "Actual" section, which represents the actual year-over-year growth rate for November and December sales.

我們將其翻譯成中文如下：

根據提供的圖表，2021年的假日銷售增長率最高，為12.7%。這一點從“實心”部分的柱狀圖中最高的柱子可以看出，該柱子代表了11月和12月的年度同比增長率。

PDF中圖表部分與大模型回應對比

通過大模型的回應，再對比PDF中描述假日銷售增長率的柱狀圖，可以明顯發現2021年的增長率是最高的，為12.7%，并且對于柱子“實心”的描述也是正確的。看來OpenAI提供的多模態功能起到了作用。

總結

文章通過分析和實例演示，清晰地展示了OpenAI的最新技術在多模態數據處理方面的潛力和應用前景。通過對unstructured庫、Poppler工具和Tesseract-OCR工具的細致介紹和代碼實現的解讀，文章不僅為讀者提供了理論知識，也指導了如何實際操作和應用這些工具。文章的結論強調了gpt-4-vision-preview模型在提高分析效率和減少人工錯誤方面的價值。

作者介紹

崔皓，51CTO社區編輯，資深架構師，擁有18年的軟件開發和架構經驗，10年分布式架構經驗。

責任編輯：華軒來源： 51CTO

OpenAI RAG模型人工智能