Coze開源后,我用LLM+OCR做了一個文檔智能問答Agent
近期Coze開源的消息刷爆了朋友圈,這對于想通過搭建Agent解決復雜問題的企業開發者而言簡直是超大好消息!通過Coze平臺,企業用戶可以通過零代碼或低代碼的方式,快速搭建出解放生產力的AI工作流,輔助員工高效完成各類的復雜任務。
今天,我就來分享一個用Coze搭建文檔智能問答Bot的保姆級教程。
圖片
?圖片來自扣子官方
我們經常會遇到從產品手冊、技術白皮書、合同條款、內部報告……等文檔中快速精準地提取所需信息的情況,這時可靠的文檔智能問答Bot就能成為我們的得力助手。
文檔智能問答機器人能夠將靜態文檔轉化為動態知識庫,比起原先埋頭文檔中靠自己閱讀記憶,現在我們只需向Bot提問,它就能快速定位并輸出文檔中相關的精確答案或關鍵段落。例如:
- 合同審核:面對冗長的合同,直接詢問“付款周期是多久?”或“違約責任條款有哪些?”,Bot能迅速給出答案,省去逐頁查找的麻煩。
- 技術支持:新員工面對復雜設備手冊,問“如何重置設備密碼?”或“錯誤代碼XX代表什么?”,Bot能立即提供操作步驟或故障解釋。
- 知識檢索:在海量的產品文檔或研究報告中,提問“報告中關于市場趨勢的主要結論是什么?”,Bot能快速定位核心信息并組織語言回答。
盡管直接使用大模型也能進行基礎的文檔問答,但是,LLM的強大之處在于其卓越的自然語言理解、推理和生成能力,能理解復雜問題、聯系上下文甚至進行總結歸納,在文檔問答任務的前端環節——特別是光學字符識別(OCR)準確提取掃描件/圖片中的文字,以及精準解析復雜PDF結構(如表格、多級標題、頁眉頁腳)等方面——LLM的精度往往難以匹敵經過專門訓練和優化的專有模型。
以下圖為例,可以看到LLM和專有模型在掃描件少線表格這一難點上的解析能力差異:
因此,構建一個真正高效、可靠的文檔問答Bot,關鍵在于發揮LLM與專有模型的各自優勢,實現協作:利用專有模型高精度完成OCR和文檔結構解析,確保原始文本信息被完整、準確地提取;然后將清洗后的文本輸入LLM,利用其語義理解和推理能力,精準理解用戶問題并從文檔上下文中找出或生成最佳答案。
樣本原圖
LLM直接問答 VS. TextIn專有模型解析后問答
接下來,本文將一步步演示如何在Coze平臺上,搭建一個融合專業文檔處理能力與LLM智能的文檔問答Bot工作流。讓我們開始,利用AI工具,讓文檔中的知識真正“活”起來,服務于你的日常工作。
Step 1:創建智能體
工作空間 -> 項目開發 -> 創建 -> 創建智能體 -> 創建 -> 輸入項目名
圖片
Step 2:創建工作流
工作流 -> 添加工作流
圖片
創建工作流 -> 輸入工作流名稱和描述
圖片
圖片
Step 3:工作流配置
添加“插件”
圖片
搜索“TextIn” -> 找到“pdf2markdown” -> 添加
圖片
圖片
Step 4:模塊設置
1. 開始模塊
類型設置 -> input = File.Default
圖片
2. 解析模塊
類型設置
- url = 開始.input
- app_id = Textin.com賬號信息,請注冊:??https://cc.co/16YSVU或??登錄后前往 “工作臺-賬號設置-開發者信息” 查看 x-ti-app-id
- secret_code = Textin.com賬號信息,請登錄后前往 “工作臺-賬號設置-開發者信息” 查看 x-ti-secret-code
圖片
Textin.com 獲取 app_id和secret_code信息填入
圖片
模塊輸出指向 -> 大模型
圖片
3. 大模型模塊
大模型 -> 選擇 DeepSeek
圖片
設置輸入參數 -> pdf2markdown -> markdown
圖片
輸入系統提示詞“請根據{{input}}進行內容總結”
圖片
4. 結束模塊
設置輸出 -> 大模型 -> output
圖片
Step 5:試運行發布
點擊“試運行” -> 上傳測試文件 -> 發布
圖片
Step 6:添加工作流,開始問答
圖片
圖片
圖片
圖片
以上就是Coze平臺智能文檔問答Bot的搭建方法。如果你也解決Agent搭建時文檔處理的難題,不妨試試TextIn。
本文轉載自??????????PaperAgent??

















