精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

邁向可信 AI:LLM 幻覺的分析與優化

人工智能
本文系統分析了LLM幻覺產生的原因,評估了其優缺點,并從Prompt設計、RAG檢索增強、采樣參數、SFT監督微調、強化學習、思維鏈推理、Agent Workflow等多個技術路徑提出了針對性的優化方案。

作者丨 lingyuhuang

隨著LLM的廣泛應用,其生成內容的準確性和可靠性成為AI落地的關鍵挑戰之一。幻覺(Hallucination)現象,即模型生成與事實不符或虛構的信息,不僅影響用戶體驗,更可能帶來實際風險。本文將系統性分析LLM幻覺產生的根本原因,探討其在實際應用中的優缺點,并結合RAG、SFT、強化學習、思維鏈、Agent Workflow等技術,提出多維度的優化方案。旨在為構建更可信、可控的大模型應用提供理論基礎與實踐路徑,助力AI邁向更高的可靠性與價值創造。

一、LLM的工作原理簡介

在進入正題之前,我們先初步了解一下LLM的工作原理,有利于后面理解為什么LLM會出現幻覺。

1. 訓練

(1) 訓練過程

大語言模型(LLM)的訓練通常分為三個主要階段:

  • 預訓練(Pre-training):在大規模無標注文本數據上進行自監督學習,模型學習語言的基本結構和表達規律。
  • 后訓練(Post-training/Fine-tuning):在特定任務或領域的數據集上進行有監督微調,提升模型在特定任務上的表現。
  • 對齊(Alignment):通過人類反饋(如RLHF,基于人類反饋的強化學習)等方式,使模型輸出更符合人類價值觀和實際需求,減少有害或不準確的內容。

(2) 數據來源

預訓練階段的數據主要來自于海量的互聯網無標注文本,包括網頁、百科、新聞、論壇、書籍等多種類型。

這些數據中不可避免地包含錯誤、虛假、過時的信息,甚至有些內容帶有偏見或噪聲。模型在訓練時會無差別地學習這些內容,通過調整參數權重來擬合數據分布

(3) 訓練目標

預訓練的核心目標是讓模型具備強大的自然語言理解和生成能力,而不是讓模型記住或判斷事實的正確與否。因此,模型學到的是“語言模式”而非“事實真理”。

通過對海量數據的學習,LLM能夠掌握豐富的語言結構、表達方式和上下文關聯,從而具備在多種任務(如問答、摘要、翻譯、對話等)中遷移和泛化的能力。

2. 推理

(1) 預測流程

① 分詞與編碼(Tokenization)

首先,將用戶輸入的文本進行分詞處理,轉換為一系列token,并進一步編碼為token ids。這些token ids是模型能夠識別和處理的數字序列。

② 嵌入映射(Embedding)

將token ids映射為高維的嵌入向量,形成一個Embedding矩陣。每個token對應一個語義向量,作為后續計算的輸入。

③ 位置編碼(Positional Encoding)

讓模型理解每個token的位置順序。

④ Transformer層處理Embedding矩陣依次通過多層Transformer block進行處理。每個block包含多頭自注意力機制、前饋神經網絡、歸一化等操作,模型在此過程中充分捕捉上下文信息和詞間關系。

⑤ 線性變換與概率歸一化(Linear + Softmax)

對最后一層的輸出嵌入進行線性變換,將其映射到詞表空間,隨后通過Softmax歸一化,得到下一個token的概率分布。

⑥ 采樣生成(Sampling)

根據設定的采樣策略,從概率分布中選取下一個token。

⑦ 自回歸生成(Autoregressive Generation)

將新生成的token追加到已有的token序列中,重復上述推理過程,持續生成下一個token,直到遇到終止符(EOS)或達到最大token數限制(MaxTokens)為止。

整個推理過程以自回歸方式逐步生成文本,每一步都依賴于之前生成的內容,確保輸出的連貫性和上下文相關性。通過多層Transformer的深度建模,模型能夠理解復雜的語言結構,并生成高質量的自然語言文本。

(2) 采樣參數

通過調整采樣參數,可以控制模型的輸出結果。下面列舉幾個常見的參數,方便大家理解采樣過程。

① Top-kTop-k會從所有候選token中,保留概率最高的K個作為候選集。模型只會在這K個token中進行采樣,能夠有效過濾掉低概率、無關或不合理的詞匯,從而提升生成內容的質量和相關性。K值越小,輸出越確定;K值越大,輸出越多樣。

② Top-p

Top-p會從所有token中,按照概率從高到低累加,直到總概率達到設定的閾值P為止。只在這部分token中進行采樣。相比Top-k,Top-p能夠根據實際概率分布動態調整候選集大小,更靈活地平衡輸出的多樣性和合理性。兩個參數都設置的時候,必須同時滿足的token才加入預測候選集。

③ Repeat Penalty(重復懲罰)

重復懲罰參數用于降低模型重復生成已輸出過的token的概率。參數值越大,對重復內容的懲罰越強,有助于減少文本中的重復現象,使生成結果更加豐富和自然。(有些小尺寸模型容易陷入循環輸出,調大這個參數可以有效緩解。)

④ Seed(隨機種子)

隨機種子用于初始化偽隨機數生成器,決定本次推理過程中的隨機數序列。設置相同的seed可以保證每次同輸入的生成的結果一致。

⑤ Temperature(溫度系數)

溫度參數用于調整softmax輸出的概率分布(即 logits /= temperature)。溫度越高,概率分布越平坦,模型輸出更具多樣性;溫度越低,概率分布越尖銳,模型更傾向于選擇高概率的token,輸出更確定。通過調節temperature,可以靈活控制生成文本的創造性和保守性。

例如,經過topk&topp之后,保留了4個候選token,權重分別為0.5,0.2,0.2,0.1

不同溫度下經過softmax變換,每個token的概率為:

二、什么是幻覺?

LLM的幻覺(Hallucination)現象,即模型生成與事實不符或虛構的信息。

例如:

在實際應用中,LLM幻覺不只表現在隨意“編造”信息,其內容和表現形式多樣。細分類型有助于更準確地定位問題,并為后續優化方案提供針對性思路。常見幻覺類型包括:

  • 事實性幻覺(Factual Hallucination):模型輸出明確違背客觀真實的信息,如“水的沸點是150°C”。
  • 上下文幻覺(Contextual Hallucination):模型對用戶輸入理解出現偏差,輸出內容與問題語境不符,如用戶詢問“蘋果公司”,模型卻誤答為“水果種植技術”。
  • 邏輯幻覺(Logical Hallucination):模型生成內容存在自相矛盾、不合理、違背常識的推理,如“一個人同時在北京和紐約開會”。

不同類型幻覺的成因各異,對應的優化手段也各有側重。下一節將結合具體幻覺類型,系統介紹多維度的優化方案。

1. 產生幻覺的原因

通過前面的介紹,我們可以得到以下結論:

  • LLM在生成文本時,是根據每個token的概率分布進行采樣的,因此輸出結果具有一定的隨機性和多樣性。
  • 模型通過對大規模訓練數據的學習,統計并擬合了token之間的概率關系。訓練數據的質量和多樣性直接影響模型的表現。
  • 通過調整如Top-k、Top-p、Temperature等采樣參數,可以控制生成文本的多樣性和確定性。但這些參數的變化會影響每一個token的輸出,從而影響整體生成結果。
  • LLM的所有參數都來源于訓練階段,無法實時獲取和學習新數據。因此,模型對訓練數據之后發生的事實和知識無法感知,存在信息時效性限制。
  • 每個token的生成都涉及大量的矩陣運算,消耗顯著的計算資源和存儲空間。模型的上下文窗口不可能無限長,只能處理有限長度的輸入,可能導致信息丟失或理解偏差。
  • LLM采用自回歸生成機制,每個token的生成都依賴于前面已生成的內容,保證了文本的連貫性和上下文相關性。但前面token的錯誤也會導致后面的結果都偏離事實。

LLM通常采用自回歸方式,通過預測next token來生成文本,本質是計算下一個token的概率分布,而非像傳統數據庫的準確檢索。因此,模型在生成內容時,優先考慮的是自然語言的流暢性和上下文關聯度,而非優先考慮事實的準確性。既然是概率計算,說明本身就有隨機性,有概率生成出不符合實際的文本。簡單來說,當信息不足的時候,大模型存在“虛構癥”,導致LLM的生成產生了幻覺。

2. 幻覺的優點

如果LLM總是只能生成符合事實依據的內容,那就會失去很多創造性。

  • 在音視頻、虛擬角色、文學創作等領域,正是由于LLM的隨機性,才能生成出新穎、獨特的內容,為用戶提供創造力和靈感。
  • 在頭腦風暴、方案設計等場景下,幻覺生成的“異想天開”內容有時能啟發新的思路和解決方案。

3. 幻覺的缺點

在追求正確事實的場景下,LLM的幻覺也會帶來很多弊端:

  • 提供錯誤回復,雖然LLM生成內容效率很高,但閱讀者需要消耗精力去驗證內容。
  • 普通用戶難以辨別回答的真實性,可能導致誤導用戶,長時間的錯誤會導致用戶不再信任AI。
  • 大量AI生成的內容涌入互聯網,導致虛假信息傳播,污染下一代模型的訓練數據,更難以鑒別事實。

在絕大部分業務場景里,我們需要AI提供正確的答案,所以要盡可能讓LLM生成出符合事實的token,減少幻覺的產生。

三、多維度優化方案

下面從輸入、采樣參數、后訓練提升模型能力這幾個方面來介紹優化方案。

1. Prompt

(1) 準確無歧義

Prompt是使用LLM的第一步,可以盡可能挖掘出基座模型的潛力。

例如,新來的實習生掌握了很多理論知識,但是你在給他一個工作任務的時候,他可能由于缺少經驗,最終做出來的可能不符合你的預期。這里面有哪些問題可以優化呢?

  • 任務清晰明確、無歧義
  • 任務的邊界說清楚
  • 任務進行拆解,復雜的任務拆解為子任務再一個個解決
  • 給出示例( In-Context-Learning)

例如,你想基于LLM給你的結果進一步編寫代碼,那么要求明確的輸出格式,更便于代碼進行解析。

  • prompt: 幫我提取”播放周杰倫和蔡依林合唱的歌”的槽位 
  • output: { "intent": "播放歌曲", "slots": { "歌手": ["周杰倫", "蔡依林"], "合唱": true } }

prompt:幫我提取”播放周杰倫和蔡依林合唱的歌”的槽位,提取出intent、singer、song等信息,如果某個槽位存在多個值,

用| 隔開,務必返回一個map形式的Json。

output: { “intent”: “播放歌曲", "singer": "周杰倫|蔡依林", "song": "" }

例如,你想利用多模態模型,生成對圖片的簡要描述:

  • prompt:只用一句話準確描述這張圖片,并列舉出圖片中非文字的內容或物體。
  • output: 一只藍色企鵝圖案,底色為白色。
  • 異常:prompt有歧義,導致LLM會側重于描述頭像。
  • prompt:你是檢索系統中專業的圖片分析識別專家,能夠準確、詳細地提取圖片中的內容,以 JSON 形式輸出。1. 請用中文在50字以內準確描述這張圖片中包含的主要內容,放到caption字段中。2. 分析圖片整體,包括事件、主題、構成、風格和背景等,輸出圖片的主題內容,以字符串數組形式放到core字段中。3. 精準識別圖片中的物品、動物、人物、植物、建筑、場景等局部內容,以字符串數組形式放到 exact 字段中。具體要求如下:- 文字:識別主要標志文字或與圖片主題相關的重要文字。- 物品、動物、植物、建筑:從名稱、顏色、類型等角度描述。- 人物:從性別、角色、工作崗位、合影或自拍等角度描述。- 場景:從活動、節日、文化、風景、夜景、天氣等角度描述。- 其他:以物品名稱描述。
  • output: {"caption":"騰訊公司發布關于2026校園招聘啟動的微博。","core":["騰訊公司校園招聘","2026校招","技術、產品、市場、設計等崗位","AI、大模型、機器人、云計算等領域"],"exact":["騰訊公司","2026校招啟動","技術、產品、市場、設計五大類","70+種崗位","藍色企鵝圖案","工作頭罩","公司發布微博","招聘公告","互動圖標","點贊","分享"]}

實際編寫prompt的過程中,有很多細節要考慮,很難一次性寫的非常完美和完善,需要不斷測試并調整,讓prompt適應更多的情況。不同的提示詞結果不一樣,不同的模型對同一個prompt的表現也不一樣。

常用的方法:

  • 定義角色-定義任務-適當的示例-限制條件 (比如你是xxx,現在需要做xxx,例如xxx, 輸出必須xxx)
  • 定義角色-說明已有信息-詢問步驟-描述期望 (比如你是xxx,已知xxx,現在請幫我制定一個執行計劃, 最終需要達到什么目的)

(2) 預填充

除了編寫無歧義的prompt,我們還可以通過預填充,來進一步控制模型的輸出行為,使其輸出的格式更符合我們的要求,例如:

  • 預填充一個工具調用,可以強制模型下一步輸出一個工具調用的步驟:<|im_start|>assistant<tool_call>
  • 預填充一個具體的工具調用,可以強制模型下一步調用聯網檢索:<|im_start|>assistant<tool_call>{"name":"web_search"
  • 預填充一個業務特定json格式的輸出:<|im_start|>assistant\n{"caption":"

限定輸出特定schema json:

更多信息可以參考:https://github.com/NousResearch/Hermes-Function-Calling

2. RAG(Retrieval-Augmented Generation)

雖然大模型學習了海量知識,但是總有一些沒見過的知識。比如一個擅長寫程序的人,讓他設計UI稿,給出的結果大概率沒有專業設計師設計的好。但是如果把各種背景知識和技巧告訴他,他就能給出一份不錯的結果。(但是RAG也不是萬能的,開卷考試也不一定能得滿分。)

RAG比較典型的應用是文檔問答、知識庫總結、聯網檢索總結等。

例如,幫我總結一下微信的xx群里今天都聊了什么消息。

這就是一個經典的RAG的流程,從外部獲取參考資料,帶給LLM進行參考,讓LLM基于參考資料進行回答。(設想一下,如果你不提供聊天記錄給LLM,但是Prompt中又要求LLM總結聊天記錄,LLM會發揮想象,開始瞎編聊天記錄,就產生了幻覺。)

我們開源了文檔問答的RAG能力,歡迎體驗  https://weknora.weixin.qq.com/

3. 采樣參數

前面提到在模型預測的時候,具有隨機性,如果模型的結果非常不穩定,可以嘗試調整 temperature和seed參數,可以讓模型的結果固定:

  • 在一些有標準答案的問題上,例如單選題,可以讓模型輸出更加確定的結果,將 temperature 設置得更低,例如0.1;
  • 在一些開放回答的問題上,將temperature設置得更高,可以讓回答有多樣性,例如>0.7;
  • 在一些不希望LLM發散的開放題上,可以將temperature 設置為中等,例如0.3。

4. SFT(Supervised Fine-Tuning)

SFT(微調)屬于后訓練階段,預訓練模型已經具有強大的能力,而SFT 利用帶標簽的監督數據調整模型,使其在特定任務上表現最佳,提升模型在特定方面的能力。與之相比,In Context-Learning和RAG都是不改變模型本身的,而SFT會改變模型的權重參數。

常見的微調種類很多,主要分為全參微調,和PEFT。在項目落地中,一般首先嘗試PEFT的一種:LoRA,LoRA可以使用較低的成本獲得相對較好的結果。

(1) 什么是LoRA?

LLM往往擁有非常多的參數,所以對于模型的訓練而言,如果每個參數都需要調整,非常耗費資源。思考幾個問題:

  • 大模型那么多參數,都很重要嗎?就像一篇1000字的文章,核心思想可能50字就可以概括。
  • 微調往往是為了提升特定一些任務的表現,所以我們更希望調整影響這部分任務的那些參數。
  • 如果所有參數都調整,可能會導致模型其他能力丟失。(學的太多反而學壞了。

LoRA(Low-Rank Adaptation)提出了一種低秩參數化的適配方式。其核心思想是:

凍結預訓練模型權重,僅在每一層Transformer的部分權重矩陣(如自注意力模塊的Wq、Wv等)旁路注入一對可訓練的低秩分解矩陣A、B。

具體而言,將權重更新ΔW表示為BA(B∈R^dr, A∈R^rk, r?min(d,k)),即:

LoRA只需訓練極少量的參數,可以顯著降低存儲與計算開銷。

例如:

假如一個3X3的矩陣,全參數微調需要更新9個參數,而Rank=1的時候,只需要更新3X1+1X3=6個參數。假如原始矩陣式10000X10000,全參數微調需要更新1億參數,而Rank=8的時候,只需要更新10000X8+8X10000=16萬參數。(一般Rank可以選擇4或者8,如果原始模型信息本身壓縮率高,可以將Rank設置的更大;如果原始模型信息冗余嚴重,可以將Rank設置的更小)

可以看到LoRA在大大節約了訓練開銷的前提下,仍然保持了較高的準確率。

從論文來看,LoRA調整Q和V矩陣(Transformer的自注意力層),是最有效的,由于LoRA的目的就是要用較小參數的改變實現對模型的有效性調整。而Attention直接影響最終的輸出,調整Q可以影響模型如何選則信息,調整V可以影響模型如何利用信息。

https://arxiv.org/pdf/2106.09685

https://arxiv.org/pdf/2304.13785

(2) 全參微調和LoRA微調的核心差異

全參微調會修改大模型的參數,在數據充足的情況下可以學習更多的內容,數據越多效果理論上越好,但也存在災難性遺忘等不穩定情況。數據量小的情況下容易過擬合。

PEFT只修改少量參數,需要的資源少,因為大多數預訓練的權重保持不變,所以更容易保留原始模型能力,但效果上限較低,如果基座模型在該領域的效果本來就很差,通過PEFT也難以提升。

如果業務落地中,只需要定制少量幾類任務,而不需要擔心通用能力退化的情況下,并且在有數據量支撐的情況下,全參微調可以獲得更高的能力上限。

(3) 如何微調

我們在項目中,使用LLamaFactory進行模型微調,可以直接參考文檔:

https://llamafactory.readthedocs.io/zh-cn/latest/index.html

(4) 微調的數據準備

一份優質的微調數據,從三個維度來衡量:多樣性、質量、數量。數據往往決定了最后模型的效果。

① 多樣性:

  • 指令多樣性:考察樣本中指令的覆蓋范圍是否廣泛,是否包含了各類任務類型、不同難度級別以及多樣化的指令結構和表達方式,確保模型在微調后能應對多種復雜情境。
  • 內容多樣性:檢查樣本中提供的文本內容是否涵蓋了不同主題、文體、長度以及語境,以避免模型在特定領域或文本類型上過擬合,確保其具備良好的泛化能力。
  • 難易程度分布:分析樣本集中簡單、中等、復雜任務的比例,確保微調數據集包含不同難度級別的樣本,有助于模型逐步提升處理復雜指令的能力。

② 質量:

  • 準確性:評估答案是否準確無誤地響應了給定指令和內容,且不包含事實性錯誤、邏輯矛盾或語義模糊。
  • 完備性:考察答案是否全面覆蓋了指令所要求的所有任務點,尤其對于多步驟或復合任務,答案應完整體現所有必要的操作結果。
  • 簡潔性與清晰度:衡量答案是否言簡意賅、表達清晰,避免冗余信息或含糊表述,確保模型在微調后生成的輸出易于理解和使用。
  • 清洗:識別并剔除標注錯誤或不一致的樣本,確保答案與指令、內容間的映射關系正確無誤。去除重復樣本、無關內容、錯別字、低質量文本。(可以通過dropout優化過擬合問題,而不是混入錯誤數據讓模型學到錯誤信息,錯誤數據會提升模型的幻覺率)

③ 數量:LoRA 1k-10k左右, 全參SFT在100k以上。

(5) SFT數據集的常見格式

{ "instruction": "計算這些物品的總費用。 ", "input": "輸入:汽車 - $3000,衣服 - $100,書 - $20。", "output": "汽車、衣服和書的總費用為 $3000 + $100 + $20 = $3120。" }

{ "instruction":"人類指令(必填)","input":"人類輸入(選填)","output":"模型回答(必填)","system":"系統提示詞(選填)","history":[["第一輪指令(選填)","第一輪回答(選填)"],["第二輪指令(選填)","第二輪回答(選填)"]] }

偏好數據集:(獎勵模型)

{ "instruction": "人類指令(必填)", "input": "人類輸入(選填)", "chosen": "優質回答(必填)", "rejected": "劣質回答(必填)" }

圖像多模態數據集:

{ "instruction": "人類指令(必填)", "input": "人類輸入(選填)", "output": "模型回答(必填)", "images": [ "圖像路徑(必填)" ] }

……

(6) 訓練參數設置

比較重要的參數如下表:

LR

學習率,設置的越大,模型訓練的參數調整幅度就越大。

Epochs

學習輪次,對數據學習幾輪。一般為2/3。太多會導致過擬合,把模型學傻,模型就只會訓練的那些數據了。

BatchSize

一批的數量,越大顯存需求越大。太低導致收斂難,陷入局部最優;太高容易過擬合,泛化能力差。需要結合實際情況調整。

Rank

LoRA的Rank,越大學習到的參數更多,但也會學到無關知識,一般建議在4,8,16。太高無明顯性能優勢,反而增加資源消耗。

Dropout

隨機丟棄的概率,可以避免過擬合。對于13B等小尺寸模型可以設置為10%。對于70B等大尺寸,可以設置為5%。

更加詳細的參數可以查閱:https://llamafactory.readthedocs.io/zh-cn/latest/advanced/arguments.html

(7) 模型評測

準確地評估模型在特定任務的表現,可以為后續訓練與數據迭代的方向提供參考。所以需要一份優質的數據去評估模型能力。

5. 基于強化學習對齊偏好(RLHF)

RLHF(Reinforcement Learning from Human Feedback),通過人類反饋強化學習進一步微調模型,讓模型有更好的泛化能力,并輸出更符合人類偏好的結果,是提升模型性能、減少幻覺和有害內容的有效手段。

常見的方法如下:

(1) PPO(Proximal Policy Optimization)

通過限制每次策略更新的幅度,保證訓練過程的穩定性和高效性。讓模型學習到人類偏好的同時,不過于丟失原有能力。

策略模型進行環境采樣;SFT參考模型計算KL散度,確保更新策略不出現大變化;獎勵模型評價獎勵;評論模型/價值模型對每個token的收益進行預估

(2) DPO(Direct Preference Optimization)

PPO 需要訓練獎勵模型,如何構建準確的Reward和Value Model是一個難題,直接影響強化學習的效果。DPO直接用標注好的人類偏好數據去訓練。例如:

[ { "instruction": "人類指令", "input": "人類輸入", "chosen": "優質回答", "rejected": "劣質回答" } ]

(3) KTO

與DPO類似,但是解決了DPO的chosen和rejected必須成對出現的缺點。例如:

  [ { "instruction": "人類指令", "input": "人類輸入", "output": "模型回答", "kto_tag": "人類反饋 [true/false]" } ]

(4) GRPO

移除對Value Model的依賴,一次生成一堆結果,組內相對優勢(模型自己卷),獎勵高于平均分的結果。與PPO不同的是,只對最終的結果進行獎勵評估,如果過程錯誤但結果正確,也會獲得獎勵。

(5) 訓練框架

我們在項目中,使用VERL進行強化學習訓練,可以直接參考:https://github.com/volcengine/verl

(6) RL與SFT的區別

① SFT只需要提供正例數據,告訴模型什么是正確的,讓模型學習正確數據的概率分布,這會導致SFT往往記住了很多知識和格式。采樣的時候也是基于概率,通過采樣參數來控制,挑選出概率大的next token,以此來排除概率小的“錯誤”token。

② RL可以提供正負反饋,明確告訴模型哪些是錯誤的,更有利于提升模型的泛化能力。

https://arxiv.org/pdf/2501.17161

③ SFT需要更多的標注數據,RL可以通過固定的規則獎勵(例如math 和code只需要判斷最終結果)與獎勵模型提供的正負反饋不斷迭代,讓模型自己探索符合人類偏好的回復策略,可以減少訓練數據的要求。

④ SFT是針對Token級別的反饋,而RL是針對整個答案文本的評價。

6. 思維鏈(Chain-of-Thought)與推理增強

COT是一種用于提升大語言模型(LLM)推理能力的提示工程(Prompt Engineering)方法。其核心思想是:在模型生成答案時,不是直接輸出最終結果,而是引導模型像人類一樣,分步驟地展示推理和思考過程,逐步推導出答案。

人類在回答問題的時候,有些常識性問題,可以直接回答出來,而有些復雜的問題,可以經過思考和推理以后,再給出最終的答案。與人類一樣,模型也可以模擬這個過程,輸出慢思考的中間過程,讓模型產生反思能力,提高最終答案的準確率,尤其是在復雜推理、數學、邏輯等任務上,可以有效的減少幻覺。

優點

缺點

能顯著提升數學、邏輯、推理等復雜任務的表現

生成內容長,響應慢,廢資源。

分步驟解決問題,容易發現和糾正中間錯誤,提升最終答案準確性

效果非常依賴prompt和示例。

過程可解釋

中間過程可能出錯,后面可能基于錯誤的結論進一步輸出,導致浪費很多token還是得到錯誤答案

便于調試和優化,指出模型的錯誤

對簡單任務基本無幫助,反而浪費token

可以引入反思機制,進一步減少幻覺

小尺寸模型效果有限,可能會不斷輸出錯誤內容

在早期項目落地時,主要是靠prompt去引導模型輸出中間過程,現在已經有很多帶think能力的模型。 我們在項目冷啟動的時候,如果需要制造COT數據,可以直接通過已有模型進行蒸餾,或者仍然使用prompt進行引導,讓模型輸出業務需要的數據。也可以通過規則獎勵,激發RL自行產生慢思考的數據,收集評分高的數據不斷迭代模型。z

之前我們通過RL,增加推理過程提高了文檔問答的效果,具體可以參考:https://km.woa.com/articles/show/622575

7. Agent / Workflow 

前面提到的所有方案,目標都是為了提升單次LLM任務的準確率。但在實際業務中,很難通過一次LLM調用將所有問題解決。這時候搭建一個多Agent協作的系統就非常有必要。

LLM Agent 是指以大語言模型為核心,具備自主感知、決策、規劃和執行能力的智能體系統。它不僅能理解和生成自然語言,還能根據環境反饋和任務目標,動態調用工具、檢索信息、執行代碼、與外部系統交互,完成復雜任務。

Agent可以將復雜的任務拆解為子任務,通過調用工具來逐步完成。但是在落地的時候,我們可以完全讓模型+FunctionCall來驅動;也可以搭建Workflow,在關鍵位置引入LLM強大的語義理解能力和規劃能力。前者更加靈活,后者更加準確。

雖然我們采用Workflow的方式,但是通過一些工程手段,在提升任務準確率的前提下,依然沒有丟棄LLM的規劃能力和靈活性。下面簡單介紹一些落地經驗:

① 全局planning,讓LLM在制定計劃的時候,有大局觀,直接生成全局計劃而非一步一步的生成,可以提高問題解決率,減少LLM生成后續步驟的時候,忽略前面的任務。

② 完全由LLM決定如何解決問題,以及調用什么工具,而不是寫死每個步驟。并對中間結果進行摘要,縮短上下文。

③ 引入reflection機制,讓模型深入思考和研究每個步驟的解決情況。

④ replan,前面的步驟的結果可能影響后續的步驟,不斷的重新制定下一步計劃,并review 全局計劃,進行調整。

⑤ 復述任務,并將重要的信息放到prompt末尾。隨著上下文越來越長,對于一些能力一般的模型來說,可能顧及不到所有信息,需要將重點進行重復,并放到最接近輸出的位置。

⑥ 不同的步驟可以嘗試不同的模型,有些簡單任務可以用小尺寸模型,有些復雜任務需要大尺寸模型。靈活構建。

⑦ 盡量少使用few shot example,除非LLM實在解決不了。 example會導致模型輸出總是傾向于你給的示例,喪失多樣性。如果實在要給例子,可以構造具有多樣性的示例。

 ⑧ 盡量將可變信息放到prompt最后,有效利用kv緩存。

四、結語

隨著大語言模型在各行各業的廣泛落地,幻覺問題已成為影響其可靠性和實際價值的核心挑戰。本文系統分析了LLM幻覺產生的原因,評估了其優缺點,并從Prompt設計、RAG檢索增強、采樣參數、SFT監督微調、強化學習、思維鏈推理、Agent Workflow等多個技術路徑提出了針對性的優化方案。

可以預見,未來LLM的幻覺治理將是一個持續演進的過程,需要模型架構、數據、算法、工程實踐的多維協同。只有不斷完善技術手段,提升模型的事實一致性和推理能力,才能真正釋放大語言模型在實際應用中的潛力。

責任編輯:趙寧寧 來源: 騰訊技術工程
相關推薦

2025-10-16 09:23:48

2023-05-24 15:15:55

2025-05-26 01:45:00

LLMAI信任

2024-11-04 10:20:00

模型數據

2025-06-13 08:06:41

2024-09-13 12:31:21

谷歌DataGemmaAI

2025-09-22 09:13:00

2023-11-29 12:56:50

2024-12-31 08:03:12

2025-06-11 02:30:00

2025-07-30 09:01:21

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-07-11 03:10:00

LLMRAGAI

2025-06-23 08:30:05

2021-07-13 07:41:08

人工智能AI深度學習

2021-07-13 09:42:32

可信AI人工智能AI

2022-09-08 09:23:36

人工智能AI

2024-04-15 12:43:26

人工智能LLM

2024-08-20 07:47:12

AI零代碼網關
點贊
收藏

51CTO技術棧公眾號

99久久er| 人妻精品一区二区三区| 日韩成人a**站| 7777精品久久久大香线蕉| 超碰97在线看| 手机看片1024日韩| 免费观看久久久4p| 欧美第一黄色网| av在线网站观看| 免费成人黄色网| 一区二区不卡在线播放| 区一区二区三区中文字幕| 中文字幕丰满人伦在线| 中文精品久久| 亚洲女人初尝黑人巨大| 999热精品视频| 波多野结衣亚洲| 亚洲毛片av在线| 欧美日韩亚洲一区二区三区在线观看 | 亚洲免费精彩视频| 在线免费观看av网| 台湾佬中文娱乐久久久| 洋洋成人永久网站入口| 日韩资源av在线| 乱精品一区字幕二区| 美女视频第一区二区三区免费观看网站| 欧美激情精品久久久久久黑人| 91网站免费入口| 亚洲精品福利| 欧美日本一区二区| 国产精品无码一本二本三本色| 污污的网站在线看| 国产精品久久久久永久免费观看| 久久99久久精品国产| www.亚洲天堂.com| 久草在线在线精品观看| 国产91久久婷婷一区二区| 免费在线看黄网址| 亚洲色图插插| 久久久91精品| 亚洲国产精品无码久久久久高潮| 狂野欧美xxxx韩国少妇| 欧美视频日韩视频| 久久美女福利视频| heyzo在线| 亚洲综合激情网| 四虎精品欧美一区二区免费| 午夜看片在线免费| 99精品视频一区| 国产一区二区三区色淫影院| www.黄色小说.com| 国产一区二区三区日韩| 成人av资源在线播放| 中国老头性行为xxxx| 久久激情综合| 日本精品久久久| 一级片在线观看免费| 国产精品日韩精品欧美精品| 7777免费精品视频| 国产成人无码精品| 亚洲日本激情| 91精品国产99| 波多野结衣视频网站| 亚洲精品影院在线观看| 97人人爽人人喊人人模波多| 日韩 欧美 综合| 国产日韩精品视频一区二区三区 | 国产风韵犹存在线视精品| 成人精品久久av网站| 一区二区三区日| 久久 天天综合| 99精品欧美一区二区三区| 国内精品久久久久久久久久久| 国产一区二区伦理| 国产91亚洲精品一区二区三区| 日本免费网站在线观看| 91丨porny丨最新| 欧美日韩精品一区| 午夜免费福利在线观看| 亚洲免费大片在线观看| 中文精品无码中文字幕无码专区 | 爽成人777777婷婷| 精品国产一区久久久| 精品99在线观看| 在线观看的日韩av| 欧美在线一级va免费观看| 久久影视中文字幕| 精久久久久久久久久久| 成人国产1314www色视频| 四虎精品在线| 国产精品毛片无遮挡高清| 99视频精品全部免费看| 色多多在线观看| 欧美视频日韩视频在线观看| 欧美专区第二页| 欧洲精品一区| 最新国产精品亚洲| 久久免费视频播放| 免费日韩视频| 3d动漫精品啪啪一区二区三区免费 | 久久久久久9| 成人精品视频久久久久| 欧美一区二区在线观看视频| 国产欧美一区二区三区在线看蜜臀 | 91精品国产麻豆国产在线观看| 欧美激情欧美激情| 性高潮视频在线观看| 国产精品一品二品| 日韩女优中文字幕| 国内老司机av在线| 欧美性大战久久| 国产女人18毛片水真多18| 日韩免费av| 51精品国产黑色丝袜高跟鞋| 国产免费的av| 国产日韩欧美亚洲| 国产乱子伦精品无码专区| 全球最大av网站久久| 亚洲第一区第一页| 波多野结衣久久久久| 免费在线成人| 成人黄视频免费| 三级外国片在线观看视频| 狠狠色狠色综合曰曰| 欧美激情第四页| 欧美a级片视频| 欧美在线欧美在线| 亚洲欧美另类视频| 最好看的中文字幕久久| 精品国产成人av在线免| 成人性生交大片免费看96| zzjj国产精品一区二区| 免费无码国产精品| 丰满白嫩尤物一区二区| 一区二区精品视频| 精品亚洲美女网站| 日韩久久精品成人| 国产精品第108页| 国产在线一区二区综合免费视频| 日韩在线第一区| 欧美色网在线| 亚洲欧美日韩在线一区| 日本在线视频免费观看| 国产精品一区二区在线看| 亚洲日本无吗高清不卡| 欧美日韩五区| 亚洲人成网站777色婷婷| 圆产精品久久久久久久久久久| 国产精品一二三四| 香蕉视频免费版| 95精品视频| 另类专区欧美制服同性| 国产精品久久久久久久一区二区 | 国产揄拍国内精品对白| 亚洲精品一区二区毛豆| 国产成人a视频高清在线观看| 亚洲色图av在线| 高潮毛片又色又爽免费| 久久久91精品国产一区二区精品| 日韩中文字幕三区| 免费毛片在线不卡| 日韩免费观看在线观看| 日中文字幕在线| 色婷婷综合在线| 国产毛片久久久久久久| 日本美女视频一区二区| 亚洲免费不卡| 国产精品视频一区二区三区综合| 久久久999精品视频| 国产av一区二区三区| 亚洲制服欧美中文字幕中文字幕| xxxxwww一片| 在线视频日韩| 日本高清视频一区二区三区| 69堂精品视频在线播放| 最近中文字幕日韩精品| а√中文在线资源库| 午夜av一区二区三区| 自拍偷拍中文字幕| 日韩高清一区在线| japanese在线视频| 91欧美日韩在线| 日本精品va在线观看| 成人av电影观看| 日韩一区二区免费在线电影| 91香蕉在线视频| 国产三级精品视频| 一级黄色免费毛片| 亚洲男女自偷自拍| 一区二区三区四区在线视频| 久久久精品区| 欧美整片在线观看| 欧洲美女少妇精品| 亚洲成人免费网站| 欧美 亚洲 另类 激情 另类| 亚洲精品免费在线| 女~淫辱の触手3d动漫| 激情综合网av| 夫妻免费无码v看片| 青草国产精品| 国产伦精品一区二区三区照片| 人人鲁人人莫人人爱精品| 久久精品亚洲国产| 四虎精品在永久在线观看| 欧美一区二区三区日韩| 丁香社区五月天| 亚洲最新视频在线观看| 国产精品天天干| 91免费视频网站| 黄色网址在线免费观看| 亚洲国产欧美一区二区三区同亚洲| 无码人妻熟妇av又粗又大| 亚洲欧美电影一区二区| 黄色在线观看av| 国产麻豆成人精品| 超碰av在线免费观看| 尤物在线精品| 欧美国产第一页| av网站免费在线看| 美女爽到高潮91| 国产网站免费在线观看| 综合五月婷婷| 日韩视频精品| 三级小说欧洲区亚洲区| 99久久精品免费看国产一区二区三区 | 久久这里只有精品6| 巨乳女教师的诱惑| 久久精品久久久精品美女| 男人日女人bb视频| 激情欧美一区二区三区| 99精品一区二区三区的区别| 国产欧美日韩在线一区二区| 久久久久网址| 国产福利一区二区精品秒拍| 亚洲aⅴ日韩av电影在线观看| 成人在线免费电影网站| 日韩美女在线观看一区| 麻豆蜜桃在线观看| 久久久久久69| www.综合网.com| 欧美日韩成人网| 自拍亚洲图区| 久久亚洲综合国产精品99麻豆精品福利| 九九热视频在线观看| 日韩av在线最新| 天天躁日日躁狠狠躁伊人| 精品国产精品一区二区夜夜嗨 | 亚洲激情成人网| 手机在线观看免费av| 亚洲第一区在线| 性一交一乱一精一晶| 日韩一区二区影院| 国产高潮在线观看| 日韩亚洲欧美在线观看| 国产高清免费在线观看| 欧美岛国在线观看| 亚洲av无码片一区二区三区| 日韩女优视频免费观看| 亚洲爆乳无码一区二区三区| 精品日产卡一卡二卡麻豆| 欧美 中文字幕| 亚洲国产另类 国产精品国产免费| 粉嫩小泬无遮挡久久久久久| 亚洲国产精品专区久久| 日韩美女一级视频| 国产亚洲精品美女| 天堂а√在线资源在线| 久久精品精品电影网| 超碰在线网址| 久久久久久久一区二区| 麻豆视频在线看| 国产精品高精视频免费| 伊人久久大香伊蕉在人线观看热v| 成人网址在线观看| 动漫视频在线一区| 免费中文日韩| 久久密一区二区三区| 大桥未久一区二区三区| 欧美激情 亚洲a∨综合| 日本韩国欧美在线观看| 日韩高清在线电影| 久久精品国产露脸对白| 国产+成+人+亚洲欧洲自线| a视频免费观看| 亚洲国产激情av| 麻豆亚洲av熟女国产一区二| 午夜精品免费在线| 国产亚洲欧美日韩高清| 欧美日韩国产首页在线观看| 99精品视频免费看| 亚洲精品白浆高清久久久久久| 韩国精品视频| 欧美人与物videos| 欧美xx视频| 91免费看片网站| 亚洲aa在线| 久久av喷吹av高潮av| 免费亚洲网站| 欧美在线a视频| 久久婷婷国产综合精品青草| 91香蕉视频污在线观看| 亚洲午夜激情网页| 国产男人搡女人免费视频| 欧美成人性福生活免费看| 欧美伦理影视网| 欧美精品亚州精品| 日韩在线短视频| 国产精品国模大尺度私拍| 国内精品麻豆美女在线播放视频| 日本公妇乱淫免费视频一区三区| 欧美91大片| 国产成人精品视频ⅴa片软件竹菊| 国产尤物一区二区| 怡红院一区二区三区| 亚洲成a天堂v人片| 国产精品美女一区| 亚洲天堂免费观看| av福利在线导航| 亚洲在线一区二区| 成人婷婷网色偷偷亚洲男人的天堂| 国产乱淫av片杨贵妃| 久久99国产精品久久99| 亚洲精品国产91| 狠狠躁夜夜躁人人躁婷婷91| 性少妇videosexfreexxx片| 日韩中文视频免费在线观看| 天天免费亚洲黑人免费| 国产欧美韩日| 国产综合激情| 热久久久久久久久| 国产亚洲制服色| 黄色在线视频网址| 亚洲精品ady| 丰乳肥臀在线| αv一区二区三区| 一区二区三区在线电影| 一区二区免费av| 日本一二三不卡| 波多野结衣爱爱| 一色桃子一区二区| 日韩性xxx| 欧美中日韩一区二区三区| 日韩网站在线| 中文字幕乱码在线| 香蕉久久一区二区不卡无毒影院| 亚洲爱情岛论坛永久| 欧美肥臀大乳一区二区免费视频| 国内精品视频| 毛片在线视频观看| 国产在线精品一区二区夜色| 日韩精品一区二区三区在线视频| 欧美无乱码久久久免费午夜一区 | 在线观看国产黄| 伊人久久精品视频| 成人国产精品一区二区免费麻豆| 神马影院午夜我不卡影院| 久久精品中文| 黄色片网站免费| 欧美日韩视频一区二区| 嫩草香蕉在线91一二三区| 成人网址在线观看| 欧美三级不卡| 丰满岳乱妇一区二区| 欧美日韩裸体免费视频| 能在线看的av| 国产美女精品免费电影| 51精产品一区一区三区| a级大片免费看| 亚洲成人免费在线观看| 色鬼7777久久| 国产精品欧美日韩一区二区| 99久久九九| 四虎国产精品永久免费观看视频| 亚洲综合一区在线| 五月婷婷在线播放| 日韩av手机在线观看| 欧美美女视频| 红桃视频一区二区三区免费| 亚洲成人高清在线| 男男电影完整版在线观看| 国产精品亚洲视频在线观看| 在线中文一区| 野花社区视频在线观看| 欧美亚洲综合网| 肉体视频在线| 日本精品一区| 国产麻豆一精品一av一免费| 久草手机在线观看| 最近2019免费中文字幕视频三| 国产区一区二| 日本精品免费在线观看| 中文一区二区完整视频在线观看 | av在线一区不卡| 久久香蕉视频网站| 久久综合色8888| 国产模特av私拍大尺度| 欧美一级在线播放| 亚洲国产精品综合久久久| 菠萝菠萝蜜网站| 91精品久久久久久久99蜜桃|