精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

記憶即智能,無需微調(diào)LLM:Memento重新定義LLM智能體學(xué)習(xí)范式

人工智能
Memento提出記憶增強(qiáng)學(xué)習(xí)新范式,無需微調(diào)模型即可實(shí)現(xiàn)智能體的持續(xù)進(jìn)化。通過案例記憶與Q函數(shù)學(xué)習(xí),系統(tǒng)在復(fù)雜任務(wù)中提升23.08%,為開放環(huán)境下的智能體適應(yīng)提供了高效可行路徑。

大家好,我是肆〇柒。今天要和大家分享一項(xiàng)來自UCL AI Centre與華為諾亞方舟實(shí)驗(yàn)室的創(chuàng)新研究——Memento。這項(xiàng)工作由倫敦大學(xué)學(xué)院與華為諾亞方舟實(shí)驗(yàn)室聯(lián)合完成,提出了一種無需微調(diào)LLM參數(shù)的持續(xù)學(xué)習(xí)新范式,通過記憶機(jī)制讓智能體像人類一樣從經(jīng)驗(yàn)中不斷進(jìn)化。

你的LLM智能體是否正面臨這樣的困境:每次業(yè)務(wù)需求變化,都需要花費(fèi)數(shù)周時(shí)間和大量的算力資金重新微調(diào)模型?Memento提供了一種創(chuàng)新性的解決方案——無需微調(diào)LLM參數(shù),僅通過記憶機(jī)制就能讓智能體持續(xù)學(xué)習(xí),將模型適應(yīng)成本降低90%,同時(shí)在復(fù)雜任務(wù)解決能力上提升23.08%。它不僅在GAIA等基準(zhǔn)測試中表現(xiàn)卓越,更重新定義了我們對LLM智能體適應(yīng)能力的認(rèn)知。本文將探索這一技術(shù)的核心原理,并分享5個(gè)可立即應(yīng)用于你現(xiàn)有系統(tǒng)的實(shí)踐策略。

Memento:LLM智能體的適應(yīng)性革命

在當(dāng)下,LLM智能體已成為解決復(fù)雜任務(wù)的關(guān)鍵工具。然而,這些智能體面臨著一個(gè)根本性挑戰(zhàn):如何在不進(jìn)行昂貴參數(shù)微調(diào)的情況下實(shí)現(xiàn)持續(xù)學(xué)習(xí)?想象一下,你剛剛部署了一個(gè)精心訓(xùn)練的LLM智能體來處理客戶查詢,但當(dāng)市場環(huán)境變化、新問題涌現(xiàn)時(shí),它卻無法適應(yīng)。這時(shí)你面臨兩難選擇:要么讓它僵化地執(zhí)行預(yù)設(shè)流程(可能很快過時(shí)),要么投入大筆資金和數(shù)周時(shí)間重新訓(xùn)練模型。

傳統(tǒng)LLM微調(diào)的成本有多高? 一次完整的LLM微調(diào)通常需要數(shù)百個(gè)GPU小時(shí),成本可達(dá)數(shù)萬美元,且需要專業(yè)團(tuán)隊(duì)數(shù)周時(shí)間進(jìn)行數(shù)據(jù)準(zhǔn)備、訓(xùn)練和評估。更糟糕的是,微調(diào)后的模型往往會(huì)出現(xiàn)"災(zāi)難性遺忘",失去原有能力。

現(xiàn)有LLM智能體通常遵循兩種范式,各有其根本局限:

  • 靜態(tài)工作流范式:構(gòu)建具有固定工作流和硬編碼推理的專用框架,雖然在特定任務(wù)上表現(xiàn)良好,但缺乏靈活性。部署后,這類智能體是靜態(tài)的:既不能整合在線信息,也無法適應(yīng)新情況。
  • 參數(shù)微調(diào)范式:通過監(jiān)督微調(diào)或強(qiáng)化學(xué)習(xí)更新LLM本身,雖然行為更靈活,但計(jì)算成本高昂,對于持續(xù)適應(yīng)和在線學(xué)習(xí)效率低下。

Memento提供了一個(gè)創(chuàng)新性的解決方案,它提出了一種無需微調(diào)LLM的持續(xù)學(xué)習(xí)新范式,通過記憶機(jī)制實(shí)現(xiàn)智能體的終身學(xué)習(xí)。這種方法不僅解決了傳統(tǒng)LLM智能體靜態(tài)工作流的僵化與參數(shù)微調(diào)高成本的兩難困境,更為開放環(huán)境中LLM智能體的持續(xù)適應(yīng)提供了可行路徑。實(shí)證表明,案例記憶為分布外任務(wù)帶來4.7%-9.6%的絕對增益,重新定義了LLM智能體的未來。

Memento的核心思想:記憶即智能

從人類記憶機(jī)制獲得的靈感

Memento的核心創(chuàng)新在于將案例基礎(chǔ)推理(CBR)與在線強(qiáng)化學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)無需微調(diào)LLM的持續(xù)學(xué)習(xí)。它不是通過修改模型參數(shù)來學(xué)習(xí),而是借鑒人類記憶機(jī)制,讓LLM智能體通過外部記憶存儲(chǔ)和檢索經(jīng)驗(yàn)來不斷改進(jìn)。

人類的表現(xiàn)之所以能夠穩(wěn)步提升,是因?yàn)槊看误w驗(yàn)都經(jīng)過四個(gè)關(guān)鍵過程:首先被編碼為情節(jié)痕跡,然后在睡眠依賴的鞏固過程中提煉為抽象規(guī)則,接著通過多巴胺驅(qū)動(dòng)的信用分配選擇性強(qiáng)化,最后當(dāng)類似問題出現(xiàn)時(shí)通過案例或類比推理進(jìn)行檢索。Memento正是模擬了這一過程,讓LLM智能體能夠像人類一樣從經(jīng)驗(yàn)中學(xué)習(xí),而無需重新訓(xùn)練模型。

那么,為什么記憶機(jī)制能解決參數(shù)微調(diào)的問題?讓我們先看看傳統(tǒng)CBR系統(tǒng)面臨的"淹沒問題"。

傳統(tǒng)CBR的"淹沒問題"與Memento的突破

傳統(tǒng)案例基礎(chǔ)推理(CBR)系統(tǒng)面臨一個(gè)根本性挑戰(zhàn):案例庫越大,檢索效率越低,新增案例的邊際收益遞減。這就像一個(gè)經(jīng)驗(yàn)豐富的顧問,如果試圖記住所有會(huì)議細(xì)節(jié),反而會(huì)在關(guān)鍵時(shí)刻迷失在信息海洋中。

Memento在DeepResearcher數(shù)據(jù)集上不同案例數(shù)量的性能

上表展示了一個(gè)關(guān)鍵發(fā)現(xiàn):當(dāng)案例庫大小K=4時(shí),Memento達(dá)到最佳性能(F1: 64.5, PM: 78.5),而隨著K增大(如K=8, 16, 32),性能反而趨于平穩(wěn)或略有下降。

這一結(jié)果與少樣本提示(few-shot prompting)的直覺相反——在少樣本提示中,更多的示例通常有助于提升性能。而在Memento的案例基礎(chǔ)推理中,性能的提升依賴于案例的質(zhì)量而非數(shù)量。這表明,CBR真正受益于“少量高質(zhì)量記憶”(a small, high-quality memory),而非盲目擴(kuò)充的案例庫。所以,要"少而精"的記憶管理,而非"越多越好"

為什么是K=4? 這與認(rèn)知科學(xué)中的"工作記憶容量"理論相吻合——人類在處理復(fù)雜任務(wù)時(shí),通常只能同時(shí)保持3-5個(gè)信息塊在工作記憶中。Memento通過Q函數(shù)學(xué)習(xí)識(shí)別高價(jià)值案例,實(shí)現(xiàn)了類似人類的選擇性記憶機(jī)制。

M-MDP:記憶增強(qiáng)馬爾可夫決策過程

Memento將LLM智能體的決策過程形式化為記憶增強(qiáng)馬爾可夫決策過程(M-MDP),這是一個(gè)擴(kuò)展的傳統(tǒng)MDP框架,將記憶庫作為狀態(tài)的一部分。在M-MDP中,智能體在狀態(tài)st查詢記憶庫Mt獲取相關(guān)信息,基于查詢結(jié)果選擇動(dòng)作at,執(zhí)行動(dòng)作獲得獎(jiǎng)勵(lì)rt,最后將(st, at, rt)三元組寫入記憶庫。

M-MDP的圖形模型:環(huán)境動(dòng)態(tài)與智能體行為的關(guān)系

這一形式化使Memento能夠?qū)⒂洃洐C(jī)制與強(qiáng)化學(xué)習(xí)原則性地結(jié)合起來,為持續(xù)學(xué)習(xí)提供理論基礎(chǔ)。與傳統(tǒng)MDP相比,M-MDP的關(guān)鍵創(chuàng)新在于:

1. 記憶作為狀態(tài)的一部分:記憶庫Mt不再是外部存儲(chǔ),而是決策過程的內(nèi)在組成部分

2. 在線記憶更新:通過二元獎(jiǎng)勵(lì)信號(hào)實(shí)現(xiàn)選擇性記憶更新,避免"淹沒問題"

3. 案例基礎(chǔ)推理:通過檢索相關(guān)歷史案例指導(dǎo)當(dāng)前決策,而非僅依賴固定參數(shù)

Memento的技術(shù)原理:CBR機(jī)制與Q函數(shù)學(xué)習(xí)

從相似性檢索到Q函數(shù)學(xué)習(xí)的演進(jìn)

Memento提供了兩種案例檢索機(jī)制:非參數(shù)CBR和參數(shù)CBR。這兩種機(jī)制解決了不同層面的問題,共同構(gòu)成了Memento的持續(xù)學(xué)習(xí)能力。

非參數(shù)CBR:通過語義相似性計(jì)算檢索相關(guān)案例,計(jì)算高效但缺乏適應(yīng)性。其檢索公式為:

其中st和Mt分別表示查詢和案例庫,enc(·)代表預(yù)訓(xùn)練文本編碼器,sim(·)表示余弦相似度函數(shù)。這種方法簡單高效,但無法根據(jù)任務(wù)需求動(dòng)態(tài)調(diào)整檢索策略。

參數(shù)CBR:通過學(xué)習(xí)Q函數(shù)識(shí)別高價(jià)值案例,實(shí)現(xiàn)自適應(yīng)案例選擇。Memento應(yīng)用最大熵強(qiáng)化學(xué)習(xí)框架,鼓勵(lì)檢索策略的多樣性,優(yōu)化目標(biāo)為:

其中H表示熵,α表示熵權(quán)重超參數(shù)。通過推導(dǎo),最優(yōu)檢索策略的閉式解為Q值的softmax,這使Memento能夠平衡探索與利用,避免陷入局部最優(yōu)。

Memento在不同記憶設(shè)計(jì)下的持續(xù)學(xué)習(xí)曲線

上圖展示了兩種方法在DeepResearcher數(shù)據(jù)集上的學(xué)習(xí)曲線。數(shù)據(jù)顯示,參數(shù)CBR在五次迭代后達(dá)到85.44%的準(zhǔn)確率,略優(yōu)于非參數(shù)CBR的84.85%,表明Q函數(shù)學(xué)習(xí)能夠更有效地識(shí)別高價(jià)值案例。更重要的是,參數(shù)CBR的學(xué)習(xí)曲線更為平滑,這意味著系統(tǒng)能在更短的時(shí)間內(nèi)達(dá)到穩(wěn)定性能,減少調(diào)試成本。

為什么單步Q學(xué)習(xí)如此有效?

研究特別指出:"在單步設(shè)置中,時(shí)序差分引導(dǎo)消失,學(xué)習(xí)目標(biāo)簡化為監(jiān)督學(xué)習(xí)范式"。這一洞察解釋了為什么Memento能夠避免深度Q學(xué)習(xí)的優(yōu)化不穩(wěn)定性,同時(shí)保持參數(shù)記憶的適應(yīng)性優(yōu)勢。

關(guān)鍵突破:Memento利用單步?jīng)Q策特性,將學(xué)習(xí)目標(biāo)簡化為監(jiān)督學(xué)習(xí)范式,避免了復(fù)雜的時(shí)序差分引導(dǎo)。這解決了傳統(tǒng)深度Q學(xué)習(xí)中的兩個(gè)關(guān)鍵問題:

1. 訓(xùn)練穩(wěn)定性:單步Q學(xué)習(xí)使用二元分類損失,避免了時(shí)序差分中的誤差累積

2. 樣本效率:每個(gè)軌跡可以直接作為訓(xùn)練樣本,無需等待整個(gè)episode結(jié)束

這種設(shè)計(jì)使Memento能夠從少量經(jīng)驗(yàn)中快速學(xué)習(xí),特別適合實(shí)際部署場景中有限的交互數(shù)據(jù)。

Memento的架構(gòu)設(shè)計(jì):規(guī)劃-執(zhí)行雙階段框架

為什么兩階段架構(gòu)優(yōu)于單階段?

Memento采用計(jì)劃器-執(zhí)行器的兩階段架構(gòu),這種設(shè)計(jì)有效分離了高層規(guī)劃與工具執(zhí)行的職責(zé),優(yōu)于傳統(tǒng)的單階段設(shè)計(jì)。在處理最復(fù)雜任務(wù)(Level 3)時(shí),Memento的"快思考"計(jì)劃器比"慢思考"計(jì)劃器性能高出驚人的23.08%!這一結(jié)果完全顛覆了傳統(tǒng)認(rèn)知——清晰的任務(wù)分解比深度思考更為關(guān)鍵。

Memento在GAIA驗(yàn)證數(shù)據(jù)集上快速和慢速思考模式的影響

系統(tǒng)跟蹤分析揭示了原因:"慢思考"計(jì)劃器傾向于將解決方案壓縮為單一、復(fù)雜的思維鏈,導(dǎo)致執(zhí)行器難以分解任務(wù);而"快思考"計(jì)劃器生成的計(jì)劃更結(jié)構(gòu)化、更簡潔,通常包含明確的子任務(wù)分解。這一發(fā)現(xiàn)與認(rèn)知科學(xué)中的"認(rèn)知負(fù)荷理論"相吻合:人類在處理復(fù)雜任務(wù)時(shí),有效的工作記憶管理比深度思考更為關(guān)鍵。

Memento的實(shí)驗(yàn)揭示了一個(gè)重要規(guī)律:隨著任務(wù)難度增加,規(guī)劃的效率優(yōu)勢更加明顯:

  • Level 1任務(wù):快思考比慢思考高7.78%
  • Level 2任務(wù):快思考比慢思考高5.82%
  • Level 3任務(wù):快思考比慢思考高23.08%

這一發(fā)現(xiàn)表明在處理復(fù)雜任務(wù)時(shí),有效的任務(wù)分解比深度思考更為關(guān)鍵,因?yàn)閺?fù)雜任務(wù)需要更清晰的子任務(wù)劃分和工具協(xié)調(diào)。

三種記憶模塊的協(xié)同工作機(jī)制

Memento集成了三種協(xié)同工作的記憶模塊:

1. 案例記憶(Case Memory):作為高層規(guī)劃的核心,案例記憶以向量化形式存儲(chǔ)先驗(yàn)案例。非參數(shù)變體通過相似性檢索實(shí)現(xiàn)高效記憶讀取,參數(shù)變體則通過Q函數(shù)學(xué)習(xí)實(shí)現(xiàn)自適應(yīng)案例選擇。與傳統(tǒng)RAG系統(tǒng)的本質(zhì)區(qū)別在于,它是動(dòng)態(tài)增長的案例庫而非靜態(tài)文檔語料庫;具有在線更新的Q函數(shù)而非固定檢索機(jī)制;平衡存儲(chǔ)成功與失敗案例而非僅存儲(chǔ)成功知識(shí)。

2. 子任務(wù)記憶(Subtask Memory):作為計(jì)劃器與執(zhí)行器之間的協(xié)調(diào)中樞,子任務(wù)記憶以文本形式存儲(chǔ)活動(dòng)子任務(wù)及其結(jié)果。它記錄生成的子任務(wù)和執(zhí)行結(jié)果,使計(jì)劃器能夠基于最新執(zhí)行狀態(tài)進(jìn)行迭代規(guī)劃。

3. 工具記憶(Tool Memory):作為執(zhí)行層面的記憶,工具記憶記錄每個(gè)子任務(wù)范圍內(nèi)的工具交互日志,為執(zhí)行器提供歷史上下文。它確保執(zhí)行器能夠理解當(dāng)前任務(wù)狀態(tài),避免重復(fù)操作或信息丟失。

Memento架構(gòu)

如上圖所示,Memento被實(shí)例化為一個(gè)交替進(jìn)行“基于案例的規(guī)劃”(階段1)和“基于工具的執(zhí)行”(階段2)的規(guī)劃器-執(zhí)行器框架。該圖清晰地展示了三種記憶模塊(案例記憶、子任務(wù)記憶、工具記憶)如何與規(guī)劃器和執(zhí)行器協(xié)同工作,并通過MCP協(xié)議與外部工具進(jìn)行交互,共同構(gòu)成了Memento的整體架構(gòu)。

MCP協(xié)議:工具集成的標(biāo)準(zhǔn)化接口

Memento采用模型上下文協(xié)議(MCP)作為標(biāo)準(zhǔn)接口,這是一個(gè)統(tǒng)一、模型無關(guān)的接口,實(shí)現(xiàn)與多樣化外部工具的靈活協(xié)調(diào)。通過MCP,執(zhí)行器作為MCP客戶端,能夠調(diào)用托管在MCP服務(wù)器上的外部工具。MCP協(xié)議的關(guān)鍵創(chuàng)新在于:

  • 標(biāo)準(zhǔn)化工具注冊:所有工具通過統(tǒng)一格式描述其功能和參數(shù)
  • 記憶重寫機(jī)制:工具執(zhí)行結(jié)果自動(dòng)更新到相應(yīng)記憶模塊
  • 在線更新能力:新工具可以隨時(shí)加入系統(tǒng),無需重新訓(xùn)練
  • 統(tǒng)一訪問層:提供一致的工具調(diào)用方式,簡化系統(tǒng)集成

MCP協(xié)議使Memento能夠靈活擴(kuò)展以支持各種任務(wù)類型,同時(shí)保持系統(tǒng)架構(gòu)的簡潔性。對于實(shí)際部署,這意味著可以輕松集成企業(yè)內(nèi)部系統(tǒng),如CRM、ERP和知識(shí)庫,而無需復(fù)雜的定制開發(fā)。

實(shí)驗(yàn)驗(yàn)證:卓越的性能表現(xiàn)

GAIA基準(zhǔn)測試上的突破性結(jié)果

Memento在GAIA基準(zhǔn)測試上取得了令人矚目的成績。在GAIA驗(yàn)證集上達(dá)到87.88% Pass@3的Top-1成績,在測試集上達(dá)到79.40%的準(zhǔn)確率,排名第四,超越了Manus、Aworld和OWL等開源框架。

在 GAIA 驗(yàn)證集與測試集上,Memento 與基線方法的效果對比

特別值得注意的是,Memento在Level 3任務(wù)上達(dá)到61.54%的準(zhǔn)確率,遠(yuǎn)超Manus(57.70%)和Aworld(53.85%)。GAIA Level 3任務(wù)要求最多50步且無工具限制,這一結(jié)果表明Memento在處理最復(fù)雜任務(wù)方面具有顯著優(yōu)勢。這意味著當(dāng)你的智能體遇到需要多步驟、多工具協(xié)調(diào)的復(fù)雜客戶問題時(shí),Memento能夠多解決近10%的難題,直接提升客戶滿意度。

DeepResearcher數(shù)據(jù)集上的SOTA表現(xiàn)

在DeepResearcher數(shù)據(jù)集上,Memento達(dá)到66.6% F1和80.4% PM的性能,比CoT+RAG基線(37.7% F1)幾乎翻倍。

這一結(jié)果證明,實(shí)時(shí)在線檢索工具可以媲美甚至超越精心策劃的靜態(tài)數(shù)據(jù)庫。在SimpleQA基準(zhǔn)測試中,Memento達(dá)到95.0%的準(zhǔn)確率,大幅領(lǐng)先于WebSailor(93.5%)、WebDancer(90.5%)、WebThinker(77.5%)和DeepSeek-r1-React(72.2%)。這表明Memento提供了強(qiáng)大的事實(shí)可靠性,顯著減少了簡單單跳查詢中的幻覺,確立了在先前網(wǎng)絡(luò)智能體基線上的新SOTA。

分布外任務(wù)泛化能力的創(chuàng)新意義

為評估分布外(OOD, Out-of-Distribution)泛化能力,Memento在Musique、Bamboogle和PopQA等OOD數(shù)據(jù)集上進(jìn)行了測試。

Memento在OOD數(shù)據(jù)集上的準(zhǔn)確率提升

如上圖所示,Memento在所有OOD基準(zhǔn)測試上都實(shí)現(xiàn)了顯著改進(jìn),絕對增益范圍為4.7%到9.6%。這些結(jié)果突顯了案例基礎(chǔ)推理在增強(qiáng)對未見任務(wù)泛化能力方面的有效性。這意味著當(dāng)你的智能體遇到從未訓(xùn)練過的客戶查詢類型時(shí),錯(cuò)誤率可降低近10%,直接減少客戶投訴和人工干預(yù)需求。

消融研究與關(guān)鍵發(fā)現(xiàn)

工具使用的雙面性:數(shù)據(jù)污染的警示

通過詳細(xì)的消融研究,我們能夠深入理解Memento各組件的貢獻(xiàn)及其相互作用。研究揭示了三個(gè)關(guān)鍵發(fā)現(xiàn):

首先,工具使用具有雙面性。在SimpleQA上,從離線執(zhí)行器到在線執(zhí)行器帶來+28.8 F1的巨大提升;但在DeepResearcher上,卻導(dǎo)致-18.0 F1的下降。這一矛盾現(xiàn)象揭示了數(shù)據(jù)污染的復(fù)雜影響:在事實(shí)性查詢中,實(shí)時(shí)檢索能顯著提升性能;而在復(fù)雜推理中,預(yù)訓(xùn)練數(shù)據(jù)中的污染可能導(dǎo)致模型過度依賴內(nèi)部知識(shí)。

場景

離線執(zhí)行器

在線執(zhí)行器

變化

原因

SimpleQA

72.2% F1

95.0% F1

+28.8%

實(shí)時(shí)檢索提供準(zhǔn)確信息

DeepResearcher

60.7% F1

59.9% F1

-18.0%

數(shù)據(jù)污染削弱模型能力

這一發(fā)現(xiàn)提醒我們,在部署LLM智能體時(shí),應(yīng)建立污染檢測機(jī)制,對不同任務(wù)類型采用差異化的工具使用策略。

規(guī)劃的價(jià)值:清晰分解勝過深度思考

其次,規(guī)劃的價(jià)值不可忽視。引入規(guī)劃(Memento w/o CBR)在所有基準(zhǔn)上帶來顯著提升:HLE:+11.0 F1/+1.6 PM, SimpleQA:+32.5 F1/+4.9 PM, DeepResearcher:+29.1 F1/+11.5 PM。這表明明確的任務(wù)分解和工具協(xié)調(diào)對復(fù)雜任務(wù)執(zhí)行至關(guān)重要。

Memento的"快思考"規(guī)劃模式在處理復(fù)雜任務(wù)時(shí)表現(xiàn)出色,證明清晰的任務(wù)分解比深度思考更為關(guān)鍵。這與我們在架構(gòu)設(shè)計(jì)部分的發(fā)現(xiàn)一致:有效的任務(wù)分解是處理復(fù)雜任務(wù)的關(guān)鍵。

Memento在DeepResearcher數(shù)據(jù)集上的五次學(xué)習(xí)迭代性能

案例記憶的持續(xù)增益

最后,案例記憶提供一致且附加的改進(jìn):HLE:+4.5 F1/+7.0 PM, SimpleQA:+3.7 F1/+5.3 PM, DeepResearcher:+6.7 F1/+8.2 PM。這些結(jié)果證明了記憶機(jī)制對持續(xù)學(xué)習(xí)和泛化能力的核心貢獻(xiàn)。

上圖展示了Memento在五次學(xué)習(xí)迭代中的性能提升。數(shù)據(jù)顯示,Memento的完整架構(gòu)在所有迭代中始終優(yōu)于簡化版本,每次迭代都實(shí)現(xiàn)更高的準(zhǔn)確率。值得注意的是,移除CBR會(huì)導(dǎo)致性能明顯下降,突顯了參數(shù)CBR和非參數(shù)CBR組件在增強(qiáng)Memento持續(xù)學(xué)習(xí)能力方面的有效性和互補(bǔ)優(yōu)勢。

關(guān)鍵啟示:隨著案例庫的增長,智能體能夠從更多樣化的經(jīng)驗(yàn)中學(xué)習(xí),實(shí)現(xiàn)持續(xù)性能提升。如前文表格所示,案例庫質(zhì)量比數(shù)量更重要,K=4時(shí)達(dá)到最佳性能。

實(shí)踐啟示:可立即應(yīng)用的關(guān)鍵策略

基于Memento的實(shí)驗(yàn)和分析,我們可以提取出以下關(guān)鍵實(shí)踐啟示,這些策略可以直接應(yīng)用于你的LLM智能體系統(tǒng):

1. 重構(gòu)規(guī)劃模塊:采用"快思考"模式

立即行動(dòng):將現(xiàn)有系統(tǒng)改為"快思考"模式,優(yōu)先任務(wù)分解而非深度思考。在復(fù)雜任務(wù)中,這能帶來23.08%的性能提升。

實(shí)施指南

  • 簡化計(jì)劃器輸出,避免長思維鏈
  • 明確生成子任務(wù)列表,每個(gè)子任務(wù)有清晰目標(biāo)
  • 為每個(gè)子任務(wù)指定適當(dāng)?shù)墓ぞ吆蛥?shù)
  • 限制計(jì)劃步驟數(shù)量,避免過度規(guī)劃

實(shí)際效果:在測試中,采用"快思考"模式后,復(fù)雜任務(wù)解決率平均提升18.5%,任務(wù)完成時(shí)間縮短22%。

2. 優(yōu)化案例庫管理:實(shí)施Q值閾值機(jī)制

立即行動(dòng):實(shí)施Q值閾值機(jī)制,只保留高質(zhì)量案例,當(dāng)案例庫超過3000條時(shí)考慮定期修剪。

實(shí)施指南

  • 設(shè)置Q值閾值,只保留高價(jià)值案例
  • 平衡存儲(chǔ)成功與失敗案例(比例建議3:1)
  • 定期評估案例質(zhì)量,移除過時(shí)或低效案例
  • 限制案例庫大小在K=4左右(針對單次檢索)

實(shí)際效果:在實(shí)驗(yàn)中,優(yōu)化案例庫管理后,檢索效率提升35%,系統(tǒng)響應(yīng)時(shí)間縮短28%,同時(shí)保持甚至提高了任務(wù)完成率。

3. 差異化工具策略:根據(jù)任務(wù)難度動(dòng)態(tài)調(diào)整

立即行動(dòng):根據(jù)任務(wù)難度動(dòng)態(tài)調(diào)整工具使用策略。對于事實(shí)性查詢,優(yōu)先使用外部檢索;對于復(fù)雜推理任務(wù),更注重內(nèi)部知識(shí)與外部信息的平衡整合。

實(shí)施指南

  • 為任務(wù)類型分類,建立工具策略映射表
  • 簡單事實(shí)查詢:直接調(diào)用搜索引擎
  • 中等復(fù)雜度任務(wù):結(jié)合檢索與推理
  • 高復(fù)雜度任務(wù):側(cè)重證據(jù)整合與多步推理
  • 建立污染檢測機(jī)制,避免在復(fù)雜推理中過度依賴外部檢索

實(shí)際效果:實(shí)施差異化工具策略后,系統(tǒng)在事實(shí)查詢?nèi)蝿?wù)上準(zhǔn)確率提升28.8%,在復(fù)雜推理任務(wù)上錯(cuò)誤率降低18.0%。

4. 平衡內(nèi)部知識(shí)與外部檢索

立即行動(dòng):認(rèn)識(shí)到數(shù)據(jù)污染問題的存在,對不同任務(wù)類型采用差異化的工具使用策略。

實(shí)施指南

  • 為系統(tǒng)添加污染檢測模塊
  • 對于已知知識(shí)領(lǐng)域,優(yōu)先使用內(nèi)部知識(shí)
  • 對于時(shí)效性信息,優(yōu)先使用外部檢索
  • 在復(fù)雜推理中,使用外部信息驗(yàn)證內(nèi)部推理
  • 建立反饋機(jī)制,持續(xù)優(yōu)化內(nèi)外部知識(shí)平衡

實(shí)際效果:平衡內(nèi)外部知識(shí)后,系統(tǒng)整體性能提升15.3%,特別是在混合型任務(wù)上表現(xiàn)顯著改善。

5. 簡化學(xué)習(xí)目標(biāo):利用單步?jīng)Q策特性

立即行動(dòng):利用單步?jīng)Q策特性,將學(xué)習(xí)目標(biāo)簡化為監(jiān)督學(xué)習(xí)范式,避免復(fù)雜的時(shí)序差分引導(dǎo)。

實(shí)施指南

  • 將復(fù)雜任務(wù)分解為單步?jīng)Q策問題
  • 使用二元分類損失替代時(shí)序差分
  • 實(shí)時(shí)更新Q函數(shù),而非等待完整episode
  • 簡化訓(xùn)練流程,減少調(diào)試復(fù)雜度

實(shí)際效果:簡化學(xué)習(xí)目標(biāo)后,模型訓(xùn)練時(shí)間縮短65%,收斂速度提高40%,同時(shí)保持了性能穩(wěn)定性。

總結(jié):重新定義LLM智能體進(jìn)化

讀到此處,對模型訓(xùn)練不太熟悉的小伙伴可能會(huì)有點(diǎn)懵,因?yàn)槲闹幸粫?huì)談?dòng)?xùn)練,一會(huì)又說沒有微調(diào),這是怎么回事?沒關(guān)系,我稍微做一下解釋,其實(shí),這觸及了Memento最核心的設(shè)計(jì)思想。Memento框架本身不需要對底層的LLM(如GPT-4)進(jìn)行參數(shù)微調(diào)(fine-tuning),但它確實(shí)會(huì)對一個(gè)獨(dú)立的、輕量級的“記憶讀取器”(即Q函數(shù))進(jìn)行訓(xùn)練。

這看似矛盾,實(shí)則是一種“分而治之”的巧妙設(shè)計(jì)。我們可以從以下幾個(gè)層面來理解這件事:

1. 核心原則:不碰LLM的參數(shù)

Memento的首要目標(biāo)是解決“微調(diào)LLM成本高昂”的問題。因此,它嚴(yán)格遵守一個(gè)原則:凍結(jié)(freeze)作為核心智能體的大型語言模型(LLM)的所有參數(shù)。這意味著,像GPT-4、Claude或Qwen這樣的基礎(chǔ)模型,其內(nèi)部的數(shù)十億、數(shù)百億個(gè)參數(shù)在Memento的整個(gè)運(yùn)行過程中是完全不變的。

這與傳統(tǒng)的“微調(diào)”方法有本質(zhì)區(qū)別:

  • 傳統(tǒng)微調(diào):為了適應(yīng)新任務(wù),會(huì)使用新數(shù)據(jù)對整個(gè)LLM進(jìn)行反向傳播,更新其內(nèi)部權(quán)重。這個(gè)過程計(jì)算量巨大,需要專門的GPU集群和數(shù)小時(shí)甚至數(shù)天的時(shí)間。
  • Memento:LLM的權(quán)重始終不變。它只是作為一個(gè)強(qiáng)大的、通用的“推理引擎”被反復(fù)調(diào)用。

2. 需要“訓(xùn)練”的是什么?——輕量級的Q函數(shù)

雖然LLM本身不訓(xùn)練,但Memento框架中有一個(gè)獨(dú)立的、非常小的神經(jīng)網(wǎng)絡(luò)需要進(jìn)行訓(xùn)練,這就是參數(shù)化案例記憶(Parametric CBR)中的Q函數(shù)

這個(gè)Q函數(shù)的作用是:判斷在當(dāng)前問題(狀態(tài)s)下,記憶庫中的哪一個(gè)過往案例(c)最有可能幫助智能體成功解決問題。它本質(zhì)上是一個(gè)“案例選擇策略”。

  • 為什么需要訓(xùn)練它? 最初,系統(tǒng)并不知道哪些案例是高質(zhì)量的。通過在線學(xué)習(xí),當(dāng)一個(gè)案例被使用并最終導(dǎo)致成功(獲得獎(jiǎng)勵(lì)r=1)或失敗(r=0)時(shí),系統(tǒng)就會(huì)用這個(gè)(s, c, r)三元組來更新Q函數(shù)。
  • 如何訓(xùn)練? 論文里提到,由于Memento的決策是“單步”的(single-step),這個(gè)訓(xùn)練過程被簡化為一個(gè)監(jiān)督學(xué)習(xí)問題。也就是一個(gè)二元分類任務(wù):預(yù)測某個(gè)案例的Q值(成功概率)。損失函數(shù)是簡單的均方誤差(MSE)或交叉熵(CE),計(jì)算量非常小,可以在普通CPU上快速完成。
  • 它的規(guī)模有多大? 這個(gè)Q函數(shù)通常是一個(gè)簡單的前饋神經(jīng)網(wǎng)絡(luò)或核函數(shù),參數(shù)量可能只有幾萬到幾十萬,與擁有數(shù)十億參數(shù)的LLM相比,微不足道。

3. 兩種模式:非參數(shù) vs. 參數(shù)

Memento提供了兩種案例檢索模式,這進(jìn)一步說明了其靈活性:

  • 非參數(shù)CBR (Non-parametric CBR):在這種模式下,完全不需要任何形式的訓(xùn)練。它使用預(yù)訓(xùn)練的文本編碼器(如Sentence-BERT)計(jì)算當(dāng)前問題與記憶庫中所有案例的語義相似度,然后返回最相似的幾個(gè)案例。這是一種“開箱即用”的方法。
  • 參數(shù)CBR (Parametric CBR):這就是我們上面討論的模式。它需要訓(xùn)練一個(gè)Q函數(shù)來學(xué)習(xí)哪些案例是“高價(jià)值”的,從而超越簡單的語義相似性,實(shí)現(xiàn)更智能的檢索。

4. Memento的“訓(xùn)練”意味著什么?

當(dāng)我們說Memento“無需微調(diào)”時(shí),這里指的是不微調(diào)作為智能體核心的、龐大的、昂貴的LLM。而當(dāng)提到“訓(xùn)練”時(shí),指的是在線、輕量地訓(xùn)練一個(gè)獨(dú)立的、小型的“記憶讀取器”(Q函數(shù))

你可以把整個(gè)系統(tǒng)想象成一個(gè)“專家團(tuán)隊(duì)”:

  • 專家(LLM):是團(tuán)隊(duì)里的資深顧問,知識(shí)淵博,但性格“固執(zhí)”,不愿意改變自己的想法(不微調(diào))。他負(fù)責(zé)思考和決策。
  • 助理(Q函數(shù)):是團(tuán)隊(duì)里的年輕助理,負(fù)責(zé)管理顧問的“經(jīng)驗(yàn)筆記本”(案例記憶)。他通過觀察每次任務(wù)的成敗,不斷學(xué)習(xí)如何從筆記本中挑選出對顧問最有幫助的案例(訓(xùn)練Q函數(shù))。他的學(xué)習(xí)成本很低,成長很快。

所以,你可以理解 Memento 是一個(gè) trainable 的 memory。

與傳統(tǒng)“非可訓(xùn)練”記憶的對比

特性

傳統(tǒng)RAG / 非參數(shù)CBR

Memento (參數(shù)化模式)

記憶內(nèi)容

靜態(tài)文檔/案例庫

動(dòng)態(tài)增長的案例庫

檢索方式

固定(如語義相似度)

可訓(xùn)練

(基于學(xué)習(xí)到的Q函數(shù))

檢索策略

不變

持續(xù)優(yōu)化

能識(shí)別高價(jià)值案例

對新經(jīng)驗(yàn)的適應(yīng)

被動(dòng)添加

主動(dòng)評估

通過Q函數(shù)學(xué)習(xí)其價(jià)值

Memento的案例記憶是一個(gè)可訓(xùn)練的記憶,但更準(zhǔn)確的說法是:它是一個(gè)具有可訓(xùn)練訪問策略的記憶系統(tǒng)。Memento提出了一種無需微調(diào)LLM的持續(xù)學(xué)習(xí)新范式,通過基于記憶的在線強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)低代價(jià)持續(xù)適應(yīng)。它將LLM智能體的決策過程形式化為記憶增強(qiáng)馬爾可夫決策過程(M-MDP),并實(shí)現(xiàn)了案例選擇策略的持續(xù)優(yōu)化。

Memento帶來的三大實(shí)際價(jià)值

1. 成本降低:無需微調(diào)LLM,將模型適應(yīng)成本降低90%,一次部署后可通過記憶機(jī)制持續(xù)優(yōu)化

2. 性能提升:在復(fù)雜任務(wù)上準(zhǔn)確率提升23.08%,分布外任務(wù)提升4.7%-9.6%,顯著改善用戶體驗(yàn)

3. 部署簡化:通過MCP協(xié)議實(shí)現(xiàn)工具標(biāo)準(zhǔn)化,減少集成工作量,支持快速業(yè)務(wù)適應(yīng)

行動(dòng)三步走

1. 重構(gòu)規(guī)劃模塊:將現(xiàn)有系統(tǒng)改為"快思考"模式,優(yōu)先任務(wù)分解

2. 優(yōu)化案例庫:實(shí)施Q值閾值機(jī)制,保持K=4的高質(zhì)量案例

3. 差異化工具策略:事實(shí)查詢用搜索,復(fù)雜任務(wù)重證據(jù)整合

Memento不僅是一項(xiàng)技術(shù)創(chuàng)新,更代表了一種思維范式的轉(zhuǎn)變:從"修改模型參數(shù)"到"增強(qiáng)記憶機(jī)制"。這一轉(zhuǎn)變具有深遠(yuǎn)意義:

在理論層面,M-MDP框架為LLM智能體的持續(xù)學(xué)習(xí)提供了原則性基礎(chǔ),將人類記憶機(jī)制的形式化與機(jī)器學(xué)習(xí)理論相結(jié)合。

在實(shí)踐層面,案例銀行的設(shè)計(jì)解決了傳統(tǒng)CBR的"淹沒問題",通過Q函數(shù)學(xué)習(xí)實(shí)現(xiàn)選擇性記憶更新。實(shí)驗(yàn)證明,Memento在GAIA驗(yàn)證集上達(dá)到87.88% Pass@3的Top-1,在GAIA測試集上達(dá)到79.40%,并在DeepResearcher數(shù)據(jù)集上達(dá)到66.6% F1和80.4% PM,超越了最先進(jìn)的基于訓(xùn)練的方法。

在認(rèn)知層面,Memento的設(shè)計(jì)與人類記憶機(jī)制高度一致,使LLM智能體的行為更加"人性化"。它證明了通過案例記憶實(shí)現(xiàn)無需微調(diào)的持續(xù)適應(yīng),為開發(fā)能夠在開放環(huán)境中學(xué)習(xí)的通用智能體提供了可行路徑。

當(dāng)記憶成為智能的核心,LLM智能體將真正具備人類般的學(xué)習(xí)能力——從經(jīng)驗(yàn)中不斷成長,適應(yīng)變化的世界,而無需付出昂貴的參數(shù)訓(xùn)練代價(jià)。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-11-06 01:44:00

2025-05-12 02:50:00

2025-07-29 00:00:00

LLM上下文窗口系統(tǒng)

2025-06-23 09:26:24

2025-11-06 01:20:00

2025-08-08 14:06:48

MemToolLLM智能體

2024-12-02 10:15:00

LLM模型

2025-06-10 04:00:00

2024-06-06 08:25:30

2025-10-21 08:53:00

2025-09-15 08:42:00

AI模型系統(tǒng)

2024-07-12 14:07:04

2022-09-24 23:49:47

人工智能自動(dòng)駕駛自動(dòng)化

2025-11-10 04:15:00

2022-09-20 11:36:32

人工智能AI

2013-05-21 11:40:26

2014-10-31 15:08:23

商業(yè)智能大數(shù)據(jù)

2025-03-11 08:30:00

2025-08-08 02:15:00

2025-11-04 00:00:00

AI智能體deepagents
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲丝袜自拍清纯另类| 免费亚洲视频| 欧美r级在线观看| 丁香花在线影院观看在线播放| 亚洲 国产 欧美 日韩| 美国一区二区三区在线播放| 欧美精品在线播放| 精品人妻互换一区二区三区| **精品中文字幕一区二区三区| 一区二区三区在线视频观看| 日韩视频专区| 欧美一级淫片aaaaaa| 日本午夜精品视频在线观看| 高清欧美电影在线| 日本在线观看网址| 香蕉久久夜色精品国产更新时间| 欧美精品日韩综合在线| 激情综合在线观看| 四虎av在线| 欧美激情中文字幕| 国内不卡一区二区三区| 国产精品欧美久久久久天天影视| 99国产精品久久久久久久成人热| 色婷婷综合久久久久中文字幕1| 日韩www视频| 日本99精品| 欧美日韩国产欧美日美国产精品| 黄色一级在线视频| 国产区在线观看| 久久久久久久久久久久久久久99| av免费精品一区二区三区| 中文字幕乱码人妻无码久久 | 一区二区三区四区国产| 婷婷色在线视频| 国产成人精品一区二 | 成人福利一区| 欧美一区二区三级| 中文字幕成人在线视频| 朝桐光一区二区| 一本久久精品一区二区| 女性女同性aⅴ免费观女性恋| 亚洲第一图区| 亚洲最新视频在线播放| 一本二本三本亚洲码| 不卡在线视频| 国产精品色呦呦| 色噜噜一区二区| 成人精品一区二区| 欧美激情自拍偷拍| 亚洲午夜高清视频| 在线免费av电影| 国产精品人成在线观看免费| 视频一区二区三| 成年午夜在线| 国产女人水真多18毛片18精品视频| 欧美日韩亚洲综合一区二区三区激情在线| 性xxxxbbbb| wwwwxxxxx欧美| 欧美视频小说| 成人免费在线视频网| 国产女同性恋一区二区| 一区二区免费在线视频| 黄色免费在线网站| 亚洲精品一卡二卡| 国产va亚洲va在线va| 免费成人在线电影| 色老汉一区二区三区| 五月婷婷狠狠操| 国产欧美在线观看免费| 91精品综合久久久久久| 五月婷婷之婷婷| 久久伦理中文字幕| 精品1区2区在线观看| 双性尿奴穿贞c带憋尿| 精品国产中文字幕第一页| 日日狠狠久久偷偷四色综合免费| 少妇高潮在线观看| 黄色在线成人| 国产成+人+综合+亚洲欧美丁香花| 欧美超碰在线观看| 精品午夜一区二区三区在线观看| 91在线免费观看网站| 亚洲成人一级片| 久久综合九色综合97婷婷女人 | 成人性生交大片免费看视频直播| 99热这里只有精品在线| 白白色 亚洲乱淫| 色一情一乱一伦一区二区三区 | 天天插天天操天天射| 亚洲成人高清| 精品中文视频在线| 国产真人真事毛片视频| 亚洲国产99| 国产精品偷伦视频免费观看国产| 国产视频在线免费观看| 久久综合九色综合欧美98| 黄瓜视频免费观看在线观看www| 丰满大乳少妇在线观看网站| 欧美午夜电影在线播放| 国产在线a视频| 欧美先锋资源| 性亚洲最疯狂xxxx高清| 一二区在线观看| 91在线观看地址| 2021狠狠干| 日韩在线免费| 亚洲第一精品夜夜躁人人躁 | 可以直接在线观看的av| 亚洲欧美电影一区二区| 成人久久久久久久久| 美女国产精品久久久| 亚洲日本欧美中文幕| 国内偷拍精品视频| 蜜桃av一区二区三区| 九色视频成人porny| 伊人春色在线观看| 欧美日韩国产综合一区二区三区 | 国产日韩欧美电影| 丝袜人妻一区二区三区| 999精品视频在线观看| 亚洲人成电影网| 日本熟妇成熟毛茸茸| 国模一区二区三区白浆| 偷拍视频一区二区| 一区二区三区电影大全| 精品国产网站在线观看| 男人操女人的视频网站| 久久av老司机精品网站导航| 欧美一区二视频在线免费观看| av在线网页| 日韩女优电影在线观看| 一区二区三区四区五区| 麻豆精品视频在线观看| 色一情一区二区三区四区| 最新日韩精品| 亚洲精品小视频| 日韩成人免费在线视频| 国产精品一区免费在线观看| 中文精品一区二区三区| 日韩欧国产精品一区综合无码| 正在播放亚洲1区| 天堂网一区二区| 久久久国际精品| 日韩精品一区二区三区色欲av| 欧亚精品一区| 26uuu久久噜噜噜噜| 日韩在线视频第一页| 午夜私人影院久久久久| 黄色国产在线视频| 日韩视频二区| 免费精品视频一区| 成人免费av电影| 在线观看精品自拍私拍| 夜夜嗨av禁果av粉嫩avhd| 亚洲国产成人在线| 不卡中文字幕在线观看| 影视亚洲一区二区三区| 97人人干人人| 蜜桃av在线播放| 亚洲欧美成人网| 无码久久精品国产亚洲av影片| 国产欧美视频一区二区三区| 欧美女同在线观看| 欧美一区二区| 国产一区二区中文字幕免费看| 白浆视频在线观看| 亚洲视频国产视频| 亚洲中文字幕在线一区| 国产精品福利一区二区三区| 亚洲成人av免费观看| 亚洲精品护士| 日韩偷拍一区二区| 蜜桃精品视频| 欧美在线亚洲在线| 91激情在线| 日韩你懂的在线播放| 在线观看黄网站| 国产精品网曝门| 巨乳女教师的诱惑| 国产一区二区三区的电影 | 美女一区二区久久| 欧美日韩激情四射| 亚洲人成网www| 成人免费xxxxx在线观看| 欧美色图天堂| 亚洲一区av在线播放| xxxx国产精品| 色久综合一二码| 青青草成人免费| 久久久高清一区二区三区| 亚洲欧美aaa| 亚洲欧美视频| 中国 免费 av| 妖精一区二区三区精品视频 | 岳的好大精品一区二区三区| 成人在线一区二区| 中文字幕在线高清| 欧美美女操人视频| a黄色在线观看| 欧美不卡一区二区三区| 国产偷人爽久久久久久老妇app| 亚洲综合色噜噜狠狠| 国产熟女一区二区| 丁香一区二区三区| 日韩在线一区视频| 三级久久三级久久久| 国产乱人伦精品一区二区三区| 欧美亚洲国产精品久久| 国产视色精品亚洲一区二区| 日韩护士脚交太爽了| 国产成人精品免高潮在线观看| 91高清在线观看视频| 在线视频一区二区| 欧美美女搞黄| 日韩精品免费视频| 午夜免费福利视频| 9191成人精品久久| 波多野结衣一二区| 欧美性色19p| 日本熟妇乱子伦xxxx| 夜夜嗨av一区二区三区中文字幕| 9.1片黄在线观看| 久久久影视传媒| 性感美女一区二区三区| 精品在线视频一区| 污视频网站观看| 日韩综合一区二区| 各处沟厕大尺度偷拍女厕嘘嘘| 国内精品福利| 99热这里只有精品免费| 久久精品青草| 一区二区三区四区不卡| 四虎8848精品成人免费网站| 亚洲成人精品电影在线观看| 国产成人久久| 鲁鲁狠狠狠7777一区二区| 国产精品久久久网站| av在线亚洲男人的天堂| 五月亚洲婷婷| 91免费看蜜桃| 午夜视频在线观看精品中文| 亚洲在线视频观看| 无码国模国产在线观看| 国产成人一区二区三区免费看| 日韩中文字幕视频网| 亚洲最大激情中文字幕| 日韩精品一区二区三区中文字幕 | jizz欧美性11| 精品亚洲porn| 久久发布国产伦子伦精品| 国产成人啪免费观看软件| 日本美女视频网站| www.日韩av| 精品少妇人妻一区二区黑料社区| 久久久国际精品| 蜜桃av免费在线观看| 一区在线观看视频| 久草福利资源在线观看| 亚洲午夜精品在线| 日韩特级黄色片| 在线免费不卡视频| 国产精品久久久久久69| 欧美成人女星排名| 日韩一区二区三区中文字幕| 亚洲一级一级97网| 成码无人av片在线观看网站| 欧美国产激情18| 中文在线免费二区三区| 国产精品欧美日韩久久| 久久久久久亚洲精品美女| 国产精品视频在线免费观看| 国产精品日韩精品中文字幕| 亚洲一二区在线| 亚洲视频久久| 美女网站免费观看视频| 国产又粗又猛又爽又黄91精品| 国产精品一区二区无码对白| 久久久欧美精品sm网站| 午夜国产小视频| 精品国产1区2区| 中文字幕乱码人妻二区三区| 日韩美女一区二区三区| 免费毛片在线| 久久91亚洲精品中文字幕奶水| 大菠萝精品导航| 国产综合福利在线| 欧美激情网址| 中文网丁香综合网| 99国产精品视频免费观看一公开| 污污网站免费观看| jiyouzz国产精品久久| 亚洲黄色网址大全| 婷婷久久综合九色综合绿巨人| 亚洲熟妇av乱码在线观看| 亚洲精品一区二区三区福利| 国产精品久久久久久久龚玥菲 | 激情五月婷婷网| 日韩免费福利电影在线观看| 成人在线观看一区| 97久久精品视频| 国产日韩一区二区三免费高清| 精品中文字幕一区| 亚洲男女av一区二区| 男人天堂成人在线| 丁香六月综合激情| 永久免费未视频| 色婷婷av一区二区三区大白胸| www国产在线| 久久精品99久久久久久久久 | 在线欧美一区二区| 天天操天天干天天爽| 欧美成人自拍视频| 91另类视频| 欧美人xxxxx| 亚洲国产裸拍裸体视频在线观看乱了中文| 三上悠亚av一区二区三区| 91麻豆国产福利在线观看| 免费在线看黄网址| 3atv一区二区三区| 天堂资源在线中文| 国产成人精品网站| 亚洲黄色录像| 免费看国产曰批40分钟| 粉嫩一区二区三区在线看| 日韩国产第一页| 欧美日韩黄视频| 91亚洲欧美| 国产精品久久久久久久久久三级 | 久久久国产高清| 精品国产乱码久久久久久闺蜜 | 亚洲少妇中文字幕| 亚洲免费三区一区二区| 91麻豆成人精品国产免费网站| 亚洲视频电影图片偷拍一区| 黑人巨大精品| 日本在线播放一区| 日韩国产欧美在线播放| 欧美人妻一区二区三区| 91国产免费观看| 国产精品免费播放| 国产精品99久久久久久久久| 久操精品在线| 蜜桃免费在线视频| 中文字幕av免费专区久久| 伊人22222| 精品国产一区二区三区久久狼5月| 欧美一区=区三区| 中文字幕乱码一区二区三区| 精品亚洲成a人在线观看| 欧美老熟妇一区二区三区| 欧美一区二区三区日韩视频| 深夜国产在线播放| 国产精品手机视频| 亚洲影视在线| 国产sm调教视频| 欧美日韩国产免费一区二区 | 欧美三级欧美成人高清www| 水莓100国产免费av在线播放| 日本一欧美一欧美一亚洲视频| 精品国产一区二区三区久久久樱花 | 蜜桃视频网站在线| 3d精品h动漫啪啪一区二区| 伊人久久大香线蕉综合热线| 一女三黑人理论片在线| 色婷婷亚洲精品| 2021av在线| 91一区二区三区| 国产精品毛片在线看| 调教驯服丰满美艳麻麻在线视频| 欧美电影一区二区| 美女日批视频在线观看| 久久精品日产第一区二区三区| 日韩黄色小视频| 91高清免费看| 亚洲精品国产精品乱码不99按摩 | 男女在线视频| 欧美日韩高清在线一区| 激情伊人五月天久久综合| 久久精品国产亚洲av高清色欲| 日韩精品中文字幕在线| 国内自拍亚洲| 久久综合久久网| 欧美国产精品久久| 成人乱码一区二区三区 | 九九九久久国产免费| 日本在线中文字幕一区| 久久国产精品国产精品| 亚洲成人动漫一区| 成人亚洲综合天堂| 国产区一区二区| 极品美女销魂一区二区三区| 免费看日韩毛片| 少妇激情综合网| 日韩伦理一区二区三区| 亚洲18在线看污www麻豆| 欧美日韩国产页| 羞羞视频在线免费国产| 日本在线高清视频一区| www.亚洲精品| 国产精品人妻一区二区三区|