精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

記憶牢籠還是概括之路?上海交通大學與加州大學圣地亞哥分校聯合團隊破解大模型代碼生成謎題

發布于 2025-3-14 00:16
瀏覽
0收藏

在充滿挑戰與機遇的人工智能領域,大語言模型(Large Language Models, LLMs)已經在多個場景中展現了驚人的潛力。從語言生成到機器翻譯,這些模型不斷突破界限。而在軟件開發這一專業化領域,它們似乎成為了一種理想的助手——幫助程序員從自然語言描述中生成代碼,或通過提示優化現有程序。然而,盡管模型的能力令人驚嘆,它們也面臨著不可忽視的問題:是否能真正理解編程邏輯,還是僅僅在“記住”和“復述”?

來自上海交通大學與加州大學圣地亞哥分校聯合研究團隊敏銳地捕捉到這一點。他們發現,盡管LLMs在面對“原始問題”時能夠生成正確答案,但在面對這些問題的“變體”時,表現往往顯著下降。這種現象被稱為“記憶化”(memorization)。問題在于,這種記憶化現象可能意味著模型只是簡單地記住了訓練中見過的例子,而非真正掌握了解決問題的能力。當問題稍作修改時,例如換一種措辭表達,或者稍微調整邏輯結構,模型的回答會暴露出缺乏泛化能力的短板。這個矛盾便是“記憶”與“概括”之間的對立。

3 月 5 日,他們發表的論文《《Memorize or Generalize? Evaluating LLM Code Generation with Evolved Questions》》直擊問題核心——模型究竟是在復述訓練數據,還是掌握了真正的理解與推理?從語義層面,“記憶”指的是模型復現訓練時遇到的具體例子,而“概括”則意味著能夠超越訓練數據范圍,將已知知識應用到新情況中。尤其在代碼生成領域,這兩種能力的平衡顯得尤為重要。代碼生成不僅要求模型能夠正確輸出程序,還需要它對多變的需求表述具備靈活適應的能力。

這一工作的研究團隊堪稱學界與技術界的強強聯合。來自上海交通大學的Wentao Chen,以及加州大學圣地亞哥分校的Lizhe Zhang, Li Zhong, Letian Peng, Zilong Wang, Jingbo Shang,攜手聚焦于代碼生成任務中的核心難題。他們以深厚的技術積累和創新視角,提出了一種名為“多層次進化框架”的方法。這一框架通過對問題進行突變、改寫和代碼重寫,從多個層次模擬了現實中可能發生的變體場景,檢驗模型應對能力。同時他們引入了“記憶化評分”這一全新指標,結合代碼的準確性和結構相似性,量化模型的記憶化水平。

研究不僅揭示了專注代碼生成的LLMs(如Qwen2.5-Coder-7B)在原始任務上的優異表現和在變體任務上的顯著下滑,還分析了現有緩解記憶化問題的方法,如監督微調、強化學習和問題翻譯。這些嘗試的成效與局限,為未來的技術改進指明了方向。通過這一研究,團隊為理解LLMs在面對變體問題時的能力缺陷提供了新的視角,也為更健壯、更泛化的模型設計奠定了基礎。

背景與問題概述

傳統的代碼生成評估方法通常集中在測試功能正確性上,即通過運行代碼來驗證其是否滿足問題描述中的功能要求。這種方法固然能檢驗代碼的表面有效性,卻無法揭示模型生成代碼時所依賴的潛在機制。換言之,傳統評估并不區分模型是通過“真正理解”問題邏輯生成解答,還是簡單地“記住”了訓練數據中的實例。尤其在代碼生成這一高度結構化的領域,僅憑記憶訓練示例可能會導致模型的泛化能力薄弱,難以應對略微變動的問題。

記憶化(memorization)這一現象在LLMs中表現得尤為明顯。當模型面對訓練中見過的類似問題時,往往能給出高準確率的答案;然而當問題稍作變化,例如文本結構發生改變、句子用詞被替換,甚至輸入代碼邏輯被調整,模型的表現便會顯著下降。這種差異揭示出模型在訓練后階段傾向于直接復述“記住”的信息,而非基于對問題邏輯的深層推理解決任務。這種現象不僅限制了模型在實際場景中的靈活性,也暴露出現有評估方法的短板。

研究團隊敏銳地意識到這一點,并提出了一個關鍵的問題:如何科學地設計評估機制,區分模型的“記憶”與“真正理解”?換言之,當模型生成代碼時,如何判斷其是通過深刻的邏輯推理得出解答,還是單純地重現了訓練集中學到的模式?

為了解決這一問題,團隊創新性地提出了“進化問題”(Evolved Questions)的概念。這種方法通過構建問題的變體,模擬實際中用戶對代碼需求的多樣性與復雜性。在這項研究中,進化問題通過三種策略實現:突變(mutation)、改寫(paraphrasing)和代碼重寫(code-rewriting)。突變在文本表面引入輕微的噪聲,例如字符錯亂或隨機大小寫;改寫改變句子的措辭和語法,但保持語義一致;而代碼重寫則更進一步,通過調整邏輯或結構生成全新解答。這些變體不僅有效測試了模型的記憶化傾向,也為評估其真正的推理能力提供了全新視角。

通過進化問題,研究團隊不僅揭示了現有模型在代碼生成任務中對記憶的依賴,更引導我們重新思考什么樣的能力構成了“智能”。模型在變體問題上的表現不再僅僅是技術指標的體現,更是理解和泛化能力的重要衡量。這一方法開創了新評估思路,也為未來的模型開發指明了方向。它讓我們意識到,真正的智能并不僅僅在于“能答”,而更在于面對變化時的“會答”。

方法學:多層次進化框架

探索大語言模型(LLMs)是否真正理解問題、亦或只是機械地“復述”,需要設計出能夠剖析模型能力的創新性方法。研究團隊提出了一個精妙的“多層次進化框架”,從不同維度將測試任務轉變為模型難以僅靠記憶解決的挑戰。這一框架的核心在于創造進化問題,通過模擬可能遇到的文本變化,檢驗模型在文本、語義和代碼層面的泛化能力。

記憶牢籠還是概括之路?上海交通大學與加州大學圣地亞哥分校聯合團隊破解大模型代碼生成謎題-AI.x社區

圖1:文本、語義和代碼空間中多級演化方法的工作流程。這些空間內具有相同顏色的框共享相同的規范解決方案。變異(mut)、釋義(par)和代碼重寫(rew)分別在文本空間、語義空間和代碼空間中增加了噪聲。最后,它們將被映射回文本空間,作為進化的問題xmut、xpar、xrew。添加噪聲和映射的進化過程都是由專業模型G(GPT-4o)進行的,如灰色機器人所示。我們將這個框架稱為多層次進化。

多層次進化框架的設計建立在對自然語言到代碼生成過程的系統化理解之上。具體來說,問題描述被映射為語義表示,隨后通過專業模型推理生成代碼解決方案。嵌入層 E將輸入問題 x映射為語義空間中的表示 y=E(x)y = E(x),專業模型 G則基于語義表示生成最終代碼 z=G(y)z = G(y)。整個流程可視為從文本空間 T到代碼空間 C 的轉換:

記憶牢籠還是概括之路?上海交通大學與加州大學圣地亞哥分校聯合團隊破解大模型代碼生成謎題-AI.x社區

在此框架下,為了測試模型能力,研究者從文本、語義、代碼三個層面引入不同形式的“噪聲”,構建變體問題。這些噪聲不僅改變了問題的表述形式,還創造了多種多樣的評估角度。

記憶牢籠還是概括之路?上海交通大學與加州大學圣地亞哥分校聯合團隊破解大模型代碼生成謎題-AI.x社區

圖2:問題翻譯過程的示意圖。每個空間內相同顏色的內框共享相同的規范解。我們首先要求目標模型M(藍色機器人)基于x(Gen1)生成代碼響應zresp,然后使用專業模型G(灰色機器人)將其翻譯回新的代碼xtrans(Trans);最后,我們要求tar模型G找出它們的差異并生成最終響應zaug。

首先是“突變進化”(Mutation Evolution)。這一方法在問題的文本層面進行微調,比如通過詞語的重新排列、大小寫的隨機變化等操作,加入了表層噪聲。盡管文本的表述顯得凌亂,但其核心語義依然保持不變。這種變體旨在測試模型對表層記憶的依賴程度。一個典型案例是原問題“編寫一個函數計算矩形面積”被改為“wrITE a fUnCTIon T0 fnid teh area oF A R3cT4nglE”。原意未變,但表述更加“混亂”,如果模型僅基于記憶生成答案,很可能會出錯。

接下來是“改寫進化”(Paraphrasing Evolution)。相比于突變進化,這種方法進一步挑戰模型的理解能力。改寫進化通過改變句式和措辭,使問題在語義空間內發生輕微擾動,而語義本質上仍然相同。例如“寫一個函數計算矩形的面積”可能被改寫為“創建一個函數以計算矩形面積”。在這種情況下,模型是否能夠在不同表達方式下仍然正確生成代碼,成為評估其泛化能力的關鍵。

最后是“代碼重寫進化”(Code-Rewriting Evolution),這是最具挑戰性的一種方法。在這一層次,研究者改變了問題所對應代碼的邏輯和結構,生成全新的地面真值。以矩形面積計算為例,新的問題可能要求根據矩形周長和一條邊計算面積,而不是原本的兩邊長。這種問題引入了更多的邏輯復雜度,測試模型在邏輯變換下的適應性。

為了科學量化模型的記憶化傾向,研究者提出了一種“記憶化評分”方法。這一評分不僅結合了變體任務與原始任務之間的準確率差異,還分析了代碼結構相似性(通過抽象語法樹,AST)。具體來說,記憶化分數由以下組成:首先,通過模型在原始問題與突變、改寫、代碼重寫問題中的準確率差值,評估模型是否對訓練數據依賴過重。其次,考察生成代碼與原始訓練解答的AST相似性,揭示模型對結構性記憶的偏好。高分數表明模型過度依賴記憶,泛化能力較弱。

這種記憶化評分為研究提供了定量支持,而多層次進化框架則為評估模型能力帶來了全面和深刻的視角。不再僅僅考察“能否解決問題”,而是深入探討“如何解決問題”,真正推動了對LLM代碼生成能力的理解和改進。

緩解記憶化的策略與實驗設計

要解決大語言模型(LLMs)在代碼生成任務中的記憶化問題,研究團隊探索了幾種緩解策略,并設計了周密的實驗進行評估。這些方法不僅嘗試降低模型對訓練數據的依賴,還旨在增強其對變體問題的泛化能力。在理論和實踐層面,這些策略都具有很大的啟發意義。

首先,從監督微調(Supervised Fine-Tuning)出發,研究者提出了一種利用數據集組合的方法。這里的數據集分為“代碼重寫數據集”和“半原始數據集”。在前者中,模型完全基于變體問題訓練,而后者則是在保留一部分原始問題的基礎上添加代碼重寫問題。這種訓練策略的設計意圖在于平衡模型對原始數據集和變體任務的適應能力。然而,盡管監督微調能夠提升模型在原始任務上的表現,但卻未能有效緩解記憶化問題。實驗表明,模型往往仍傾向于記憶原始問題解答,且在應對代碼重寫任務時表現出顯著下降。

相比之下,強化學習(Reinforcement Learning)提供了一種更為直接的優化方式。在實驗中,研究者采用了直接偏好優化(DPO)這一技術。DPO通過定義“贏家”和“輸家”的標簽來引導模型決策,其中代碼重寫數據集的解答被標記為“贏家”,原始數據集的解答則為“輸家”。這種方式避免了記憶化傾向,但也伴隨著原始數據集性能的顯著下降。研究團隊指出,這可能是因為DPO過于偏向代碼重寫問題,而忽視了原始問題的整體重要性。

另一項創新策略是問題翻譯(Problem Translation)。這一策略通過逆向映射的方式,讓模型以不同的視角看待原始問題。在實踐中,研究者首先讓模型生成原始問題的解答,然后利用專業模型將這一解答翻譯成新的問題描述,最后結合原始問題與翻譯后問題的差異生成最終解答。這種方法的核心思想在于幫助模型理解語義空間與代碼邏輯之間的偏差。然而,問題翻譯并非完美——專業模型的翻譯可能存在誤差,而錯誤的差異可能會進一步增加問題的復雜性甚至誤導目標模型。

為了驗證這些策略的有效性,研究團隊選擇了MBPP-Plus數據集作為實驗的基礎。這一數據集是原始MBPP數據集的擴展版本,不僅包含378個高質量編程任務,還顯著增加了測試用例的數量,使得評估更具魯棒性。在此基礎上,研究者構建了突變、改寫和代碼重寫三種進化數據集。例如,突變數據集通過引入文本表面噪聲模擬真實場景下的輸入變化;改寫數據集則通過改變語句的措辭與結構實現語義擾動;代碼重寫數據集更是直接改變代碼邏輯以測試模型對復雜問題的適應能力。

記憶牢籠還是概括之路?上海交通大學與加州大學圣地亞哥分校聯合團隊破解大模型代碼生成謎題-AI.x社區

圖3:Qwen2.5-Coder-7B在訓練數據集上微調時的損耗曲線。我們可以發現,評估損失在歷元20(紅線)開始顯著增加,這表示LLM開始在訓練數據集上過度擬合。記憶可分為早期(紅線前)和晚期(紅線后)記憶。考慮到后期記憶和過擬合之間的相似效應,我們探索了過擬合之前的早期記憶。

實驗過程中,研究團隊采用了Qwen2.5系列和Llama系列作為研究對象,其中包括Qwen2.5-Coder-7B和Llama-3.1-8B等模型。這些模型在八塊NVIDIA A100 GPU上運行,分別在突變、改寫和代碼重寫數據集上進行性能對比分析。此外,為了保證生成任務的多樣性和穩定性,研究團隊巧妙地調整了模型的超參數:在數據生成時提升溫度以增強創造力,而在推理階段降低溫度確保確定性。

實驗結果與討論

實驗展開對大語言模型(LLMs)在原始問題與變體問題上的表現進行了全面分析,揭示了模型在記憶與泛化之間的權衡。研究團隊巧妙地通過量化準確率與抽象語法樹(AST)相似性變化,深入剖析了記憶化現象的動態演化,并檢驗了多種緩解策略的有效性。

在性能對比分析中,團隊選擇了Qwen2.5-Coder-7B和Llama-3.1-8B-Instruct作為研究對象。這些模型在原始問題上的表現毫無懸念地較為出色,例如準確率達60%到70%,部分甚至更高。然而,當面對突變、改寫和代碼重寫等變體問題時,其表現開始顯著下降。這一現象尤為明顯,尤其在代碼重寫任務上,一些模型的準確率僅保持在40%左右。這種劇烈的波動表明,盡管LLMs在訓練數據集中的問題表現優異,但對于稍作調整的任務卻難以適應,過于依賴對訓練數據的記憶而非邏輯推理。

另一個值得深究的指標是AST相似性,這一技術從代碼結構的角度觀察模型生成解答與標準答案的接近程度。實驗顯示,在重寫數據集中,模型生成的代碼更傾向于重復原始任務中的模式,而不是體現對重寫任務邏輯的深刻理解。此外,記憶化分數的引入進一步揭示了模型對訓練數據的依賴程度。該分數綜合了準確率差異和AST結構相似性,對模型的記憶化傾向進行量化。實驗發現,記憶化分數在微調過程中會逐步上升,尤其在過擬合的后期階段表現顯著,說明模型逐漸遺忘了變體問題的泛化能力。

這一現象的動態演變在微調過程中尤為引人注目。早期記憶化的表現相對溫和,主要體現在模型在原始問題上逐漸穩定的高性能上。然而,隨著訓練的深入,尤其在過擬合之后,模型的記憶化分數開始顯著增加。這表明模型逐步“沉迷”于訓練數據中的特定模式,而忽略了變體問題的邏輯差異。特別是對于突變和改寫問題,盡管這些任務的標準解答與原始問題一致,模型表現仍難以達到期望,進一步凸顯其對語義擾動和表面噪聲的不敏感。

針對上述挑戰,研究團隊評估了多種緩解策略。其中,強化學習的直接偏好優化(DPO)方法在降低記憶化分數方面效果顯著,但其代價是原始問題性能的下降。這種權衡也體現在問題翻譯方法上。問題翻譯通過逆向映射生成新問題,有效降低了記憶化分數,但與此同時,它對訓練數據的再現能力也有所削弱。兩種方法均在代碼重寫任務中展示了更高的準確率,但它們在保持原始任務性能方面仍然存在局限性。

此外,監督微調的方法在緩解記憶化方面的表現不盡如人意。盡管微調能夠提升原始數據的性能,但卻加劇了記憶化問題。尤其是在使用“半原始數據集”時,模型更傾向于記憶而非推理,記憶化分數反而更高。這說明,單純增加變體問題的訓練權重并不能從根本上解決泛化問題。

實驗結果描繪了一幅復雜的圖景:模型的記憶化是一個動態過程,隨著訓練的深入逐步增強,但其泛化能力卻在微調中受到侵蝕。盡管強化學習和問題翻譯方法在一定程度上緩解了這一現象,但它們未能完全解決性能權衡的難題。這些發現不僅為未來設計更具魯棒性的大語言模型提供了重要參考,也為平衡記憶與概括能力的技術探索指明了方向。模型是否能夠真正脫離“記憶牢籠”,邁向更高水平的邏輯推理與理解能力,仍是值得繼續挖掘的重大課題。

案例研究

在實驗的分析中,研究團隊特別關注了一個直觀但深刻的案例——矩形面積計算問題,用以揭示不同進化方式下大語言模型的表現差異。這一案例不僅清晰地展示了模型在處理簡單與變體任務時的邏輯機制,還揭示了其對問題邏輯的潛在誤解。

案例研究從一個經典的編程問題展開,即“編寫一個函數計算矩形的面積”。這一原始問題簡單明了,只需通過輸入矩形的兩個邊長計算面積即可。然而,在進化框架中,研究團隊對該問題進行了不同層次的變體處理。比如,通過“突變進化”,原始問題被改寫為“wrITE a fUnCTIon T0 fnid teh area oF A R3cT4nglE”,這種文本噪聲測試了模型是否會受困于表面表述的擾動;而通過“改寫進化”,問題被重新表述為“創建一個函數來計算矩形面積”,以考察模型對語義變化的適應性。最具挑戰性的是“代碼重寫進化”,要求模型通過周長和一條邊的長度計算矩形面積,而不是直接給出兩邊長。這種邏輯上的改變旨在評估模型是否能夠真正推理新的解法。

記憶牢籠還是概括之路?上海交通大學與加州大學圣地亞哥分校聯合團隊破解大模型代碼生成謎題-AI.x社區

圖4:一個原始數據集和三個進化數據集上的規范解決方案。左藍框是原始數據集、變異數據集和釋義數據集的解決方案,右黃框是代碼重寫數據集的方案。紅色箭頭代表代碼重寫進化。

當實驗開始后,結果耐人尋味。在原始問題和突變問題上,模型均表現出色,生成的代碼幾乎完全相同,這表明這些任務對于模型來說并未超出其記憶能力范圍。在應對代碼重寫問題時,大部分模型犯了一個核心錯誤:錯誤地假設“周長減去兩倍邊長”的結果直接是另一個邊長,而忽略了正確答案應為上述結果的一半。這一錯誤反映出模型在面對邏輯變更時存在理解障礙,暴露了記憶化對任務解決的深遠影響。即使是通過監督微調訓練的模型,其解答也未能避免這一誤區,甚至有些回答直接進行了邏輯錯誤的面積乘積,顯得毫無意義。

記憶牢籠還是概括之路?上海交通大學與加州大學圣地亞哥分校聯合團隊破解大模型代碼生成謎題-AI.x社區

圖5:代碼重寫問題的響應。紅色框代表錯誤的響應,綠色框代表正確的響應。左上框是基線模型和帶有原始數據集的監督微調模型的響應,而右上框是緩解過程中帶有代碼重寫和半數據集的有監督微調模型。底部框是翻譯和DPO模型的響應。

除了案例研究之外,他們還詳細記錄了數據集及實驗的構建過程。MBPP-Plus數據集被選為實驗的基礎,這一數據集基于原始的MBPP任務擴展而來,囊括了378個經過精挑細選的編程任務。相比原數據集,MBPP-Plus在每個任務上增加了大量測試用例,顯著提升了評估的可靠性。在此基礎上,研究團隊進一步構建了突變、改寫和代碼重寫三種進化數據集。突變數據集通過控制文本噪聲實現,具體方法包括字符重排、大小寫隨機化等;改寫數據集則通過改變任務描述的措辭和語法,實現了在語義空間中的微擾動;代碼重寫數據集更復雜,需要GPT-4o重新生成具有全新邏輯結構的解答,再生成對應的新問題描述。

實驗的技術環境也值得一提。研究團隊采用了Qwen2.5系列和Llama系列的模型,大小分別為7B和8B。這些模型在八塊NVIDIA A100 GPU上運行,生成任務時溫度參數設置為1,以增強數據集的多樣性;而在推理階段,溫度被調至0,確保生成結果的確定性。這種精細的參數設置保障了實驗結果的科學性和穩定性。

貢獻與研究意義

隨著大語言模型(LLMs)在代碼生成領域中的應用逐漸普及,我們不禁要問:它們的“聰明才智”是源于真正的理解,還是對訓練數據的機械記憶?研究團隊帶著這個核心問題,不僅揭開了模型性能背后鮮為人知的“記憶化”現象,還通過創新性的方法提供了解決這一難題的全新思路。

這項研究的最大貢獻在于建立了一套多層次進化框架,它為LLM的代碼生成能力提供了全新的評估視角。與傳統的評估方法不同,這一框架通過引入突變、改寫和代碼重寫三種變體問題,不僅測試了模型對任務的理解深度,也揭示了它們對訓練數據的過度依賴。突變問題的表面文本噪聲挑戰了模型是否能跳脫表層記憶,改寫問題的語義調整檢驗了模型對不同表達方式的適應,而代碼重寫問題則直接將問題邏輯推向復雜化,逼迫模型展示真正的推理能力。這種分層測試手段首次系統地量化了模型在“記憶”與“泛化”之間的差異。

另一個重要突破是研究團隊提出的記憶化評分指標。傳統的評估往往只關注模型的準確率,而這一新指標則通過結合準確性和抽象語法樹(AST)的相似性來全面量化模型的記憶化傾向。通過測量模型在原始任務與變體任務中的表現差異,這一評分揭示了模型在微調和使用過程中的潛在“記憶牢籠”。它為開發者提供了衡量模型理解能力的重要工具,也為未來優化算法的方向提供了科學依據。

實驗驗證部分更是為這些理論貢獻注入了實證力量。團隊的分析表明,專注代碼生成的LLMs,如Qwen2.5-Coder-7B,確實表現出對記憶的強烈依賴——在原始數據集上的優異成績顯然掩蓋了它們在變體任務上的不足。尤其是在面對需要邏輯轉換的代碼重寫任務時,模型的表現顯得力不從心。這一發現不僅揭示了當前技術的局限,也讓人更加清晰地認識到推動模型從“復述”到“理解”的重要性。

從更廣的視角來看,這項研究對代碼生成領域的啟示深遠。數據集的設計與評測方法的創新意義不可忽視,通過構建進化問題,研究團隊為未來的模型評估制定了新的標桿,指出了僅依賴簡單準確率評估的不足。研究讓我們更深刻地理解了提升模型泛化能力與邏輯理解的重要性。無論是應對多樣化的用戶需求,還是解決更復雜的編程任務,一個真正強大的模型需要擺脫對訓練數據的依賴,培養出面對新問題的“直覺”與邏輯分析能力。

這項工作的貢獻不僅在于發現問題、解釋現象,更在于為解決這些問題提出了實用性的工具和方法。它就像一面鏡子,照出了現有模型的優劣,同時也是一盞燈,指明了未來技術發展的方向。若要讓LLMs從優秀變得更卓越,這項研究無疑是邁向這一目標的重要一步。(END)

參考資料:https://arxiv.org/abs/2503.02296

本文轉載自??獨角噬元獸??,作者: FlerkenS ????

收藏
回復
舉報
回復
相關推薦
亚洲女人毛茸茸高潮| 成人综合视频在线| 亚洲国产精品久久久久爰性色| 国内在线观看一区二区三区| 日韩精品在线观看一区二区| 亚洲欧美另类动漫| 男女羞羞视频在线观看| 国产视频一区二区在线观看| 午夜精品免费在线| 日韩欧美一级精品久久| 欧美二区在线视频| 黄色片网站在线观看| 91亚洲永久精品| 亚洲最大的网站| 欧美一区二区三区久久久| 欧美视频网站| 中文字幕亚洲自拍| jizz欧美性20| 亚洲午夜免费| 欧美日韩一卡二卡| 国产超级av在线| 性欧美ⅴideo另类hd| 国产欧美日韩综合精品一区二区| 大波视频国产精品久久| 亚洲系列第一页| 久久激情综合| 久久全球大尺度高清视频| 爱爱视频免费在线观看| 日韩久久精品| 亚洲人成在线观看| 成人午夜精品无码区| 精品久久免费| 欧美蜜桃一区二区三区| 无码人妻精品一区二区三区66| heyzo高清中文字幕在线| 亚洲人成精品久久久久| 视频一区不卡| 二区三区在线| 久久精品无码一区二区三区| 精品91免费| 精品人妻午夜一区二区三区四区 | 欧美激情va永久在线播放| а天堂中文在线资源| 精品久久久久久久| 亚洲视频一区二区三区| 欧美狂猛xxxxx乱大交3| 亚洲人成网亚洲欧洲无码| 亚洲国产精品yw在线观看| 国产sm在线观看| 精品国产18久久久久久二百| 7878成人国产在线观看| 国产精品自在自线| 自拍偷拍欧美日韩| 欧美一区二区视频在线观看2022| 国产av人人夜夜澡人人爽| 浪潮色综合久久天堂| 色婷婷综合久久久中文一区二区| 国产亚洲天堂网| 神马电影网我不卡| 欧美网站大全在线观看| 亚洲国产精品三区| 日韩成人在线一区| 日韩一区二区三区在线视频| 亚洲欧美激情一区二区三区| 国产 日韩 欧美 综合 一区| 亚洲国产精品高清久久久| 性囗交免费视频观看| 九九热线有精品视频99| 中文字幕亚洲精品| 国产免费无码一区二区视频 | 婷婷无套内射影院| 国产高潮在线| 欧洲亚洲精品在线| 九九热99视频| 99精品国产高清一区二区麻豆| 精品日韩一区二区三区| 一级黄色片大全| 久久视频在线| 午夜精品一区二区三区视频免费看| 日操夜操天天操| 蜜桃视频一区| 91精品综合视频| 人妻精品无码一区二区| 久久精品在这里| 青青草原国产免费| 乱插在线www| 欧美天堂在线观看| 亚洲av无日韩毛片久久| 欧美电影完整版在线观看| 一二美女精品欧洲| 久草视频免费在线| 美女91精品| 91中文在线视频| 成人黄色在线播放| 久久精品久久精品久久| 久久成人精品| 亚洲精品免费网站| 女人天堂在线| 亚洲精品国产无套在线观 | 亚洲欧美日韩一区在线观看| 国产精品jvid在线观看蜜臀| www.黄色国产| 国产人伦精品一区二区| 成人在线播放网址| 国产成人福利夜色影视| 欧美精品一区男女天堂| 貂蝉被到爽流白浆在线观看 | 久久免费精品视频| 在线视频 中文字幕| 成人精品国产一区二区4080| 亚洲精品成人三区| 97成人资源| 精品少妇一区二区三区日产乱码| 极品尤物一区二区| 国产精品人人爽人人做我的可爱| 成人免费在线视频网站| 欧美捆绑视频| 亚洲在线视频一区| 欧美日韩精品区别| 亚洲女娇小黑人粗硬| 欧美高清在线播放| 亚洲在线精品视频| 国产亚洲欧美在线| 欧美三级一级片| 成人另类视频| 欧美精品手机在线| 国产又粗又猛又爽又黄的视频一| 久久蜜桃香蕉精品一区二区三区| 无码熟妇人妻av在线电影| 豆花视频一区| 日韩亚洲一区二区| 中文在线a天堂| 国产午夜精品久久久久久久 | 老熟妻内射精品一区| 青椒成人免费视频| 五月婷婷一区| 成人交换视频| 亚洲一级黄色av| 无码人妻精品一区二| xnxx国产精品| 无码人妻h动漫| 日韩精品亚洲aⅴ在线影院| 午夜精品蜜臀一区二区三区免费| 精品人妻一区二区三区换脸明星 | 亚洲天堂av片| aaa亚洲精品| 91专区在线观看| 欧美美女黄色| 欧美与欧洲交xxxx免费观看| 日本午夜在线视频| 一本一道久久a久久精品综合蜜臀 一本一道综合狠狠老 | 美足av综合网| 精品免费国产一区二区三区四区| 欧美日韩一级大片| 风间由美性色一区二区三区 | 最新黄色av网址| 久久精品国产精品青草| 国产福利片一区二区| 999色成人| 欧美疯狂xxxx大交乱88av| 精品久久久中文字幕人妻| 夜夜嗨av一区二区三区中文字幕| 99免费观看视频| 亚洲区国产区| 欧美性bbwbbwbbwhd| 老司机精品视频网| 欧美成aaa人片免费看| av av片在线看| 午夜日韩在线电影| 国产一二三四五区| 久久精品国产色蜜蜜麻豆| 路边理发店露脸熟妇泻火| 免费福利视频一区| 国产精品国产自产拍高清av水多| 亚乱亚乱亚洲乱妇| 日韩精品一区二区三区视频在线观看 | 香港成人在线视频| 无码h肉动漫在线观看| 蜜臂av日日欢夜夜爽一区| 欧美aaa在线观看| 加勒比中文字幕精品| 国产福利视频一区二区| 很黄的网站在线观看| 精品久久久久久亚洲综合网| 免费污污视频在线观看| 亚洲天堂网中文字| 日本免费福利视频| 久久97超碰色| 日韩av高清在线看片| 欧美一站二站| 古典武侠综合av第一页| 欧美va在线观看| 久久国产色av| 国产高清一级毛片在线不卡| 欧美一级日韩免费不卡| 国产又大又黄又粗| 亚洲三级免费观看| 男人天堂av电影| 国产河南妇女毛片精品久久久| 日韩有码免费视频| 黄色日韩精品| 一本色道久久综合亚洲二区三区 | 91视频免费在线看| 国产午夜精品一区二区三区嫩草| 在线免费黄色小视频| 日韩精品一区第一页| 日韩精品综合在线| 色综合狠狠操| 噜噜噜噜噜久久久久久91| 国产专区精品| 国产精品日韩一区| 成人av观看| 欧美激情视频在线免费观看 欧美视频免费一 | 国产一区视频网站| 99re在线视频免费观看| 欧美天天视频| 懂色av一区二区三区四区五区| 美女网站一区| 九色91视频| 亚洲三级av| 91中文字幕一区| 久久人体av| 国产精品亚洲综合天堂夜夜| 欧美成人性网| 2019中文字幕在线| 成人国产电影在线观看| 久久99精品久久久久久琪琪| 2019中文字幕在线视频| 亚洲天堂久久av| 青青草av免费在线观看| 亚洲精品97久久| 日韩在线观看视频网站| 日韩精品中午字幕| 精品国产亚洲AV| 这里是久久伊人| 97人妻精品一区二区三区动漫| 欧美在线观看18| 日韩熟女一区二区| 在线视频你懂得一区| 久久精品99北条麻妃| 欧美自拍偷拍一区| 黄色污污视频软件| 欧美性生交片4| 中文字幕 日韩有码| 欧美日韩久久不卡| 91肉色超薄丝袜脚交一区二区| 欧美日韩一区二区三区在线看| 在线观看免费中文字幕| 欧美麻豆精品久久久久久| 一级黄色片在线| 欧美电影一区二区| 国产裸体永久免费无遮挡| 91精选在线观看| 国产99视频在线| 日韩欧美的一区| 欧美一区二区三区黄片| 精品香蕉一区二区三区| 国产主播福利在线| 色黄久久久久久| 免费大片黄在线观看视频网站| 久久国产精品久久精品| 波多野结衣中文字幕久久| 91tv亚洲精品香蕉国产一区7ujn| 成人午夜视屏| 国产精品电影久久久久电影网| 免费污视频在线一区| 91视频-88av| 久本草在线中文字幕亚洲| 欧美日本国产精品| 欧美aaaaaaaaaaaa| 男人天堂新网址| 性欧美精品高清| 亚洲免费黄色录像| 成人一区二区视频| 37p粉嫩大胆色噜噜噜| 中文字幕不卡一区| 麻豆91精品91久久久| 日韩欧美一区二区在线| 97精品人妻一区二区三区在线| 日韩丝袜情趣美女图片| 日韩美女一级视频| 精品国产一区二区三区久久| 久久一卡二卡| 国产精品jizz在线观看麻豆| 日韩高清二区| 品久久久久久久久久96高清| 欧美69wwwcom| 茄子视频成人免费观看| 国产最新精品免费| 中文字幕a在线观看| 国产精品亲子伦对白| 日韩av电影网址| 欧美最猛性xxxxx直播| 丰满肥臀噗嗤啊x99av| 国产亚洲精品久久| 丝袜国产在线| 国产精品久久二区| 欧美18免费视频| ijzzijzzij亚洲大全| 男女精品视频| 亚洲精品久久一区二区三区777| 久久久久九九视频| 久久亚洲精品大全| 欧美美女直播网站| 国产在线视频网址| 午夜精品国产精品大乳美女| 日韩在线激情| 女女同性女同一区二区三区91| 日本中文不卡| 在线不卡视频| www.久久久久久久久久久| 久久久久久久久久久久久夜| 精品视频久久久久| 91麻豆精品国产自产在线| 黄色毛片在线看| 91精品国产乱码久久久久久蜜臀| 国产一区二区三区黄网站| 日韩激情久久| 久久精品人人| 中文字幕一区二区久久人妻网站| 亚洲精品一二三四区| 在线免费观看av片| 一区二区欧美久久| 亚洲天堂手机| 国产视频99| 国产一区二区三区四区老人| 手机精品视频在线| 中文字幕一区二区三区乱码在线| 波多野结衣爱爱| 日韩精品中文在线观看| 高清在线视频不卡| 国产伦精品一区二区三区视频免费 | 黄色精品视频| 日本一区二区在线| 葵司免费一区二区三区四区五区| 国产麻豆xxxvideo实拍| 亚洲尤物在线视频观看| 亚洲大尺度网站| 久久99视频精品| 日本免费一区二区视频| 国产又粗又大又爽的视频| 国产呦萝稀缺另类资源| 男人操女人的视频网站| 7777女厕盗摄久久久| 欧美性videos| 91探花福利精品国产自产在线| 91精品国产乱码久久久久久久| 黄色小视频免费网站| 国产精品久久久久久久久免费相片| 亚洲午夜精品久久久| 久久精品国产2020观看福利| 亚洲成a人片777777久久| 国产手机视频在线观看| 国产91精品在线观看| 国产午夜福利片| 国产丝袜一区二区| 成人网ww555视频免费看| 一区二区三区四区久久| 国精产品一区一区三区mba视频| 欧美成人aaa片一区国产精品| 精品久久久久久亚洲综合网 | 久久免费看视频| 国产精品免费久久久| 久久久久久久久久久久久久久久久久 | 亚洲视频在线播放| 国产福利亚洲| 伊人久久在线观看| 99久久精品国产一区| 免费观看日批视频| 久久天天躁狠狠躁夜夜av| 亚洲精品不卡在线观看| 欧美 国产 综合| 国产欧美一区二区精品仙草咪| 国产精品无码在线播放| 国语自产精品视频在线看抢先版图片| 日韩高清三区| 日本中文字幕二区| 亚洲电影第三页| 国产精品99999| 91超碰在线电影| 裸体素人女欧美日韩| 91久久国产综合| 日韩精品免费电影| 福利一区三区| 国产在线青青草| 亚洲日本在线a| 青青草视频在线观看| 亚洲专区中文字幕| 新67194成人永久网站| 日韩av手机在线免费观看| 日韩成人在线免费观看| 亚洲日本中文| 欧美在线观看成人| 自拍偷拍亚洲激情| 激情小说 在线视频| 91在线观看网站| 青青国产91久久久久久| 在线观看精品国产| 久久久精品影院| 国产一区二区三区四区五区|