精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AgentWrite:為什么你的模型生成的內容長度總是不超過2K? 精華

發布于 2024-8-20 11:10
瀏覽
0收藏

1. 為什么要研究 LongWriter

隨著大語言模型的發展,越來越多的大語言模型都具備了長上下文能力,甚至有的達到了100萬token。但是,相較于大家關注的海量輸入,大模型的生成長篇幅的內容時就顯得力不從心了。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

比如,如上圖,作者在各種模型上要求生成超過2000字的內容時,基本上都沒有成功。隨著提示詞中要求輸出的內容長度的增加,輸出的最終長度始終停留在2K左右。但是,在對WildChat的用戶日志分析時發現,有 1% 的用戶明確要求生成的內容長度要超過2K,這證明生成長篇幅內容也是大家迫切需要的能力之一。

2. 為什么大多數模型只能生成2K左右的內容?

為了探究為什么幾乎所有的模型都只能生成2K左右的數據這一問題,作者進行了一系列實驗。

首先,創建了LongWrite-Ruler評估工具,來探索大語言模型(LLMs)的生成長度上限。

接著,分析了生成長度受限的根本原因:通過調整模型在監督微調(SFT)階段數據的最大輸出長度,發現訓練后的模型在LongWrite-Ruler測試中的最大輸出長度與其SFT數據的最大輸出長度存在顯著的正相關性。

在此論文中,統一以單詞(或中文文本的字符)來衡量輸出長度,而不是token,因為不同模型的token化方法可能會有所不同。

LongWrite-Ruler 測試方案

制定了8條不同指令,中英文各半,并在指令中調整輸出長度要求“L”。

例如,“撰寫一篇關于羅馬帝國歷史的L詞文章”。測試時,選取L值包括{1000, 2000, 5000, 10000, 20000, 30000},共產生了48個測試案例。

測評過程

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

在LongWrite-Ruler上對4個開源模型和4個專有模型進行了最大輸出長度的測量(評估模型的詳細信息如上表)。

? 溫度參數設為0.5

? 對于專有模型,根據各自模型API支持的最大輸出長度設置了max tokens參數。

? 對于開源模型,將其設為32k。確保了沒有模型因max tokens限制而產生截斷輸出,這可能會低估它們的最大輸出能力。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

測試結果在上圖中進行了可視化展示:對于每個長度要求(x軸),在8條相應指令下的平均輸出長度(y軸),并使用了對數刻度。

從圖中可以看出,所有模型的最大輸出長度大約為2k詞。專有模型的有效輸出窗口通常未能達到它們宣稱的最大token生成長度。而且,隨著所需長度超過10k,由于拒絕響應的案例增多,平均輸出長度甚至出現了下降趨勢。

控制變量實驗

由上述實驗推測,普遍存在的2000字輸出長度限制可能源于SFT數據本身固有的輸出長度約束(簡單的說,就是模型沒見過這么長的輸出長度)。為檢驗這一假設,通過調整SFT數據,開展了一系列控制性實驗。

選用GLM-4-9B作為基準模型,并選取GLM-4的聊天SFT數據(總計180k條,為GLM-4全部SFT數據的一個子集)作為完整的訓練數據集。為控制訓練數據的最大輸出長度,分別剔除了輸出長度超過500、1000和2000字的數據,形成了三個不同的訓練集,分別保留了原始數據的72%、98%和99.9%。

基于這些訓練集,對GLM-4-9B模型進行了訓練,并在LongWriter-Ruler上測試了模型的最大輸出長度(測試L值包括{500, 1000, 2000, 4000})。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

如上圖,模型的最大輸出長度與SFT數據中的最大輸出長度成正比,分別提升至約600、900和1800字。這種最大輸出長度的增長同樣反映在模型對各指定長度要求的指令的平均輸出長度的提高上。

這一發現揭示了模型輸出限制的根源在于SFT數據中輸出長度的不足。此外,這種限制無法通過LLM合成的訓練數據或迭代SFT來克服,因為現有模型生成的數據依舊無法超越這一長度限制

為了解除這個限制,作者推出了 AgentWriter,一種新的基于 Agent 的流程,能夠利用大語言模型自動構建、擴展連貫的長文本輸出。

3. AgentWrite 設計思路

AgentWrite分兩步執行任務:

? 首先,根據用戶輸入制定詳盡的寫作計劃,明確每段的結構和目標字數。

? 接著,按照計劃,引導模型順序生成每個段落的內容。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

AgentWrite首先將長篇寫作任務拆解為多個小任務,每個小任務僅需模型撰寫一個段落。模型隨后按順序完成這些小任務,再將這些段落的輸出合并,形成最終的長篇大作。

3.1 內容規劃

如同人類作家在著手長篇寫作前會制定一個全局性的策劃,包括構思文章結構、規劃各部分內容及其篇幅長度,借鑒了這一思路。利用大型語言模型(LLMs)的策劃功能,根據寫作指令生成寫作大綱,明確每個段落的核心內容和所需字數。以下是作者采用的提示詞:

I need you to help me break down the following long-form writing instruction into multiple subtasks. Each subtask will guide the writing of one paragraph in the essay, and should include the main points and word count requirements for that paragraph.

The writing instruction is as follows:

{User Instruction}

Please break it down in the following format, with each subtask taking up one line:

Paragraph 1 - Main Point: [Describe the main point of the paragraph, in detail] - Word Count: [Word count requirement, e.g., 400 words]

Paragraph 2 - Main Point: [Describe the main point of the paragraph, in detail] - Word Count: [word count requirement, e.g. 1000 words].

...

Make sure that each subtask is clear and specific, and that all subtasks cover the entire content of the writing instruction. Do not split the subtasks too finely; each subtask’s paragraph should be no less than 200 words and no more than 1000 words. Do not output any other content.

3.2 分步撰寫

在第一步規劃完畢后,依次調用大語言模型(LLM)來逐一完成子任務,逐段構建寫作內容。為保障文本的連貫性,每當請求模型撰寫第n段時,也會一并提供前n-1段的內容,使模型能夠在已有寫作的基礎上續寫。

雖然這種串行處理方式無法讓模型同時并行處理多個子任務,但這種方式生成的文本在整體連貫性和質量上,遠遠超過了并行生成的結果。

以下是使用的提示詞:

You are an excellent writing assistant. I will give you an original writing instruction and my planned writing steps. I will also provide you with the text I have already written. Please help me continue writing the next paragraph based on the writing instruction, writing steps, and the already written text.

Writing instruction:

{User Instruction}

Writing steps:

{The writing plan generated in Step I}

Already written text:

{Previous generated (n-1) paragraphs}

Please integrate the original writing instruction, writing steps, and the already written text, and now continue writing {The plan for the n-th paragraph, i.e., the n-th line in the writing plan}

3.3 驗證測試

對提出的AgentWrite方法在兩個長篇寫作數據集上進行了生成長度和質量的測試:

? LongWrite-Ruler:用于準確測量該方法能夠生成的文本長度。

? LongBenchWrite:用以評價模型生成文本在長度和寫作品質上與用戶指令的契合度。

LongBench-Write

為了更全面地評估模型在多種長篇寫作指令上的表現,搜集了120條多樣化的用戶寫作指令,其中中文和英文各占一半。確保所有指令均明確指出了字數要求。

根據字數要求被劃分為四組:0-500字、500-2000字、2000-4000字和4000字以上。

根據輸出類型,將指令分為七大類:文學與創意寫作、學術與專著、科普、實用寫作、新聞報道、社區論壇以及教育與培訓。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

評估時,采用了兩項衡量標準:

? 評估輸出長度:當文本輸出恰好滿足長度要求時,得分達到滿分100分。若輸出長度超過要求的四倍或低于三分之一,則得分將線性遞減至零。鑒于篇幅過短的文本通常比過長的文本問題更大,為篇幅不足的文本設置了更高的扣分率。

? 評估輸出品質。期望模型生成的文本長度盡可能貼近指令中的要求。有鑒于此,通過一個分段線性函數來計算輸出長度得分Sl(其中l代表預期長度,l'代表實際生成長度):從六個維度對文本進行評分:相關性、準確性、連貫性、清晰度、內容廣度與深度以及閱讀體驗,以下是作者用GPT-4o打分的提示詞:

You are an expert in evaluating text quality. Please evaluate the quality of an AI assistant’s response to a user’s writing request. Be as strict as possible.

You need to evaluate across the following six dimensions, with scores ranging from 1 to 5. The scoring criteria from 5 to 1 for each dimension are as follows:

1. Relevance: From content highly relevant and fully applicable to the user’s request to completely irrelevant or inapplicable.

2. Accuracy: From content completely accurate with no factual errors or misleading information to content with numerous errors and highly misleading.

3. Coherence: From clear structure with smooth logical connections to disorganized structure with no coherence.

4. Clarity: From clear language, rich in detail, and easy to understand to confusing expression with minimal details.

5. Breadth and Depth: From both broad and deep content with a lot of information to seriously lacking breadth and depth with minimal information.

6. Reading Experience: From excellent reading experience, engaging and easy to understand content to very poor reading experience, boring and hard to understand content.

Please evaluate the quality of the following response to a user’s request according to the above requirements.

?User Request?

{User request}

?/User Request?

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

上圖展示了LongWrite-Ruler的輸出長度的對比結果。AgentWrite顯著提升了GPT-4o的輸出能力,將其從最高2000詞延長至約20000詞。

還在LongBench-Write上對輸出品質及其對所需長度的契合度進行了評估。鑒于GPT-4o在AgentWrite性能測試中能輕松應對2000詞以內的任務,僅對要求2000詞以上輸出的指令采用AgentWrite。還考察了AgentWrite的一個變種“+Parallel”,它在第二步中采用并行方式調用模型,為每個段落生成輸出。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

上表展示了LongBench-Write的測試結果。融入AgentWrite后,GPT-4o能創作長達20000詞的內容,顯著優化了其長度符合度得分(Sl),特別是在[4k, 20k)詞的輸出范圍內。

AgentWrite在拓展輸出長度的同時,并未降低輸出品質。通過對比六個維度的質量得分,AgentWrite顯著提升了內容的廣度與深度得分(提升5%),而在連貫性和清晰度上略有下降(下降2%)。在審視輸出數據時,偶爾發現使用AgentWrite生成的文本中存在輕微的重復現象,如模型可能會重述前文內容,或在輸出中頻繁進行總結。此外,+Parallel雖然在一定程度上提升了模型的輸出長度得分,卻犧牲了AgentWrite的輸出品質,尤其是在連貫性上(下降6%)。這表明在AgentWrite的第二步中,向模型提供已生成的上下文是至關重要的。

4. 如何訓練一個超長文本生成模型

能否進一步教會這些模型生成超長文本的能力,讓它們能夠一次性完成長篇寫作任務?

4.1 數據構建

從現有數據集中精選了6000條需要超長輸出的用戶指令(字數超過2000)。即:從GLM-4的SFT數據中篩選了3000條,多以中文為主。同時也從WildChat1M中篩選了3000條指令,這個數據集收錄了用戶與ChatGPT/GPT-4的公開對話日志,以英文為主。

自動篩選過程中,調用了GPT-4o。還利用基于規則的匹配技術剔除了包含毒性的指令以及那些用于數據抓取的指令。

經過自動篩選后,對這些指令進行了人工審核,確認超過95%的指令確實需要長篇回復,字數達到數千。針對這些指令,采用了AgentWrite流水線,并搭配GPT4o來生成回答。

還對收集到的數據進行了后期處理,包括剔除過短的輸出以及因AgentWrite第一步中規劃步驟過多導致模型輸出失敗的案例。大約0.2%的數據因此被排除。同時,也清除了模型可能在每個輸出段的開頭添加的諸如“第一段”、“第二段”等不相關的標識符。將最終得到的長篇輸出數據集命名為“longwriter-6k”。

在模型訓練階段,為保證模型的通用性,將“longwriter-6k”與常規SFT數據結合起來,構成了完整的訓練集。

使用了180k條來自GLM-4的聊天SFT數據作為常規SFT數據。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

所獲數據的輸出長度分布如上圖。從圖中可以明顯看出,“longwriter-6k”有效地彌補了常規SFT數據在2k字以上輸出長度的不足,且在2k至10k字的范圍內,輸出長度分布相對均勻。

4.2 模型訓練

監督式微調

選用了兩個最新的開源模型作為基礎,分別為GLM-4-9B和Llama-3.1-8B,均支持高達128k tokens的上下文窗口,非常適合進行長文本輸出的訓練。

經過訓練,得到了兩個新模型:LongWriter-9B和LongWriter-8B。

所有模型均在 8xH800 80G GPU的節點上,利用DeepSpeed和ZeRO-3以及CPU offloading進行訓練。訓練參數包括批量大小為8,學習率為1e-5,經過4個周期的訓練,大約需要2500至3000步。

對齊優化(DPO)

為了進一步提升模型輸出質量,增強其遵循指令中長度限制的能力,在經過監督式微調的LongWriter-9B模型上實施了直接偏好優化。

DPO數據來源于GLM-4的聊天DPO數據集,大約包含50k條記錄。此外,特別為長篇寫作指令構建了4k對樣本數據。對于每條寫作指令,從LongWriter-9B生成的輸出中篩選出4個樣本。

還結合了長度符合度得分,選取得分最高的輸出作為正面樣本,隨機選擇剩余三個輸出中的一個作為負面樣本。經過上述數據混合訓練250步后,得到的LongWriter-9B-DPO模型。

4.3 評估結果

4.3.1 主要成果

在LongBench-Write基準上評估了4種專有模型和5種開源模型,以及訓練的LongWriter系列模型。

與LongWrite-Ruler的評估配置相同,將輸出溫度設定為0.5,并根據模型API允許的最大值設置生成的最大token數。對于開源模型,此值設定為32,768。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

主要的評估結果如上表。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

上圖展示了LongBench-Write中120條指令要求長度與模型響應長度之間的關系。

1. 相較于先前模型難以達到2000字以上長度的要求,LongWriter系列模型能夠一貫地提供更長、更詳盡的回答。

從各長度區間內提示的輸出長度得分Sl來看,現有模型在2000至4000字的區間內普遍得分較低(低于70分),僅有Claude 3.5 Sonnet模型得分尚可。在4000至20000字的區間內,幾乎所有現有模型都無法達到目標輸出長度,得分甚至為零(即所有輸出長度都不到要求長度的三分之一)。

通過融入LongWriter-6k的訓練數據,訓練的模型不僅能有效滿足長度要求,還能保持輸出質量,這一點從2000至20000字區間的Sl和Sq得分以及上面散點圖可以看出。

2. DPO有效地提升了模型在長文本生成中的輸出品質及其遵循長度要求的能力。

對比LongWriter-9B與經過DPO訓練的LongWriter-9B-DPO的評分,發現DPO在Sl(提升了4%)和Sq(提升了3%)上都有顯著提升,且這種優化效果在各個長度區間內都保持一致。這證明了在長文本生成任務中,DPO不僅能增強模型的輸出品質,還能更精準地控制輸出長度以滿足要求。類似地,在短文本生成任務中也能得出了這一結論。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

此外,還對GPT-4o及三款Longwriter模型在LongBench-Write上的輸出進行了人工成對比較,并在上圖展示了結果。數據顯示,在58%的情況下,人們更傾向于選擇經過DPO訓練的模型而非LongWriter-9B。值得注意的是,盡管模型規模較小,LongWriter-9B-DPO的表現卻能與GPT-4o持平。

3. LongWriter模型的輸出限制已擴展至1萬至2萬字,但為了支持更長文本的輸出,仍需更多長文本數據的支撐。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

在上圖中同樣展示了LongWriter模型的測試成果。

模型的最大生成長度能夠達到1萬至2萬字。缺乏長輸出的SFT數據很可能是限制模型實現更長輸出長度的主要因素。

輸出長度達到或超過2萬字的數據點不足100個。

未來構建更長的訓練SFT數據將進一步突破模型輸出長度的限制,有望實現10萬甚至更長的文本輸出。

4.3.2 消融分析

去除LongWriter-6k數據集

對LongWriter-6k數據集的消融分析。數據顯示,在融入LongWriter-6k數據集之后,LongWriter-9B模型能夠輕松應對2000字以上的輸出任務,這一點從輸出長度指標Sl中得到了體現。

在輸出質量方面,該模型在加入LongWriter-6k數據集后的質量評分提升了5%,特別是在處理需要輸出長度在2000至4000字范圍內的任務時表現尤為突出。

模型在“廣度和深度”這一維度上的質量提升最為顯著,與基線模型相比有18%的絕對增長。LongWriter-6k數據集的加入并沒有導致模型趨向于生成更長篇幅的響應,顯示出數據集對模型輸出長度沒有引入偏差。

寫作計劃增強數據

對加入寫作計劃的輸出數據進行消融分析。

通過思維鏈或思維樹,能有效提升處理復雜任務的性能。這啟發探究一個問題:在生成寫作內容之前,先讓模型輸出寫作計劃,是否能夠為長篇寫作任務帶來好處?

為了解答這一疑問,創建了一份加入了計劃的LongWriter-6k數據集。

具體做法是,將通過AgentWrite第一步得到的寫作計劃與寫作內容的起始部分合并,并用兩個換行符作為分隔,將合并后的文本作為SFT數據的輸出。

在評估時,會從模型生成的文本開頭移除寫作計劃的輸出。

AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區圖片

上表中的結果顯示,使用這份加入了計劃的數據訓練的模型,在輸出長度指標Sl上有所提升,但在輸出質量上卻有所下降。總體來看,與直接生成寫作內容相比,先讓模型輸出其推理過程(即寫作計劃),再生成寫作內容,并沒有顯著提升任務執行的效率。這可能是因為模型在學習直接生成寫作內容的過程中,已經內化了思維鏈(CoT)的步驟,因此不再需要顯性地輸出推理過程。

與傳統的合成數據相比較

探究了利用指令來創建長篇輸出的SFT數據,這一方法在以往的大型語言模型(LLM)長篇生成研究中頗為常見。

基于指令數據訓練出的模型在生成更長文本方面未能達到用戶期望。其輸出長度得分Sl并未超越僅使用通用SFT數據訓練的模型,且輸出質量Sq亦有所下降。

這種方法之所以不利于模型學習,主要有兩個原因:

? 首先,選定的長文本質量參差不齊,由于這些文本多來源于網絡抓取,因此格式混亂,可能包含噪聲;

? 其次,回譯的指令與真實用戶的指令在分布上存在差異,這限制了模型學習到更廣泛的應用能力。


AgentWrite:為什么你的模型生成的內容長度總是不超過2K?-AI.x社區

本文轉載自 ??大語言模型論文跟蹤??,作者:HuggingAGI

收藏
回復
舉報
回復
相關推薦
成人在线观看视频网站| 色偷偷av亚洲男人的天堂| 俄罗斯av网站| 激情福利在线| 国产在线视频一区二区| 午夜精品一区二区三区在线| 蜜桃久久精品成人无码av| 国产不卡精品| 色天天综合久久久久综合片| 欧美另类videos| 日韩精品视频无播放器在线看 | 精品美女视频| 日韩免费电影一区| 毛片毛片毛片毛片毛片毛片毛片毛片毛片| 在线网址91| 国产欧美久久久精品影院| yellow视频在线观看一区二区| 中文人妻av久久人妻18| 亚洲午夜极品| 日韩有码在线播放| 90岁老太婆乱淫| 99精品在免费线中文字幕网站一区| 亚洲不卡一区二区三区| 男女爱爱视频网站| 91ph在线| 国产欧美精品一区二区色综合朱莉 | 宅男在线精品国产免费观看| 污视频在线免费观看| 国产一区二区精品在线观看| 国产精品久久久久久久久久久久久久| 精品久久免费视频| 亚洲国产精品成人| 日韩在线观看免费全| 国产特级黄色录像| 日韩母乳在线| 日韩av在线影院| 国产吃瓜黑料一区二区| 日本精品视频| 欧美日高清视频| 男操女免费网站| 九九热线视频只有这里最精品| 亚洲电影在线播放| 欧美日韩激情四射| 中文字幕有码在线观看| 亚洲日穴在线视频| 视频一区二区视频| 欧美r级在线| 中文字幕一区日韩精品欧美| 亚洲一区二区在线免费观看| 91在线不卡| 国产精品久久久久久久蜜臀| 亚洲国产欧美不卡在线观看| 成人av毛片| 国产精品你懂的在线欣赏| 无遮挡亚洲一区| 1pondo在线播放免费| 中文字幕国产精品一区二区| 亚洲国产一区在线| 免费在线观看黄| 国产精品三级视频| 中文字幕一区二区三区有限公司 | 色婷婷综合中文久久一本| 内射国产内射夫妻免费频道| 在线播放高清视频www| 无吗不卡中文字幕| 国产91在线免费| 久久91导航| 欧美日韩精品综合在线| 亚洲一二三av| 丁香综合av| 亚洲人成在线观看| 国产三级aaa| 欧美日韩国产在线一区| 午夜精品久久久99热福利| 亚洲高清毛片一区二区| 免费黄网站欧美| 91影视免费在线观看| 欧美一级一区二区三区| 久久久美女艺术照精彩视频福利播放| 视频一区视频二区视频| 爆操欧美美女| 欧美色另类天堂2015| 超碰在线播放91| 一区二区在线视频观看| 精品亚洲aⅴ在线观看| 人妻互换一区二区激情偷拍| 欧美日韩 国产精品| 55夜色66夜色国产精品视频| 亚洲视频在线免费播放| 国产经典欧美精品| 日本精品一区二区三区不卡无字幕| 成人网视频在线观看| 亚洲精品国产第一综合99久久| 久久精品视频16| 欧美成人毛片| 日韩电影中文字幕在线| 99久久99久久精品免费| 伊人久久成人| 国产精品一区二区三区久久| 人妻少妇精品无码专区| 国产精品久久久久久久久果冻传媒 | 黄色网址在线免费播放| 欧美日韩中文字幕在线| 九九热精品在线播放| 美国成人xxx| 久久天天躁狠狠躁夜夜躁2014 | 久久xxxx精品视频| 97se视频在线观看| av电影在线网| 欧美视频在线看| 色诱av手机版| 天天影视综合| 国产精品白嫩初高中害羞小美女 | 一级片免费在线播放| 国产福利视频一区二区三区| 日本不卡一区二区三区视频| 国产三级伦理在线| 91麻豆精品国产91久久久资源速度| 不卡一区二区在线观看| 在线观看亚洲| 91精品天堂| 亚洲欧美视频一区二区| 日韩欧美精品中文字幕| 色婷婷精品久久二区二区密| 亚洲一本二本| 国产中文字幕91| 国产露出视频在线观看| 色综合久久九月婷婷色综合| 无码人妻精品一区二区三区99不卡| 手机在线一区二区三区| 国产精品白嫩初高中害羞小美女| 色综合成人av| 偷窥少妇高潮呻吟av久久免费| 亚洲成人激情小说| 亚洲女同一区| 亚洲xxxxx| 国产激情视频在线| 91 com成人网| www.99re7| 国产一区二区导航在线播放| 偷拍盗摄高潮叫床对白清晰| 久久女人天堂| www.日韩av.com| 国产又粗又猛又黄又爽| 中文字幕一区免费在线观看| 国产传媒免费观看| 亚洲国产日韩欧美在线| 91色精品视频在线| 大片免费在线观看| 日韩视频一区在线观看| 国产大学生自拍| 国产91精品一区二区麻豆亚洲| 欧美一二三不卡| 超碰地址久久| 欧美亚洲国产另类| 国产主播福利在线| 欧美午夜精品久久久| www成人啪啪18软件| 国产中文一区二区三区| 老司机午夜网站| silk一区二区三区精品视频| 午夜精品一区二区三区视频免费看| 天天操天天干天天插| 欧美日韩一区二区免费视频| xxx在线播放| 美女视频黄久久| 九九久久九九久久| 麻豆一区一区三区四区| 国产成人精品午夜| 麻豆av免费在线观看| 日韩免费观看高清完整版| 国产成人无码一区二区三区在线| 久久午夜羞羞影院免费观看| 成人免费xxxxx在线视频| 欧美激情777| 粉嫩av一区二区三区免费观看| 电影k8一区二区三区久久| 亚洲区免费影片| 国产又粗又黄又爽的视频| 亚洲午夜一二三区视频| 亚洲自拍偷拍一区二区| 久久国产免费看| 欧美视频在线观看视频| 精品视频99| 99爱精品视频| 日本欧美韩国| 欧美大片欧美激情性色a∨久久| 人成免费电影一二三区在线观看| 欧美日韩一级二级| 日本一二三区视频| 国产精品久久久久影院亚瑟| 人妻体内射精一区二区三区| 日本成人在线不卡视频| 日韩av中文字幕第一页| 成人一区而且| 久久精品国产美女| 国产免费av国片精品草莓男男| 91精品国产91久久久久久最新| 午夜不卡视频| 亚洲欧洲在线视频| 精品人妻av一区二区三区| 色婷婷久久综合| 久久婷婷一区二区| 国产精品久久久久一区二区三区共| 久久久久亚洲av成人网人人软件| 视频一区在线视频| 人妻少妇精品无码专区二区| 久久久久久久久99精品大| 精品国产电影| 日韩欧美激情电影| 国产欧美日韩免费| 久九九久频精品短视频| 欧美国产日韩免费| 黄色视屏免费在线观看| 国产午夜精品视频免费不卡69堂| 日韩一区二区三区不卡| 91精品国产欧美一区二区成人| 天天干天天插天天射| 精品欧美国产一区二区三区| 国产免费无码一区二区视频| 国产精品久久久久久久岛一牛影视| 午夜时刻免费入口| 91影院在线观看| 四虎永久免费观看| 国产精品99久久久| 黄色三级视频在线播放| 日本vs亚洲vs韩国一区三区| 99视频在线免费| 国产精品久久久久毛片大屁完整版| 800av在线免费观看| 伊人色**天天综合婷婷| 一区二区三区四区欧美| 成人精品亚洲| 亚洲不卡一卡2卡三卡4卡5卡精品| jizz国产精品| 国产日韩在线一区二区三区| 亚洲一区二区三区在线免费| 亚洲a级在线播放观看| 亚洲国产91视频| 国产精品永久免费视频| 国产亚洲欧美日韩精品一区二区三区 | 亚洲a级精品| 蜜桃视频成人| 免费精品国产| 色女人综合av| 97视频精品| 五月天男人天堂| 女人香蕉久久**毛片精品| 日本丰满大乳奶| 黄色免费成人| 成人一对一视频| 久久精选视频| 欧美亚洲日本在线观看| 美国十次了思思久久精品导航| 激情视频免费网站| 精品一区二区三区免费观看| www.日本久久| 成人深夜视频在线观看| 一级欧美一级日韩片| 91丨九色丨蝌蚪丨老版| 日韩在线免费观看av| 中文一区二区完整视频在线观看| 日韩一卡二卡在线观看| 亚洲精品v日韩精品| 国产在线观看免费av| 激情久久av一区av二区av三区| 五月天激情四射| 欧美嫩在线观看| 亚洲欧美另类视频| 精品偷拍一区二区三区在线看| 日本aaa在线观看| 精品国产一区久久久| 黄色的视频在线观看| 欧美中文在线观看| 国产精品99| 成人毛片网站| 精品freesex老太交| 精品少妇人妻av一区二区| 亚洲青色在线| 一级做a免费视频| 国产99精品国产| 娇妻被老王脔到高潮失禁视频| 亚洲视频一二区| 91精品国产乱码在线观看| 欧美日韩视频在线观看一区二区三区| 国产夫妻在线观看| 亚洲人成伊人成综合网久久久| 男人天堂久久久| 91高清免费在线观看| 日韩av黄色| 久久大香伊蕉在人线观看热2| 日韩美女一区二区三区在线观看| 女人帮男人橹视频播放| 免费看欧美女人艹b| 国产又粗又长又爽| 18成人在线视频| 日韩免费av网站| 日韩午夜中文字幕| 国产视频福利在线| 国语对白做受69| www 久久久| 欧美一区二区在线视频观看| 欧美亚韩一区| 日韩精品视频一二三| 2021中文字幕一区亚洲| 欧美日韩免费做爰视频| 欧美性猛片xxxx免费看久爱| 天堂在线观看视频| 欧美www在线| 久久不卡日韩美女| 欧美重口乱码一区二区| 亚洲国内欧美| 91av免费观看| 最新高清无码专区| 国产日韩久久久| 亚洲精品一区中文字幕乱码| 超碰97免费在线| 成人欧美一区二区三区在线| 国产区精品区| 日韩精品视频久久| 成人美女视频在线观看18| 成人免费视频国产免费观看| 欧美亚洲国产一卡| 你懂的在线观看| 69视频在线播放| 精品精品国产三级a∨在线| 四虎精品欧美一区二区免费| 国内一区二区在线| 青青草自拍偷拍| 色欧美乱欧美15图片| 深夜福利在线观看直播| 91禁国产网站| 久久久亚洲欧洲日产| 18禁裸男晨勃露j毛免费观看| 国产精品99久久久久久久女警| 日本在线一级片| 制服.丝袜.亚洲.另类.中文 | 97超碰国产精品女人人人爽| 国产精品99久久免费观看| 亚洲理论电影在线观看| 成人永久免费视频| 国产在线观看免费视频今夜| 日韩精品一区国产麻豆| 日本动漫理论片在线观看网站| 91在线中文字幕| 午夜国产欧美理论在线播放 | 亚洲影视一区二区| 日韩一二三在线视频播| vam成人资源在线观看| 国产精品一区在线免费观看| 国产高清久久久| 久久精品www| 亚洲第一天堂无码专区| 爱草tv视频在线观看992| 精品婷婷色一区二区三区蜜桃| 99视频精品| b站大片免费直播| 欧美视频一区二区三区在线观看| 中文日本在线观看| 亚洲一区二区久久久久久久| 欧美激情第10页| 欧美 日本 国产| 在线观看国产日韩| 麻豆传媒在线观看| 粉嫩高清一区二区三区精品视频 | 成人黄色片在线| 黄色综合网站| 久久国产精品影院| 欧美日韩国产一级二级| 五月花成人网| 免费成人深夜夜行视频| 美女一区二区视频| 久草网在线观看| 日韩二区三区在线| 日韩黄色碟片| 欧美精品卡一卡二| 国产清纯白嫩初高生在线观看91 | 欧美另类videosbestsex日本| 成人丝袜18视频在线观看| 国产suv精品一区二区33| 俺去啦;欧美日韩| 精品五月天堂| 天天干天天草天天| 亚洲成人激情av| h视频在线免费| 国产精品久久久久免费| 肉丝袜脚交视频一区二区| 国产女人18水真多毛片18精品 | 久草免费在线| 精品一区国产| 国产一区二区中文字幕| 中文字幕第15页| 久久婷婷国产麻豆91天堂| 四虎5151久久欧美毛片| 人人爽人人爽av| 一本一道久久a久久精品| 污的网站在线观看| 亚洲欧洲日韩综合二区| av一区二区不卡| 国产欧美久久久精品免费|