精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

數字比你想得更復雜——一文帶你了解大模型數字處理能力的方方面面

人工智能
近日,北京大學張牧涵團隊在投稿至 ICLR-2025 的論文中,關注了這一問題。作者將數字理解和處理能力(number understanding and processing ability, NUPA)從數學或常識推理能力等任務中分離出來,單獨衡量大模型的數字能力。

目前大語言模型(Large Language Models, LLMs)的推理能力備受關注。從思維鏈(Chain of Thought,CoT)技術提出,到以 o1 為代表的長思考模型發布,大模型正在展現出接近人類甚至領域專家的水平,其中數學推理是一個典型任務。

然而,與大模型能夠理解和求解各種復雜數學問題相對的,是其羸弱的數字處理能力。盡管大模型能夠提出看似合理的解決方案,但在實際運算之中,卻常常難以在不借助工具的情況下計算出準確的數值結果。此前引發廣泛討論的 “9.11>9.9” 就是典型例子。這種 “事實幻覺” 已經成為制約大模型實際應用的一個重大障礙。

過去的研究工作很少將 “數字理解和處理能力”(Number Understanding and Processing,NUPA)作為獨立任務進行研究。以往的研究更多聚焦于數學推理,涉及數學工具和定理應用,例如 GSM8K。對于數字本身的基礎理解和處理,如四則運算、比較大小、數位提取等,鮮有研究將其單獨衡量。同時,在現有的數學數據集中,數字相關的部分往往被簡化處理。許多數據集中的數字通常僅限于簡單的整數和小數,而較長的整數、小數和分數等較復雜的數字形式往往被忽視,這與現實中復雜多變的應用場景存在較大差距。實際應用中,若遇到涉及更復雜任務的情況,如金融、物理等領域的應用,這種簡化后的數字能力可能無法有效應對。

盡管大模型可以通過調用外部計算器一定程度上彌補數字處理能力的不足,這個問題本身仍然值得深入探討。首先,考慮到數字處理作為各種復雜推理的基礎,在涉及高頻數字處理的情況下頻繁調用外部工具會顯著減慢模型響應,模型應當具備自我解決較為簡單問題的能力(如判斷 9.11 < 9.9)。更重要的是,從發展通用人工智能的角度出發,如果模型不具備最基礎的數字理解能力而只能依賴計算器,那么不可能指望其真正掌握復雜推理、幫助人類發現新定理或發明新工具,達到人類級別的通用智能更是無從談起。這是因為,人類正是在充分理解、掌握數字和運算的基礎上才發明的計算器。

近日,北京大學張牧涵團隊在投稿至 ICLR-2025 的論文中,關注了這一問題。作者將數字理解和處理能力(number understanding and processing ability, NUPA)從數學或常識推理能力等任務中分離出來,單獨衡量大模型的數字能力。基于中小學數學課本范圍,作者提出了一個涉及四種數字表式(整數、浮點數、分數、科學計數法)和四個能力范疇下的 17 個任務類型,共計 41 個數字理解和處理任務的基準集 NUPA(圖 1)。這些任務基本覆蓋了日常生活中常用的數學知識(如計算、大小比較、單位轉換、位操作等),亦是支撐 AGI 的必要能力之一。

  • 論文標題:Number Cookbook: Number Understanding of Language Models and How to Improve It
  • 論文地址:https://arxiv.org/abs/2411.03766
  • 項目主頁:https://github.com/GraphPKU/number_cookbook

圖 1:NUPA benchmark 的 41 個任務;其中√表示包括的任務;—, O, X 分別表示因不適用、可由其它任務組合得到、以及因過于復雜而不實際,而被排除的任務。

現有大模型性能測試

作者首先在不借助額外工具和思維鏈幫助的情況下,測試了模型在不同難度(數字長度)下的表現。部分結果如圖 2 所示,準確率根據生成的數字與基準答案的嚴格一致來評估。測試涵蓋了多種常見的大模型,包括 GPT-4o、Llama-3.1、Qwen(千問)-2、Llama-2、Mixtral。測試結果顯示,最新的大模型在常見的數字表示、任務和長度范圍表現良好。如圖 2 所示,在整數加法這一典型任務上,以及較短數字長度(1-4 位)情況下,各模型的準確率均超過 90%,其中,GPT-4o、Qwen2-72B 等模型甚至達到了接近 100% 的準確率。在浮點數加法、整數大小比較、整數長度判斷等任務上,各模型也普遍展現出超過 90% 的準確率。

圖 2:在經典任務和較短數字范圍內上模型性能普遍較好,其中加法任務為 1-4 位,其余任務為 1-10 位的結果。

然而,涉及稍微復雜或者不常見的數字表示或任務時,模型的性能明顯下降。圖 3 進一步展示了部分任務上的準確率,S、M、L、XL 分別對應從短到長不同的數字長度范圍(所示任務分別對應 1-4 位、5-8 位、9-14 位、15-20 位)。盡管大部分模型在較短的數位范圍內能夠較好地解決整數和浮點數的加法問題,但在分數和科學計數法的加法上,模型的表現很差,準確率普遍低于 20%。此外,當任務涉及乘除運算、取模運算等稍微復雜的運算時,即使是在較短的長度范圍內,大模型也難以有效解決問題。

圖 3:部分任務的結果顯示,大模型在處理少見任務和長數字時存在困難。

同時,數字長度仍然是大模型尚未解決的難題,從圖 3 中可以看出,隨著數字長度的增加,模型性能明顯下降。以整數加法為例,當輸入數字長度達到 9-14 位(即圖中 L 范圍)時,除 GPT-4o 和 Qwen2-72B 的準確率維持在約 40% 外,其余模型的準確率僅約為 10%;而當涉及 15-20 位整數的加法(圖中 XL 范圍)時,GPT-4o 和 Qwen2-72B 的性能進一步下降至約 15%,其余模型幾乎無法給出正確答案。

此外,這一測試還發現大模型在處理最簡單的數位相關任務時存在明顯不足。具體而言,在諸如 “數字長度”(length)、“返回給定數位的數字”(get digit)、“數位比較大小”(digit max)等任務上,模型的表現均不能令人滿意,尤其是在數字較長時,性能下降尤為明顯。例如,當詢問一個長 60-100 位長整數的長度和特定數位的數字時,包括 GPT-4o 在內的模型準確率均不超過 20%;而在 digit max 任務上,幾乎所有模型均無法正確回答。考慮到數位是數字處理中的基本概念,這表明現有大模型在數字處理上存在本質缺陷,這也可能是模型在實際任務中頻繁出現 “事實幻覺” 的原因。

圖 4:和數位相關的任務性能。

作者在原文中還提供了更多的觀察,并基于更多任務、長度范圍和準確度度量的進行了分析。此外,考慮到該測試涉及數字表示、任務類別、數字長度和度量等多個方面,作者還提供了一個可交互式的網站,便于更清楚地展示結果,詳情請訪問:https://huggingface.co/spaces/kangshijia/NUPA-Performance。

提升大模型數字能力的三個方面

測試結果顯示,現有大模型在數字理解和處理方面存在系統性不足。為此,作者研究了提升大模型數字理解能力的三個方向,包括預訓練階段的數字相關技術、預訓練后的微調,以及思維鏈技術。

預訓練中分詞器對數字性能的影響

首先,一種普遍的猜想是,大模型在數字能力上的薄弱與其對數字的分詞(tokenization)方式有關。目前大多數流行的大模型由于詞匯表固定,需要將長數字分拆為多個 token,這種方式可能會削弱模型對數字的理解。在早期的 GPT-2 和 GPT-3 等模型中,采用的 BPE tokenizer 對數字分詞沒有特殊優化。這種分詞方式會生成不固定長度的數字 token,研究已證明這對大模型的數位對齊有負面影響 [1]。后續的 Llama 等模型均采用了從左到右的貪心式分詞器,其機制是對于預設的最大長度 k,從左到右依次截取 k 個數字組成一個 token,直至遇到非數字字符為止。在 k 的選取上,較早的 Llama-2 模型采用 k=1,即每個數位作為一個 token 的策略;而更新的 GPT-3.5,GPT-4 和 Llama-3 均選取了 k=3 的策略。近來的研究 [1] 又進一步改進了分詞方向,將整數部分的分詞方向改為從右到左,以更貼合人類對數字的理解習慣。

圖片

圖 5:四種不同的分詞器設計,從上到下分別為(a)GPT-2 使用的未經處理的 BPE 分詞器、(b)Llama-2 使用的單數位分詞器、(c)Llama-3 和 GPT-3.5、GPT-4 使用的 3 數位貪心分詞器,以及(d)改進對齊后的 3 數位分詞器。

盡管針對分詞器的設定有所不同,但最新模型普遍傾向于使用更大的詞匯表,即更大 k 和更長的 token。然而,這一趨勢未經充分驗證和解釋。為此,作者基于 NUPA 提供的數據集,針對不同的分詞器大小進行了系統驗證。實驗中,作者改進對齊分詞器,設置 k 為 1、2、3,分別訓練不同參數規模的 Transformer 模型,并在 1-8 位整數或浮點數的加法、乘法等任務上進行學習,再測試其在 1-20 位數字任務上的性能。實驗結果顯示(圖 6),無論是在訓練的數字長度范圍內(in-domain)還是超出訓練長度(out-of-domain)的長度泛化性能上,詞匯表更小的分詞器(k=1)的性能均優于或接近 2 位或 3 位分詞器,同時具備更快的收斂速度。

圖片

圖 6:以整數乘法為例,1-3 位分詞器的性能對比;橫軸為訓練所見樣本數,縱軸為生成準確率;從左到右分別為 6 位 - 10 位數字加法的測試集準確率。

此外,作者還研究了最近提出的概率分詞器(即在分詞時不采用貪心算法,而是隨機取不超過 k 個數字組成一個 token)。實驗結果表明,盡管概率分詞器在長度泛化上表現出一定優勢,但總體性能仍然不如一位分詞器。綜上,作者認為,目前流行的擴大數字詞匯表的傾向實際上不利于數字處理,相反,更早期的一位分詞器可能才是更優選項。

其它預訓練中的數字相關技術

除分詞器的影響之外,過去的研究還從位置編碼(positional encoding,PE)和數字格式等角度分析了數字能力,特別是在數字的長度泛化方面。作者在 NUPA 任務上測試了這些典型技術,結果顯示:

從位置編碼的角度,以 NoPE 和 Alibi 為代表的改進型位置編碼能夠有效解決長度泛化問題。這些方法適用于多種數字表示和任務類型,雖然會犧牲一定的訓練速度,但能提升模型在超出訓練長度范圍時的性能。

針對數字格式,研究發現補零對齊(zero-padding)和反向數字表示(reverse representation)等技術有助于數位對齊。其中,僅針對整數部分進行反向表示能夠顯著提升結果。這一部分的結論較多,感興趣的讀者可以參考原文進行深入閱讀。

圖片

圖 7:一些用于幫助數位對齊的數字表示。

后訓練微調對數字性能的影響

微調是提升大模型在特定任務上表現的常見方法。作者針對 NUPA 進行了微調實驗,使用 NUPA 提供的 41 個任務構建了包括多種數字表示、任務類型和數字長度的訓練集,并在 Llama-3.1-8B 基礎上進行參數高效微調(Parameter-Efficient Fine-Tuning, PEFT)。為了測試數字長度上的泛化性能,作者只選擇了 S 和 M 兩個長度范圍進行訓練,并在 S、M、L、XL 四個長度范圍內進行測試。

訓練結果表明,模型通過少量的訓練步數(約兩千步)即可顯著提升性能,如圖 6 所示,經過微調的模型在多個任務上表現明顯優于未經微調的 Llama-3.1-8B 模型;在一些任務上,微調后的模型甚至接近 GPT-4o 或超過了 GPT-4o 的性能。這表明,模型在某些任務上表現較差的原因可能是缺乏足夠多樣的任務和數字表示訓練數據。增加這些數據有望改善模型表現。然而,即使經過微調,該模型的準確率也未能達到在整個區間上達到接近 100% 的水平。

圖 8:經過微調的模型和其它模型的對比,其中 - ft 表示經過微調的模型。

然而,在后訓練階段,嘗試通過微調調整位置編碼、分詞策略或數據格式的實驗并未得到正面結果。具體而言,作者在微調階段嘗試修改原始模型使用的位置編碼、分詞器,或采用修改后的數字格式,但不同技術組合的微調結果均不如直接微調的結果,且改動越多性能下降越明顯。作者認為,這可能與預訓練階段與微調階段之間的差異過大有關。這表明,目前提出的大部分技術無法在微調階段直接使用,因此必須在預訓練階段就考慮使用。

圖片

圖 9:以浮點數加法為例,其中 rev 表示數字反向表示、pad 表示數字首位補零對齊,1d 表示使用 1 位 tokenizer;FT 和 w/o FT 分別為直接進行微調和不使用微調的原始參數。模型均采用 Llama-3.1-8B,可以看到所有組合的結果都劣于直接進行微調。

思維鏈是否足以解決數字處理難題

上述實驗是在不使用思維鏈的情況下進行的,考慮到數字處理任務通常是更復雜任務的基礎,生成思維鏈可能會導致過長的輸出或分心。然而,考慮到思維鏈方法對推理任務普遍有效,作者進一步測試了思維鏈技術是否能夠解決數字處理問題。

具體而言,作者采用了一種名為 “規則跟隨”(Rule-Following)的思維鏈范式,將明確的計算規則以代碼的方式提供給大模型,模型微調后按照這些規則解決問題。實驗結果表明,訓練得到的具有規則跟隨能力的模型性能上普遍超過 GPT-4o 及一般微調的 Llama-3.1-8B。然而,該模型的推理時間、顯存開銷較大,使用思維鏈生成的平均耗時是直接生成的 10 倍以上,且容易受到顯存或上下文長度限制,導致無法解決較長的問題。這表明,思維鏈技術并非解決數字處理問題的萬能方法。

圖 10:規則跟隨的思維鏈大模型具有遠超直接生成的性能,但受到長度限制明顯,“-” 表示在兩千個 token 限制內無法生成答案。

圖片

圖 11:指令跟隨的思維鏈大模型的平均耗時普遍在 10 倍以上。

總結

本文提出了一系列獨立于數學問題和常識問題之外的數字理解和處理任務,涵蓋了 4 種數字表示和 17 種任務類型,并對常見的大模型進行了評測。結果表明,現有大模型在數字理解和處理方面的性能仍然局限于最常見的任務和較短的數字范圍。作者從預訓練技術、訓練后微調和思維鏈三個方面探索了提升數字處理能力的可能性。盡管一些方法在提升模型性能上有一定效果,但仍存在不足,離徹底解決數字處理問題還有一定距離。

作者指出,大模型目前被視為通向 AGI 的重要工具,盡管其在解決最復雜問題的高級能力方面備受關注,但 “數字處理” 等基礎能力的研究同樣不可忽視,否則推理和思維將成為空中樓閣。作者希望本文提供的任務和數據集能夠為大模型提升數字處理能力提供有力支持,并以此為基礎進一步加強其在數學等領域的表現。這些任務和數據集,可以有效地為預訓練過程中引入更多樣的數字相關任務提供參考,也可以啟發更好的數字分詞、編碼、格式處理等新技術的提出。

[1] Aaditya K. Singh, DJ Strouse, Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs. 2024。

責任編輯:姜華 來源: 機器之心
相關推薦

2017-11-20 15:09:21

2010-05-05 19:08:37

cluster負載均衡

2025-06-18 09:06:41

2010-08-23 13:05:52

2015-07-01 15:10:30

2018-05-23 14:02:27

2023-01-17 09:37:23

讀寫分離數據庫

2024-05-29 12:13:50

2020-11-10 10:01:22

VimLinux命令

2020-12-01 12:25:28

VimLinux分屏

2017-03-22 09:11:45

bugbug賞金計劃眾包項目

2023-11-20 08:18:49

Netty服務器

2023-11-06 08:16:19

APM系統運維

2022-11-11 19:09:13

架構

2023-09-12 07:02:19

騰訊混元大模型

2017-10-25 20:26:19

大數據生活金融

2023-11-08 08:15:48

服務監控Zipkin

2022-02-24 07:34:10

SSL協議加密

2023-10-27 08:15:45

2022-02-15 08:38:04

錯誤邏輯異常編程程序
點贊
收藏

51CTO技術棧公眾號

a级网站在线观看| 91av在线不卡| 韩国三级在线看| 91在线三级| 久久久国际精品| 国产欧美韩国高清| 久久久久久久久97| 极品美女一区二区三区| 91精品国产麻豆| av免费观看网| 在线观看操人| 国产欧美va欧美不卡在线| av噜噜色噜噜久久| 成人黄色免费网| 亚洲国产激情| 久久久99免费视频| 欧美特黄一区二区三区| 日韩综合一区二区三区| 在线亚洲精品福利网址导航| 丰满人妻一区二区三区53号| 成人性爱视频在线观看| 成人小视频在线| 国产精品美女久久久免费| 日韩熟女精品一区二区三区| 99久久夜色精品国产亚洲狼 | 国产精品久久久久久免费播放| 99综合视频| 欧美激情一区二区三区在线视频观看 | av中文字幕免费在线观看| 国产免费成人| 欧美激情一区二区久久久| 免费黄色激情视频| 国产成人精品三级高清久久91| 精品免费99久久| 五月天婷婷亚洲| 性欧美videohd高精| 亚洲成人动漫精品| 日韩精品第1页| 91xxx在线观看| 久久欧美一区二区| 久久一区免费| 视频一区二区在线播放| 国产精品白丝av| 91丝袜美腿美女视频网站| 色婷婷久久综合中文久久蜜桃av| 国产日韩欧美三区| 欧美壮男野外gaytube| 日本系列第一页| 国内自拍视频一区二区三区| 九九精品在线视频| 亚洲成人生活片| 国产精品videossex久久发布| 久久这里只有精品视频首页| 波兰性xxxxx极品hd| 久久电影院7| 久久久999国产| 欧美色图亚洲天堂| 国内精品久久久久久久97牛牛 | 亚洲国产精久久久久久 | 国产亚洲一区二区三区四区| 欧美精品成人一区二区在线观看| 少妇激情av一区二区| 2024国产精品视频| 日韩理论片在线观看| 成年人视频在线免费观看| 日本一区二区三区在线不卡| 亚洲激情电影在线| 久cao在线| 一区二区三区国产精品| 欧美大黑帍在线播放| 97在线视频免费观看完整版| 午夜视频在线观看一区二区| 成人免费观看cn| 中文在线最新版地址| 日韩欧美极品在线观看| 亚洲综合欧美激情| 久久综合给合| 日韩国产高清视频在线| 亚洲精品成人av久久| 亚洲精品888| 久久久久久网址| 亚洲黄色免费观看| 久久99热99| 国产精品久久波多野结衣| 视频在线观看你懂的| 国产精品区一区二区三| 波多野结衣与黑人| 超碰国产一区| 日韩一区和二区| 女人被狂躁c到高潮| 日本午夜一区| 欧美极度另类性三渗透| 亚洲第一网站在线观看| 国产一区视频网站| 久热这里只精品99re8久 | 国产成人黄色| 久久99国产精品自在自在app | 美女爽到高潮91| 俄罗斯精品一区二区| 黄色在线播放| 亚洲综合色视频| 亚洲成人福利在线观看| 成人av地址| 色婷婷久久av| 日本天堂网在线| 国产精品亚洲人在线观看| 日本高清一区| 国产在线美女| 日韩一区国产二区欧美三区| 午夜在线观看一区| 亚洲一级一区| 91久久久久久久久久久久久| 三区在线视频| 亚洲一区免费视频| 在线观看免费视频高清游戏推荐 | 日产精品一线二线三线芒果| 亚洲综合图区| 欧美美女直播网站| 人妻大战黑人白浆狂泄| 黄页网站一区| 91久久嫩草影院一区二区| 欧美日韩免费做爰大片| 亚洲午夜精品在线| 波多野结衣在线免费观看| 国产成人3p视频免费观看| 国外成人在线视频| 精品人妻少妇嫩草av无码专区| 亚洲国产精品v| 熟女性饥渴一区二区三区| 97久久精品| 久久69精品久久久久久国产越南| 一区二区的视频| 久久久久久一级片| 99热在线这里只有精品| 都市激情亚洲欧美| 欧美激情国内偷拍| 国产黄色一级大片| 一区二区不卡在线播放| 51自拍视频在线观看| 天天综合久久| 成人在线中文字幕| 久久综合之合合综合久久| 欧美日韩卡一卡二| 精品在线观看一区| 精品无码三级在线观看视频| 亚洲激情啪啪| 97色婷婷成人综合在线观看| 日韩中文视频免费在线观看| 中文字幕视频二区| 国产精品乱码久久久久久| 色噜噜狠狠一区二区| 三上亚洲一区二区| 成人黄色在线播放| 成人影院在线观看| 日韩精品专区在线影院重磅| 九九视频在线观看| 成人网男人的天堂| 久色视频在线播放| 久久不见久久见国语| 国产精品高清在线观看| 中文日本在线观看| 7777女厕盗摄久久久| 欧美黑吊大战白妞| 成人高清在线视频| 国产激情在线观看视频| 成人羞羞动漫| 亚洲qvod图片区电影| 丁香影院在线| 亚洲色图第一页| 国产精品一品二区三区的使用体验| 亚洲三级视频在线观看| 亚洲成a人片在线www| 国产视频一区欧美| 亚洲视频小说| 亚洲精品a区| 欧美在线免费看| 午夜视频成人| 欧美成人r级一区二区三区| 日韩精品一区二区av| 国产日本亚洲高清| a级大片免费看| 国产精品久久久亚洲一区| 日本精品一区二区三区高清 久久| 欧美激情啪啪| 国内自拍欧美激情| 中文字幕在线免费| 精品精品国产高清a毛片牛牛| 日韩精品一区二区亚洲av| 国产精品传媒入口麻豆| 久久久久亚洲AV成人网人人小说| 欧美亚洲自偷自偷| 国产欧美自拍视频| 一本色道久久综合亚洲精品酒店| 国产欧美一区二区| 美女高潮在线观看| 久久天天躁狠狠躁夜夜躁2014| 日本韩国在线观看| 欧美精选在线播放| 日本天堂网在线| 一区二区三区国产豹纹内裤在线| 中文字幕第20页| 成人免费毛片嘿嘿连载视频| 天天综合网日韩| 国产亚洲在线| 天堂а√在线中文在线| 精品国产91乱码一区二区三区四区 | k8久久久一区二区三区 | 成人免费aaa| 国产精品久久久久久久| 麻豆av一区二区三区| 视频一区中文字幕精品| 国产精品免费视频久久久| 美女av在线免费看| 色与欲影视天天看综合网| 性开放的欧美大片| 日韩高清a**址| 日本国产在线观看| 欧美大片一区二区三区| 亚洲资源在线播放| 在线观看亚洲一区| 久久精品视频5| 精品国产91久久久久久| 国产一级中文字幕| 亚洲美女一区二区三区| 欧美自拍偷拍网| 国产欧美精品一区二区色综合| 精品影片一区二区入口| 国产91丝袜在线播放| 中文字幕资源在线观看| 麻豆精品一区二区av白丝在线| 日韩免费高清在线| 噜噜噜躁狠狠躁狠狠精品视频| www.日本在线播放| 亚洲视频一区| 2019日韩中文字幕mv| 国产真实久久| 九色自拍视频在线观看| 伊人狠狠色j香婷婷综合| 天堂а√在线中文在线| 欧美日韩国产欧| 91黄色在线看| 99在线精品免费视频九九视| 免费看又黄又无码的网站| 亚洲毛片视频| 各处沟厕大尺度偷拍女厕嘘嘘| 在线日韩欧美| 国产 日韩 亚洲 欧美| 精品电影一区| 18岁网站在线观看| 免费在线观看成人av| 国产一区二区三区精彩视频| 亚洲综合丁香| 丰满少妇在线观看| 久久成人免费网| 中文字幕一区二区三区四| 国产一区在线视频| 大尺度在线观看| 337p粉嫩大胆噜噜噜噜噜91av| 国产激情在线免费观看| 国产亚洲成av人在线观看导航| 91成人精品一区二区| 中文字幕在线一区| 久操视频免费在线观看| 亚洲成人av电影在线| 国产午夜麻豆影院在线观看| 欧美无人高清视频在线观看| 亚洲中文字幕在线观看| 日韩免费电影一区| 婷婷亚洲一区二区三区| 在线精品91av| 97超碰资源站在线观看| 97视频在线观看网址| 日韩久久一区二区三区| 成人免费网站在线观看| 97精品久久| 色涩成人影视在线播放| 91精品高清| 欧美日韩在线不卡视频| 久色婷婷小香蕉久久| 国产调教打屁股xxxx网站| 26uuu国产在线精品一区二区| 五月婷六月丁香| 亚洲一区二区视频在线观看| 亚洲精品男人的天堂| 欧美日本韩国一区二区三区视频| 成人激情四射网| 亚洲一区二区国产| 伊人春色在线观看| 国产成人精品久久二区二区91| 日本成人在线网站| 久久久久国产精品视频| 91精品一区国产高清在线gif | 日韩制服一区| 国产69精品久久久久9999apgf| 国产精品一区2区3区| 17c丨国产丨精品视频| 日韩电影在线一区二区| 成人做爰69片免费| 中文字幕第一区第二区| 日韩欧美一区二区一幕| 91精品国产综合久久久蜜臀图片| 污污网站免费在线观看| 美女福利精品视频| 69堂免费精品视频在线播放| 国产精品欧美久久| 亚州av乱码久久精品蜜桃| 欧美一级片中文字幕| 风流少妇一区二区| 国产免费一区二区三区四区| 欧美午夜激情在线| 亚洲免费国产视频| 久久精品影视伊人网| 婷婷综合六月| 久久精品国产第一区二区三区最新章节 | 精品中文av资源站在线观看| 亚洲av综合一区二区| 亚洲婷婷在线视频| 羞羞色院91蜜桃| 亚洲精品资源在线| av剧情在线观看| 99九九视频| 欧美88av| 韩国一区二区在线播放| 国产精品免费人成网站| 男人的天堂av网站| 亚洲美女福利视频网站| 国产精品蜜芽在线观看| 国产精品国产精品国产专区不卡| 正在播放日韩欧美一页 | 精品精品视频| 在线视频欧美一区| 美日韩一区二区| 99国产精品免费| 欧美少妇xxx| avtt亚洲| 国产日韩欧美自拍| 欧美3p视频| 日本77777| 亚洲免费av网站| 午夜精品久久久久久久99热黄桃| 久久精品亚洲94久久精品| 91麻豆精品国产综合久久久| 亚洲一区精品视频| 九一九一国产精品| 欧美精品久久久久久久久46p| 91.成人天堂一区| 黄黄的网站在线观看| 2019国产精品视频| 欧美日韩国产精品一区二区亚洲| 亚洲性图第一页| 午夜天堂影视香蕉久久| 色播色播色播色播色播在线 | 久久久久久久久99精品| 日韩在线视频不卡| 中文字幕亚洲一区二区三区五十路| 日本少妇一区| 7777在线视频| 成人高清伦理免费影院在线观看| 精品一区二区三区四| 亚洲韩国青草视频| 欧美香蕉视频| 亚洲美女自拍偷拍| 国产99久久久久| 欧美另类一区二区| 伊人av综合网| 国产一区二区久久久久| 免费人成在线观看视频播放| www.亚洲色图.com| 国产免费a视频| 久久视频国产精品免费视频在线| 亚洲综合影院| 18禁男女爽爽爽午夜网站免费| 国产精品色婷婷久久58| www.97av.com| 日本久久中文字幕| 我不卡神马影院| 中文字幕在线永久| 欧美午夜免费电影| 日韩另类在线| 日韩av图片| 国产成人亚洲综合a∨婷婷| 久久黄色精品视频| 日韩在线观看免费高清| 久久中文字幕导航| 男女视频在线看| 亚洲成人自拍一区| 1024国产在线| 国产一区在线免费| 免费观看日韩av| 亚洲精品午夜久久久久久久| 一区二区三区久久精品| 8848成人影院| 欧美婷婷精品激情| 亚洲福利一区二区| 精品麻豆一区二区三区| 久久综合中文色婷婷| 国产精品一区二区你懂的| 怡红院av久久久久久久| 久久久久久噜噜噜久久久精品| 欧美韩国日本在线观看 |