精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案 原創(chuàng)

發(fā)布于 2024-10-17 14:40
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

前沿的AI獨(dú)角獸公司們正在花費(fèi)所有精力使 LLM 更擅長(zhǎng)推理。然而蘋(píng)果最近卻給他們潑了盆冷水。

近期,蘋(píng)果公司的一個(gè)六人研究團(tuán)隊(duì)最近發(fā)表了一篇題為《了解大型語(yǔ)言模型中數(shù)學(xué)推理的局限性》的論文,論文中各種基準(zhǔn)測(cè)試,十分詳實(shí)。不過(guò)最后的結(jié)論基本上就是想證明:當(dāng)前的 LLM 無(wú)法推理。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

“當(dāng)前的 LLM 無(wú)法執(zhí)行真正的邏輯推理;他們從訓(xùn)練數(shù)據(jù)中復(fù)制推理步驟,“該論文中寫(xiě)道,其中還包括 OpenAI 的 GPT-4o 等 LLM,甚至是備受吹捧的”思考和推理“LLM,o1。該研究還對(duì)一系列其他模型進(jìn)行了研究,例如 Llama、Phi、Gemma 和 Mistral。

該論文的資深作者 Mehrdad Farajtabar 在 X 上發(fā)帖解釋了該團(tuán)隊(duì)是如何得出結(jié)論的。據(jù)他介紹,LLM 只是遵循復(fù)雜的模式,即使是小于 30 億個(gè)參數(shù)的模型也達(dá)到了只有更大的模型才能更早達(dá)到的基準(zhǔn),特別是 OpenAI 三年前發(fā)布的 GSM8K 分?jǐn)?shù)。

Mehrdad10月10日在帖子中表示:

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

大型語(yǔ)言模型 (LLM) 真的能推理嗎?或者它們只是復(fù)雜的模式匹配器?

研究人員引入了 GSM-Symbolic,這是一種在 LLM 中測(cè)試數(shù)學(xué)推理的新工具,因?yàn)?GSM8K 不夠準(zhǔn)確,因此對(duì)于測(cè)試 LLM 的推理能力不可靠。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

一、4大證據(jù),證明大模型不具備形式推理能力

三年前,OpenAI 發(fā)布了 GSM8K 數(shù)據(jù)集(目前常用的一種小學(xué)數(shù)學(xué)推理基準(zhǔn)數(shù)據(jù)集),測(cè)試 GPT-3(175B參數(shù))在數(shù)學(xué)題上的表現(xiàn),那時(shí) GPT-3 的得分僅為 35%。如今,擁有約 30 億參數(shù)的模型已能夠在 GSM8K 測(cè)試中取得超過(guò) 85% 的得分,參數(shù)更大的模型甚至超過(guò) 95%。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

然而,隨著準(zhǔn)確率的提升,疑問(wèn)也隨之而來(lái):這些模型的推理能力是否真的進(jìn)步了?它們的表現(xiàn)是否真的體現(xiàn)了邏輯或符號(hào)推理能力,抑或是簡(jiǎn)單的模式識(shí)別,數(shù)據(jù)污染,甚至過(guò)擬合的結(jié)果? 

為進(jìn)一步探索這一問(wèn)題,研究團(tuán)隊(duì)此發(fā)了 GSM-Symbolic,用于測(cè)試大語(yǔ)言模型在數(shù)學(xué)推理中的極限。GSM-Symbolic 基于 GSM8K 數(shù)據(jù)集,通過(guò)符號(hào)模板生成多樣化的問(wèn)題實(shí)例,允許更可控的實(shí)驗(yàn)設(shè)計(jì)。

為了更清晰地觀察模型在面對(duì)這些變體問(wèn)題時(shí)的表現(xiàn),他們生成了 50 個(gè)獨(dú)特的 GSM-Symbolic 集合,這些問(wèn)題與 GSM8K 問(wèn)題類(lèi)似,但更改了其中的數(shù)值和名稱(chēng)。

基于 GSM-Symbolic,他們從 5 個(gè)方面說(shuō)明了為何他們認(rèn)為大語(yǔ)言模型不具備形式推理能力。

1.GSM8K 的測(cè)試結(jié)果并不可靠

通過(guò)對(duì)多個(gè)開(kāi)源模型(如 Llama 8B、Phi-3)和閉源模型(如 GPT-4o 和 o1 系列)的大規(guī)模評(píng)估,他們發(fā)現(xiàn)模型在 GSM8K 上的表現(xiàn)存在顯著波動(dòng)。

例如,Llama 8B 的準(zhǔn)確率在 70%-80% 之間波動(dòng),而 Phi-3 的表現(xiàn)則在 75%-90% 之間浮動(dòng)。這也表明,模型在處理相似問(wèn)題時(shí)表現(xiàn)并不穩(wěn)定,GSM8K 上的高分并不能證明它們具備真正的推理能力。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

圖|由 GSM-Symbolic 模板生成的 50 套 8-shot 思想鏈(CoT)性能分布,顯示了所有 SOTA 模型之間準(zhǔn)確性的顯著差異性。對(duì)于大多數(shù)模型來(lái)說(shuō),GSM-Symbolic 的平均性能低于 GSM8K(圖中由虛線(xiàn)表示)。有趣的是,GSM8K 的性能落在分布的右側(cè),從統(tǒng)計(jì)學(xué)上講,這僅有非常低的可能性,因?yàn)?GSM8K 基本上只是 GSM-Symbolic 的一次單一抽樣。

2.大模型的數(shù)學(xué)推理能力相當(dāng)脆弱敏感

團(tuán)隊(duì)觀察到由相同模板生成的不同集合之間存在較大的性能差異,并且與原始GSM8K準(zhǔn)確率相比性能有所下降。這表明語(yǔ)言模型所展現(xiàn)的推理過(guò)程可能并不正式,因此容易受到變化的影響。一種解釋是,這些模型試圖進(jìn)行一種分布內(nèi)模式匹配,將給定的問(wèn)題和解題步驟與訓(xùn)練數(shù)據(jù)中看到的類(lèi)似問(wèn)題和步驟進(jìn)行對(duì)齊。由于此過(guò)程不涉及正式推理,因此可能導(dǎo)致同一問(wèn)題的不同實(shí)例之間存在較大差異。

具體測(cè)試表現(xiàn)為:對(duì)名稱(chēng)和數(shù)字變動(dòng)的敏感性研究還發(fā)現(xiàn),當(dāng)前的大語(yǔ)言模型對(duì)問(wèn)題中的專(zhuān)有名稱(chēng)(如人名、食物、物品)的變化仍然很敏感,當(dāng)數(shù)字發(fā)生變化時(shí),大語(yǔ)言模型就會(huì)更加敏感。例如,僅僅改變問(wèn)題中的名字,就可能導(dǎo)致模型的準(zhǔn)確率變化高達(dá) 10%。如果將這種情況類(lèi)比到小學(xué)數(shù)學(xué)測(cè)試中,僅僅因?yàn)楦淖兞巳嗣鴮?dǎo)致分?jǐn)?shù)下降 10% ,是非常不可思議的。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

圖|當(dāng)只更改名稱(chēng)、專(zhuān)有編號(hào)或同時(shí)更改名稱(chēng)和編號(hào)時(shí),大語(yǔ)言模型的敏感性如何?總體而言,即使只更改名稱(chēng),模型也有明顯的性能變化,但當(dāng)更改編號(hào)或合并這些變化時(shí),性能差異更大。問(wèn)題難度的增加導(dǎo)致表現(xiàn)急劇下降。

3.擴(kuò)展問(wèn)題難度,性能分布波動(dòng)劇烈

研究團(tuán)隊(duì)通過(guò)引入三種新的 GSM-Symbolic 變體(GSM-M1、GSM-P1、GSM-P2),通過(guò)刪除一個(gè)分句(GSM-M1)、增加一個(gè)分句(GSM-P1)或增加兩個(gè)分句(GSM-P2),來(lái)調(diào)整問(wèn)題難度。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖|通過(guò)修改條款數(shù)量來(lái)修改 GSM-Symbolic 的難度級(jí)別

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)

圖|增加條款數(shù)量對(duì)性能的影響:隨著GSM-M1→GSM-Symb→GSM-P1→GSM-P2的難度增加,性能分布向左移動(dòng)(即準(zhǔn)確性下降),方差增加。

結(jié)果發(fā)現(xiàn),隨著問(wèn)題難度的增加(GSM-M1 → GSM-Symb → GSM-P1 → GSM-P2),模型的表現(xiàn)不僅下降顯著,且表現(xiàn)波動(dòng)也變得更加劇烈。面對(duì)更復(fù)雜的問(wèn)題時(shí),模型的推理能力變得更加不可靠。

4.大模型沒(méi)有真正理解數(shù)學(xué)概念

研究中還添加無(wú)關(guān)子句,實(shí)驗(yàn)表明對(duì)LLM推理性能的巨大影響,研究團(tuán)隊(duì)設(shè)計(jì)了 GSM_NoOp 實(shí)驗(yàn),在原有問(wèn)題中添加一個(gè)似乎相關(guān)但實(shí)際無(wú)關(guān)的子句 (hence "no-op")。

結(jié)果顯示,所有模型的表現(xiàn)都顯著下降,包括性能較好的 o1 模型在內(nèi)。這種現(xiàn)象進(jìn)一步說(shuō)明,模型并沒(méi)有真正理解數(shù)學(xué)概念,而是通過(guò)模式匹配來(lái)得出答案。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖|在 GSM-NoOp 上,模型的性能明顯下降,較新的模型比舊的模型下降更大。

(a) 在GSM-NoOp上,模型的性能顯著下降,其中較新的模型比舊模型下降得更多。(b) GSM-Symbolic上的性能與GSM8K非常接近。然而,在GSM-NoOp上,即使使用完全相同問(wèn)題的變體作為示例(NoOp-Symb),或者使用包含No-Op操作的不同GSM-NoOp問(wèn)題的不同問(wèn)題作為示例(NoOp-NoOp),性能顯著下降的情況也無(wú)法恢復(fù)。(c) 值得注意的是,一些在GSM8K和GSM-Symbolic上表現(xiàn)明顯差于(b)中模型的,在NoOp-Symb上卻表現(xiàn)出了更好的性能。

5.擴(kuò)展規(guī)模和計(jì)算能力并不能解決根本問(wèn)題

此外,他們還探討了通過(guò)擴(kuò)大數(shù)據(jù)、模型規(guī)模或計(jì)算能力是否能夠解決推理能力不足的問(wèn)題。Mehrdad Farajtabar 表示,盡管 OpenAI 的 o1 系列在性能上有一定改善,但它們也會(huì)出現(xiàn)這樣的愚蠢錯(cuò)誤,要么是它不明白“現(xiàn)在”是什么意思,要么是它不明白“去年”是什么意思,還有一種更可能的解釋是,更大的訓(xùn)練數(shù)據(jù)具有這種模式,所以它又沿用了這種模式。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

圖|o1-mini 和 o1-preview 的結(jié)果:這兩個(gè)模型大多遵循我們?cè)谡闹薪榻B的相同趨勢(shì)。然而,o1-preview 在所有難度級(jí)別上都顯示出非常強(qiáng)大的結(jié)果,因?yàn)樗蟹植级急舜私咏?/p>

作者認(rèn)為,理解大語(yǔ)言模型的真正推理能力對(duì)于在現(xiàn)實(shí)世界中的應(yīng)用至關(guān)重要,尤其是在 AI 安全、教育、醫(yī)療保健和決策系統(tǒng)等對(duì)準(zhǔn)確性和一致性要求極高的領(lǐng)域。

研究結(jié)果表明,當(dāng)前大語(yǔ)言模型的表現(xiàn),更像是高級(jí)的模式匹配器,而非具備形式推理能力的系統(tǒng)。為了在這些領(lǐng)域安全、可靠地部署大語(yǔ)言模型,開(kāi)發(fā)更為魯棒和適應(yīng)性強(qiáng)的評(píng)估方法顯得尤為重要。

二、不過(guò),OpenAI 的o1模型的推理的確強(qiáng)勁

令人驚訝的是,根據(jù)研究人員的說(shuō)法,在這個(gè)基準(zhǔn)測(cè)試中,OpenAI 的 o1 表現(xiàn)出“在各種推理和基于知識(shí)的基準(zhǔn)測(cè)試中的強(qiáng)勁表現(xiàn)”,但當(dāng)研究人員引入 GSM-NoOp 實(shí)驗(yàn)時(shí),能力下降了 30%,該實(shí)驗(yàn)涉及向問(wèn)題添加不相關(guān)的信息。PS:上個(gè)月OpenAI推出o1模型時(shí)也曾表示,提示詞宜簡(jiǎn)單而非復(fù)雜。


這證明 OpenAI 這一系列新發(fā)布的模型的“推理”能力是越來(lái)越好的,也許 GPT-5 會(huì)好很多。


然而,可能是 Apple 的 LLM 在推理方面不太拿得出手,該團(tuán)隊(duì)沒(méi)有測(cè)試 Apple 的模型。

三、科技圈又亂了:大模型壓根不會(huì)推理,o1也不行

此外,并不是每個(gè)人都對(duì)這篇研究論文感到滿(mǎn)意,因?yàn)樗踔翛](méi)有解釋 “推理 ”的真正含義,而只是引入了一個(gè)評(píng)估 LLM 的新基準(zhǔn)。

“總體而言,我們?cè)谡Z(yǔ)言模型中沒(méi)有發(fā)現(xiàn)形式推理的證據(jù)……它們的行為更好地解釋為復(fù)雜的模式匹配——實(shí)際上非常脆弱,以至于改變名稱(chēng)可能會(huì)使結(jié)果變化約10%!”Mehrdad 進(jìn)一步補(bǔ)充道,擴(kuò)展這些模型只會(huì)得到“更好的模式機(jī)器”,而不是“更好的推理器”。

首先,LLM更多是根據(jù)分散注意力的材料來(lái)進(jìn)行“推理”,所以這種失敗,并不是什么新鮮事。斯坦福大學(xué)的 Robin Jia Percy Liang 早在 2017 年進(jìn)行了一項(xiàng)類(lèi)似的研究,結(jié)果相似。

其次,LLM 中缺乏足夠抽象、正式的推理的另一個(gè)表現(xiàn)是,大模型往往在解決小問(wèn)題上的性能還可以,但隨著問(wèn)題變大,性能很快就會(huì)下降,甚至分崩離析,正如7月 Subbarao Kambhapati 的團(tuán)隊(duì)最近對(duì) GPT o1 的分析:

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

在整數(shù)算術(shù)上也能看到同樣的問(wèn)題。在較舊的模型和較新的模型中,都反復(fù)觀察到,在越來(lái)越大的乘法問(wèn)題上,答案準(zhǔn)確度的衰減。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

一些人一直聲稱(chēng)大型語(yǔ)言模型(LLMs)無(wú)法進(jìn)行推理,并且它們是通往通用人工智能(AGI)的歧途。可能蘋(píng)果在嘗試將大型語(yǔ)言模型應(yīng)用于其產(chǎn)品后終于接受了這一事實(shí),這也可能是它退出對(duì)OpenAI投資的原因之一。

即便是目前最先進(jìn)的o1模型,也不能解決這個(gè)問(wèn)題。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

再有,Gary Marcus 還指出,大模型不遵守國(guó)際象棋規(guī)則。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

大多數(shù)研究人員都在贊揚(yáng)蘋(píng)果的這篇論文,并認(rèn)為其他人接受大型語(yǔ)言模型無(wú)法進(jìn)行推理這一點(diǎn)也很重要。大型語(yǔ)言模型的長(zhǎng)期批評(píng)者加里·馬庫(kù)斯也分享了多個(gè)大型語(yǔ)言模型無(wú)法執(zhí)行推理任務(wù)(如計(jì)算和象棋)的例子。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

四、反對(duì)者:這是真的嗎?論文作者混淆了概念

但這是真的嗎?大型語(yǔ)言模型真的不會(huì)推理嗎?

不過(guò),反對(duì)這一論文結(jié)果的也大有人在。

有人認(rèn)為,蘋(píng)果論文的一個(gè)問(wèn)題是它將推理與計(jì)算混淆了。“推理是知道用算法來(lái)解決問(wèn)題,而不是全部在腦海中解決,”人工智能研究者Paras Chopra解釋道,同時(shí)他也指出,盡管大多數(shù)大型語(yǔ)言模型(LLMs)最終得出了錯(cuò)誤的答案,但它們確實(shí)知道解決問(wèn)題的方法。他認(rèn)為,即使答案錯(cuò)誤,知道解決問(wèn)題的方法也足以檢查大型語(yǔ)言模型是否在進(jìn)行推理。

一篇在Hacker News上的討論強(qiáng)調(diào),蘋(píng)果公司的研究人員向大型語(yǔ)言模型(LLMs)提出的一些問(wèn)題試圖“捉弄”它們,因?yàn)檫@些問(wèn)題中包含了不相關(guān)的信息,而大型語(yǔ)言模型無(wú)法主動(dòng)過(guò)濾掉這些信息。

撤出OpenAI后,蘋(píng)果繼續(xù)潑冷水:大模型不會(huì)推理。科技界炸鍋:大模型只會(huì)檢索拼湊答案-AI.x社區(qū)圖片

推理是在知識(shí)領(lǐng)域中逐步、迭代地減少信息熵的過(guò)程。OpenAI的o1-preview通過(guò)引入迭代更好地實(shí)現(xiàn)了這一點(diǎn)。它并不完美,但確實(shí)做到了。

亞利桑那州立大學(xué)(ASU)計(jì)算機(jī)科學(xué)和人工智能教授 Subbarao Kambhampati同意,關(guān)于大型語(yǔ)言模型具備推理能力的一些說(shuō)法是夸大其詞的。然而,他表示,大型語(yǔ)言模型需要更多的工具來(lái)處理系統(tǒng)2任務(wù)(即推理),而“微調(diào)”或“思維鏈”等技術(shù)并不足以滿(mǎn)足這一需求。

當(dāng)OpenAI發(fā)布o(jì)1模型,并宣稱(chēng)該模型能夠思考和推理時(shí),Hugging Face的首席執(zhí)行官Clem Delangue并不買(mǎi)賬。“又一次,一個(gè)AI系統(tǒng)并不是在‘思考’,而是在‘處理’、‘運(yùn)行預(yù)測(cè)’……就像谷歌或電腦所做的那樣,”Clem 在談到OpenAI如何錯(cuò)誤地描繪其最新模型所能實(shí)現(xiàn)的功能時(shí)說(shuō)道。

雖然一些人表示贊同,但另一些人則認(rèn)為這正是人類(lèi)大腦的工作方式。“又一次,人類(lèi)的大腦并不是在‘思考’,而只是在執(zhí)行一系列復(fù)雜的大規(guī)模生物化學(xué)/生物電計(jì)算操作,”P(pán)hillip Rhodes回復(fù)德朗格道。

為了測(cè)試推理能力,有些人還會(huì)問(wèn)大型語(yǔ)言模型(LLMs)單詞“Strawberry”中有多少個(gè)“r”,這完全沒(méi)有意義。大型語(yǔ)言模型無(wú)法直接計(jì)算字母數(shù)量,因?yàn)樗鼈兪且苑Q(chēng)為“標(biāo)記”的文本塊來(lái)處理文本的。自大型語(yǔ)言模型誕生以來(lái),對(duì)它們的推理測(cè)試就一直存在問(wèn)題。

五、寫(xiě)在最后

每個(gè)人對(duì)大型語(yǔ)言模型似乎都有強(qiáng)烈的看法。一些人基于Yann LeCun或弗朗索瓦·肖萊(Francois Chollet)等專(zhuān)家的研究,認(rèn)為應(yīng)該更認(rèn)真地對(duì)待大型語(yǔ)言模型的研究;而另一些人則跟風(fēng)批評(píng)。有人說(shuō)它們是我們通往通用人工智能(AGI)的門(mén)票,而另一些人則認(rèn)為它們只是被美化的、有著花哨名字的文本生成算法。

相比之下,AI大神Andrej Karpathy最近表示,這些大型語(yǔ)言模型或Transformer所使用的預(yù)測(cè)下一個(gè)token的技術(shù),或許能夠解決其他領(lǐng)域之外的許多問(wèn)題。

雖然在某種程度上,大型語(yǔ)言模型確實(shí)能夠進(jìn)行推理,但一旦將它們付諸實(shí)踐進(jìn)行測(cè)試,最終還是會(huì)失敗。這并不是什么新鮮事,反而是一種機(jī)會(huì):機(jī)器還取代不了人類(lèi)!

??本文轉(zhuǎn)載自???51CTO技術(shù)棧??,作者:言征

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄

    欧美精品在线一区| 久久躁狠狠躁夜夜爽| 69堂免费视频| 超碰国产在线观看| 国产在线播精品第三| 欧美激情在线一区| 日韩av在线看免费观看| 亚洲欧洲二区| 黄色成人av在线| 亚洲精品一品区二品区三品区| 国产黄色大片网站| 美女日韩在线中文字幕| 欧美巨大黑人极品精男| 色一情一交一乱一区二区三区| 四虎国产精品成人免费影视| 精品久久中文字幕| 熟女视频一区二区三区| 亚洲色图欧美视频| 国产精品一区二区视频| 日韩美女视频中文字幕| 久久精品一区二区三| 日本一区二区免费高清| 亚洲国产小视频| 日韩在线一区视频| 在线天堂资源| 亚洲国产精品一区二区久久恐怖片| 日韩国产在线一区| 香蕉视频免费在线看| 国产乱人伦精品一区二区在线观看 | www男人的天堂| 免费人成在线不卡| 清纯唯美亚洲激情| av资源吧首页| 亚洲综合专区| 最新中文字幕亚洲| 亚洲精品午夜视频| 一区二区美女| 日韩av在线直播| 日本少妇xxxx软件| 精品国产鲁一鲁****| 欧美日韩国产另类一区| 久久精品免费网站| 中文字幕影音在线| 午夜精品福利在线| 国产 日韩 欧美在线| 在线免费观看污| 亚洲免费观看高清完整版在线观看| 视频一区二区三区在线观看| 美国一级片在线免费观看视频| 成人app下载| 国产精品初高中精品久久| 精品欧美在线观看| 国产美女在线观看一区| 91麻豆桃色免费看| 国产情侣一区二区| 狠狠狠色丁香婷婷综合激情| 91免费综合在线| 91欧美日韩麻豆精品| 精品一区二区三区香蕉蜜桃| 国产欧美日韩视频| 国产超碰人人模人人爽人人添| 国产综合一区二区| 99在线看视频| 无码精品人妻一区二区三区影院 | 白白色免费视频| 欧美日韩123| 在线视频日韩精品| 一本一本久久a久久| 亚洲视频电影在线| 欧美激情第99页| 97人人澡人人爽人人模亚洲| 午夜亚洲性色视频| 国产精品国产三级国产aⅴ浪潮| 自拍偷拍校园春色| 久久91精品国产91久久小草| 91精品久久久久久蜜桃| 日本人妻丰满熟妇久久久久久| 99久久国产免费看| 日本一区二区三区在线视频| 日本在线观看| 亚洲图片一区二区| 超碰影院在线观看| abab456成人免费网址| 69精品人人人人| 日韩综合第一页| 精品久久久久久久| 欧美成人h版在线观看| 久久久.www| 日韩精品福利网| 成人在线精品视频| 手机在线精品视频| 国产精品区一区二区三区| 激情视频小说图片| jizz内谢中国亚洲jizz| 欧美日韩一二三| 欧美性生交xxxxx| 精品理论电影| 欧美人与性动交| 黄色一级片免费在线观看| 美腿丝袜亚洲一区| 久久国产精品一区二区三区四区 | 久久国产精品99国产精| 欧美bbbbbbbbbbbb精品| 久久精品二区亚洲w码| 国产伦精品一区二区三区视频孕妇 | 中文字幕在线观看亚洲| 91成人福利视频| 日韩精品三区四区| 国产精品一区而去| 看黄网站在线| 91久久一区二区| 一级全黄裸体片| 清纯唯美日韩| 欧美性视频在线| www日本视频| 中文字幕在线不卡一区 | 欧美xxxhd| 日韩视频中午一区| 99久久99久久精品免费| 亚洲永久字幕| 国产精品有限公司| dj大片免费在线观看| 日本精品一级二级| 制服丝袜av在线| 欧美成人中文| 成人在线一区二区| 成人在线免费公开观看视频| 精品日韩中文字幕| 亚洲一区和二区| 你懂的网址国产 欧美| 国产精品视频yy9099| 日本aaa在线观看| 精品女同一区二区三区在线播放| 男人女人拔萝卜视频| 欧美jizz| 国产美女被下药99| 成年人在线观看视频| 一本到三区不卡视频| 国产一级二级视频| 亚洲国产日韩欧美一区二区三区| 97超碰人人看人人| 欧美日韩经典丝袜| 欧美大片日本大片免费观看| 激情视频在线播放| 国产91精品欧美| 成人免费看片'免费看| 日韩欧美激情电影| 欧美人与性动交| 男人天堂综合网| 亚洲mv在线观看| 久久一区二区电影| 免费在线亚洲欧美| 欧美午夜欧美| 欧美与亚洲与日本直播| 一夜七次郎国产精品亚洲| 日韩乱码一区二区三区| 国产精品入口麻豆原神| 污污视频在线免费| 国产在线欧美| 精品国产一区二区三区麻豆小说| 狠狠操一区二区三区| 亚洲成人a**站| 久久久久久久久久影院| 久久综合九色综合97婷婷女人| 久久久久久久久久福利| 欧美少妇xxxx| 成人在线国产精品| wwww亚洲| 亚洲人成网站色ww在线| 中文字幕一区二区人妻| 国产精品久久久久影院色老大| 夜夜夜夜夜夜操| 在线视频观看日韩| 日韩欧美国产二区| **日韩最新| 欧美精品久久久久久久免费观看| 凸凹人妻人人澡人人添| 91国产视频在线观看| 东方av正在进入| 26uuu久久天堂性欧美| 日本a√在线观看| 一级欧洲+日本+国产| 国产精品自拍首页| av久久网站| 欧美人与性动交a欧美精品| 日韩午夜影院| 欧美精品一二三四| 日本天堂在线视频| 国产欧美一区二区在线观看| 天天爽夜夜爽视频| 久久国产成人| 91传媒免费视频| 亚洲免费专区| 97se视频在线观看| 日韩网站中文字幕| 欧美日本黄视频| 成人在线观看免费| 精品国产凹凸成av人导航| 中文天堂在线资源| 亚洲午夜电影在线| 国产又粗又长又黄的视频| 99精品视频一区二区| 免费网站在线观看黄| 亚洲中午字幕| 成人国产一区二区三区| 九九综合九九| 国产精品久久久久久久小唯西川 | 日韩成人毛片视频| 久久久精品黄色| 美女露出粉嫩尿囗让男人桶| 捆绑紧缚一区二区三区视频| 国产素人在线观看| 欧美日韩一区二区国产| 亚洲人成网站在线播放2019| 欧美变态挠脚心| 成人黄色在线免费观看| 日韩护士脚交太爽了| 浅井舞香一区二区| 成年人视频免费在线播放| 久久午夜a级毛片| 成年人视频网站在线| 日韩大片在线观看视频| 亚洲av无码国产精品永久一区| 欧美午夜精品一区| 五月激情六月丁香| 亚洲国产精品久久人人爱蜜臀| 日韩欧美国产成人精品免费| 国产欧美一区二区精品忘忧草 | 亚州国产精品久久久| 五月香视频在线观看| 国产一区二区三区久久精品| 五月天福利视频| 精品成人a区在线观看| 精品国产伦一区二区三| 7777精品伊人久久久大香线蕉 | 99国产欧美久久久精品| 亚洲一区和二区| 粉嫩13p一区二区三区| 久久久久亚洲av片无码v| 久久99久久久欧美国产| 一本色道久久亚洲综合精品蜜桃| 日韩av一级电影| 欧美性猛交久久久乱大交小说 | 午夜伊人狠狠久久| 久久午夜鲁丝片午夜精品| 亚洲九九爱视频| 日韩一级片av| 亚洲国产日韩a在线播放| 国产第一页第二页| 亚洲第一狼人社区| 亚洲精品77777| 黑人巨大精品欧美一区二区三区 | 精品欧美一区二区在线观看| 99热这里只有精品66| 日韩三级精品电影久久久| av中文字幕播放| 精品国内片67194| 色香蕉在线视频| 亚洲欧美日韩精品久久亚洲区| 暖暖视频在线免费观看| 国产亚洲欧洲高清| 伊人免费在线| 欧美日韩国产999| 暧暧视频在线免费观看| 午夜精品美女自拍福到在线| 色是在线视频| 国产精品自产拍在线观| 精品国产一区二区三区性色av| 99一区二区三区| 久久精品亚洲成在人线av网址| 精品在线视频一区二区三区| 教室别恋欧美无删减版| 正义之心1992免费观看全集完整版| 围产精品久久久久久久| 国产夫妻自拍一区| 爽好久久久欧美精品| 老司机久久精品| 成人国产精品免费观看视频| 美女被到爽高潮视频| 亚洲欧美偷拍三级| 日韩大片免费在线观看| 欧美系列日韩一区| www.com在线观看| 亚洲精品一区二区网址| 日韩在线免费电影| 欧美极品少妇xxxxx| a欧美人片人妖| 91视频免费网站| 伊人久久大香线蕉综合网蜜芽| 伊人久久av导航| 国产日韩视频| 久久精品久久99| 久久久久九九视频| 中文字幕在线观看成人| 色哟哟日韩精品| 精品人妻一区二区三区含羞草 | 超碰人人干人人| 亚洲成人免费电影| 亚洲无码久久久久| 日韩国产高清污视频在线观看| 亚洲1卡2卡3卡4卡乱码精品| 91精品国产高清| 久久69av| 少妇免费毛片久久久久久久久| 伊人天天综合| 国产精品探花在线播放| 国产日韩精品一区二区浪潮av| 久草资源在线视频| 欧美精品国产精品| 黄色视屏网站在线免费观看| 欧美乱人伦中文字幕在线| 国产69精品久久| 欧美连裤袜在线视频| 亚洲性色视频| 91香蕉视频免费看| 亚洲国产精品成人久久综合一区| 日本一级淫片色费放| 91精品国产91久久综合桃花| 国产爆初菊在线观看免费视频网站 | 欧美一区二区三区在线看| gogogo高清在线观看免费完整版| 97在线精品视频| 91精品啪在线观看国产爱臀| 国产精品无码乱伦| 日本aⅴ免费视频一区二区三区| 日本人dh亚洲人ⅹxx| 中国精品18videos性欧美| 欧美亚洲另类色图| 国产成人精品一区二区三区四区| 成年人视频软件| 欧美性大战久久| 久久电影视频| 日本国产一区二区三区| 六月丁香久久丫| 3d动漫一区二区三区| 国产999精品久久久久久绿帽| 天天操夜夜操av| 在线电影院国产精品| 91ph在线| 国产主播喷水一区二区| 色综合久久网| 天天干天天色天天干| 亚洲色图在线播放| 国产三级精品在线观看| 麻豆国产va免费精品高清在线| 成人污污www网站免费丝瓜| 成人手机视频在线| 国产精品一区二区三区网站| 欧产日产国产v| 精品国产凹凸成av人导航| 91在线三级| 欧美美乳视频网站在线观看| 久热re这里精品视频在线6| 97超碰在线资源| 欧美影院一区二区| 久久精品视频观看| av日韩免费电影| 一区二区国产精品| 中文字幕第4页| 欧美三级视频在线播放| 里番在线观看网站| 99国产视频在线| 99亚洲一区二区| 公肉吊粗大爽色翁浪妇视频| 欧美另类一区二区三区| 超鹏97在线| 精品久久精品久久| 日韩高清不卡一区| 五月天av网站| 日韩精品高清视频| www.一区| 国产精品自拍合集| 91蜜桃视频在线| 一道本在线视频| 午夜精品久久久久久久99热浪潮| 国内精品视频在线观看| av噜噜在线观看| 午夜av电影一区| 拍真实国产伦偷精品| 国产精品国产精品国产专区蜜臀ah| 国产精品主播| www.97视频| 日韩av一卡二卡| 91久久久久久白丝白浆欲热蜜臀| 8x8x华人在线| 国产亚洲精品中文字幕| 国产男女猛烈无遮挡| 欧美一区二三区| 欧美影院一区| 亚洲国产日韩一区无码精品久久久| 欧美裸体一区二区三区| 美女在线视频免费| 久久av喷吹av高潮av| 久久综合国产精品| 国产视频一区二区三区四区五区| 91av在线免费观看| 中文精品久久| 国产精品情侣呻吟对白视频| 亚洲国产精品成人精品| 亚洲伦理久久|