日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁(yè) > 元宇宙 > AI

GPT-5 編程測(cè)評(píng)“表面不及格”:實(shí)際 63.1% 的任務(wù)沒(méi)交卷,全算上成績(jī)比 Claude 高一倍

來(lái)源: 責(zé)編: 時(shí)間:2025-09-25 15:00:17 28觀看
導(dǎo)讀 Scale AI 的新軟件工程基準(zhǔn) SWE-BENCH PRO,出現(xiàn)反轉(zhuǎn)!表面上看,“御三家”集體翻車(chē),沒(méi)一家的解決率超過(guò) 25%:GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。但深入數(shù)據(jù)背

Scale AI 的新軟件工程基準(zhǔn) SWE-BENCH PRO,出現(xiàn)反轉(zhuǎn)!xTc28資訊網(wǎng)——每日最新資訊28at.com

表面上看,“御三家”集體翻車(chē),沒(méi)一家的解決率超過(guò) 25%:xTc28資訊網(wǎng)——每日最新資訊28at.com

GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

但深入數(shù)據(jù)背后,則暗藏玄機(jī)。xTc28資訊網(wǎng)——每日最新資訊28at.com

前 OpenAI 研究員 Neil Chowdhury 表示,如果只看已提交的任務(wù),GPT-5 能達(dá)到 63% 的準(zhǔn)確率,比 Claude Opus 4.1 的 31%,高了近一倍!xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

(這怎么不算 G 又贏!?)xTc28資訊網(wǎng)——每日最新資訊28at.com

換句話說(shuō),GPT-5 在擅長(zhǎng)的題目上依舊穩(wěn)健,與老基準(zhǔn) SWE-Bench-Verified 的 74.9% 差距不大,而 Claude 跟其他模型則直接拉垮到底。xTc28資訊網(wǎng)——每日最新資訊28at.com

那么,究竟是什么基準(zhǔn)測(cè)試,讓這些頂級(jí)模型如此狼狽?xTc28資訊網(wǎng)——每日最新資訊28at.com

SWE-BENCH PRO

先說(shuō)結(jié)論,不是模型變菜了,而是題變難了。xTc28資訊網(wǎng)——每日最新資訊28at.com

與平均正確率高達(dá) 70% 的 SWE-Bench-Verified 相比,SWE-BENCH PRO 嚴(yán)格得可不止一星半點(diǎn)。xTc28資訊網(wǎng)——每日最新資訊28at.com

一方面,作為 OpenAI 于 2024 年 8 月發(fā)布的測(cè)試集,SWE-Bench-Verified 中的很多代碼庫(kù)已被用作大語(yǔ)言模型的預(yù)訓(xùn)練語(yǔ)料,存在著數(shù)據(jù)污染的風(fēng)險(xiǎn)。xTc28資訊網(wǎng)——每日最新資訊28at.com

另一方面,SWE-Bench-Verified 還包含不少瑣碎的問(wèn)題,例如 500 個(gè)問(wèn)題中有 161 個(gè)只需一兩行修改。xTc28資訊網(wǎng)——每日最新資訊28at.com

這與工業(yè)軟件工程中通常涉及的跨多文件、數(shù)百行修改的場(chǎng)景差距較大,從而無(wú)法真正反映實(shí)際開(kāi)發(fā)場(chǎng)景中所面臨的挑戰(zhàn)。xTc28資訊網(wǎng)——每日最新資訊28at.com

基于此,SWE-BENCH PRO 主打全新題目,以確保模型在訓(xùn)練階段從未接觸過(guò)測(cè)試內(nèi)容,從而更真實(shí)地考驗(yàn)?zāi)P偷膶?shí)際能力。xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

涵蓋 1865 個(gè)商業(yè)應(yīng)用、B2B 服務(wù)和開(kāi)發(fā)者工具的多元化代碼庫(kù)

具體來(lái)說(shuō),SWE-BENCH PRO 將這些代碼庫(kù)構(gòu)建為以下三個(gè)子集:xTc28資訊網(wǎng)——每日最新資訊28at.com

公共集:來(lái)自采用 copy-left 許可證的 11 個(gè)公共代碼庫(kù)的 731 個(gè)問(wèn)題。xTc28資訊網(wǎng)——每日最新資訊28at.com

商業(yè)集:來(lái)自 276 個(gè)源自初創(chuàng)公司代碼庫(kù)的問(wèn)題。xTc28資訊網(wǎng)——每日最新資訊28at.com

保留集:來(lái)自采用 copy-left 許可證的 12 個(gè)公共代碼庫(kù)的 858 個(gè)問(wèn)題。xTc28資訊網(wǎng)——每日最新資訊28at.com

(注:公共集將在 HuggingFace 上發(fā)布,商業(yè)集和保留集保持私有,商業(yè)集的測(cè)試結(jié)果會(huì)公開(kāi),保留集用于驗(yàn)證模型是否過(guò)擬合。每個(gè)問(wèn)題由任務(wù)描述、相關(guān)測(cè)試集和可運(yùn)行環(huán)境構(gòu)成。)xTc28資訊網(wǎng)——每日最新資訊28at.com

這些從強(qiáng) Copyleft 許可證(GPL)代碼庫(kù)和真實(shí)的初創(chuàng)公司獲取的商業(yè)代碼庫(kù)能夠有效地解決 SWE-Bench-Verified 存在的數(shù)據(jù)污染問(wèn)題。xTc28資訊網(wǎng)——每日最新資訊28at.com

為了確保任務(wù)的復(fù)雜性,研究團(tuán)隊(duì)還排除了像 1-10 行代碼編輯這樣瑣碎的編輯,保留了需要進(jìn)行大量多文件修改的問(wèn)題。xTc28資訊網(wǎng)——每日最新資訊28at.com

此外,為了防止模型對(duì)任何單一代碼庫(kù)產(chǎn)生過(guò)擬合,這些代碼庫(kù)都處于活躍狀態(tài)并覆蓋消費(fèi)者應(yīng)用、B2B 服務(wù)和開(kāi)發(fā)者工具平臺(tái)。xTc28資訊網(wǎng)——每日最新資訊28at.com

接下來(lái),就讓我們看看研究者是如何在這些問(wèn)題上進(jìn)行測(cè)試的。xTc28資訊網(wǎng)——每日最新資訊28at.com

human in the loop 的測(cè)試環(huán)節(jié)

為了將模型評(píng)估的重點(diǎn)放在當(dāng)模型獲得充分細(xì)節(jié)后,能否實(shí)現(xiàn)給定的修復(fù)或補(bǔ)丁上。xTc28資訊網(wǎng)——每日最新資訊28at.com

研究團(tuán)隊(duì)在 SWE-Bench Verified 的基礎(chǔ)上,將 SWE-BENCH PRO 中的每個(gè)問(wèn)題都經(jīng)過(guò)了人工增強(qiáng),并加入了問(wèn)題陳述、需求說(shuō)明以及接口信息。xTc28資訊網(wǎng)——每日最新資訊28at.com

首先,研究團(tuán)隊(duì)提供一個(gè)待解決問(wèn)題的問(wèn)題陳述并在必要時(shí)補(bǔ)充上下文信息。xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

其次,針對(duì)潛在的歧義問(wèn)題,對(duì)于每個(gè)問(wèn)題,列出了一系列需求并指定相應(yīng)的類(lèi)和函數(shù)。xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

之后,在環(huán)境方面,每個(gè)任務(wù)都在一個(gè)容器化的、用于特定語(yǔ)言的環(huán)境中進(jìn)行評(píng)估。xTc28資訊網(wǎng)——每日最新資訊28at.com

在測(cè)試階段,研究通過(guò) fail2pass 測(cè)試驗(yàn)證問(wèn)題是否已解決,通過(guò) pass2pass 測(cè)試確保現(xiàn)有功能保持完整。xTc28資訊網(wǎng)——每日最新資訊28at.com

其中,為了確保測(cè)試質(zhì)量,fail2pass 測(cè)試會(huì)經(jīng)過(guò)人工篩選,去掉與任務(wù)不相關(guān)或過(guò)于寬泛的測(cè)試。xTc28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于偶爾失敗的測(cè)試,則會(huì)運(yùn)行三次,以確保結(jié)果穩(wěn)定。xTc28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)論

正如我們開(kāi)頭提到的,大語(yǔ)言模型在 SWE-BENCH PRO 上的解決率僅為中等水平,遠(yuǎn)低于 SWE-Bench Verified 中的 70% 。xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

其中,在公共集上,GPT-5 和 Claude Opus 4.1 分別實(shí)現(xiàn)了 23.3% 和 22.7% 的最高解決率,顯著優(yōu)于小規(guī)模模型,Claude Sonnet 4 也達(dá)到了 16.3% 的解決率。xTc28資訊網(wǎng)——每日最新資訊28at.com

不過(guò),像 DeepSeek Qwen-3 32B 和 GPT-4o 這樣的老模型表現(xiàn)就多少有點(diǎn)不盡人意了,僅為 3.4% 和 3.9%。xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

在商業(yè)集上,即便是最優(yōu)模型的得分也低于 20%。xTc28資訊網(wǎng)——每日最新資訊28at.com

這表明當(dāng)前模型在解決真實(shí)商業(yè)場(chǎng)景中的問(wèn)題時(shí),能力仍然非常有限。xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

針對(duì)這一苦澀的實(shí)驗(yàn)結(jié)果,研究人員展開(kāi)了進(jìn)一步的分析,結(jié)論如下:xTc28資訊網(wǎng)——每日最新資訊28at.com

首先,編程語(yǔ)言的難度、代碼庫(kù)以及模型的種類(lèi)被視為影響模型表現(xiàn)的關(guān)鍵因素。xTc28資訊網(wǎng)——每日最新資訊28at.com

Go 和 Python 通常表現(xiàn)較好,一些模型在這些語(yǔ)言上的解決率超過(guò) 30%,而 JavaScript 和 TypeScript 則波動(dòng)較大,從 0% 到超過(guò) 30% 不等。xTc28資訊網(wǎng)——每日最新資訊28at.com

不同代碼庫(kù)的解決率差異也很明顯,一些代碼庫(kù)普遍偏低(低于 10%),另一些則超過(guò) 50%。xTc28資訊網(wǎng)——每日最新資訊28at.com

前沿模型如 Claude Opus 4.1 和 GPT-5 在大多數(shù)編程語(yǔ)言和代碼庫(kù)中表現(xiàn)穩(wěn)定,小規(guī)模模型則更易出現(xiàn)接近零的解決率。xTc28資訊網(wǎng)——每日最新資訊28at.com

其次,不同的模型的失敗原因往往各不相同。xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

OPUS 4.1 的主要失敗模式是語(yǔ)義理解不足,錯(cuò)誤解答占 35.9%,語(yǔ)法錯(cuò)誤占 24.2%,表明其技術(shù)執(zhí)行能力較強(qiáng),但在問(wèn)題理解和算法正確性方面存在挑戰(zhàn)。xTc28資訊網(wǎng)——每日最新資訊28at.com

GPT-5 的結(jié)果顯示在工具使用的有效性上可能存在差異,但錯(cuò)誤解答相對(duì)較少。xTc28資訊網(wǎng)——每日最新資訊28at.com

SONNET 4 的主要失敗模式是上下文溢出(35.6%)和顯著的無(wú)休止文件讀取行為(17.0%),表明其在上下文管理和文件導(dǎo)航策略上存在局限。xTc28資訊網(wǎng)——每日最新資訊28at.com

GEMINI 2.5 的失敗模式則較為均衡,涵蓋工具錯(cuò)誤(38.8%)、語(yǔ)法錯(cuò)誤(30.5%)和錯(cuò)誤解答(18.0%),顯示其在多個(gè)維度上保持了一定能力。xTc28資訊網(wǎng)——每日最新資訊28at.com

QWEN3 32B 作為開(kāi)源模型,表現(xiàn)出最高的工具錯(cuò)誤率(42.0%),凸顯了集成化工具使用對(duì)于高效代理的重要性。xTc28資訊網(wǎng)——每日最新資訊28at.com

不難看出,GPT-5 雖然延續(xù)了以往“會(huì)就會(huì),不會(huì)就不會(huì)”的答題策略,但面對(duì)高企的未回答率(63.1%),它的表現(xiàn)仍然不夠看。xTc28資訊網(wǎng)——每日最新資訊28at.com

那么,誰(shuí)會(huì)成為第一個(gè)突破 30% 的大模型呢?xTc28資訊網(wǎng)——每日最新資訊28at.com

xTc28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接xTc28資訊網(wǎng)——每日最新資訊28at.com

[1]https://x.com/vbingliuxTc28資訊網(wǎng)——每日最新資訊28at.com

[2]https://scale.com/leaderboard/swe_bench_pro_publicxTc28資訊網(wǎng)——每日最新資訊28at.com

[3]https://x.com/ChowdhuryNeil/status/1969817448229826798xTc28資訊網(wǎng)——每日最新資訊28at.com

[4] https://scale.com/research/swe_bench_proxTc28資訊網(wǎng)——每日最新資訊28at.com

本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:henryxTc28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-28057-0.htmlGPT-5 編程測(cè)評(píng)“表面不及格”:實(shí)際 63.1% 的任務(wù)沒(méi)交卷,全算上成績(jī)比 Claude 高一倍

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 奧爾特曼預(yù)告 ChatGPT 新產(chǎn)品:Pro 會(huì)員也要額外收費(fèi),這次不計(jì)成本投入算力

下一篇: Plaud 正式進(jìn)駐中國(guó)大陸,Plaud Note Pro 等三款 AI 錄音硬件全面發(fā)售

標(biāo)簽:
  • 熱門(mén)焦點(diǎn)
  • 元宇宙終究沒(méi)火過(guò)兩年

    來(lái)源:傳播體操在ChatGPT快速破圈的同時(shí),元宇宙的熱度卻一瀉千里。雖然互聯(lián)網(wǎng)大廠們都沒(méi)有否認(rèn)元宇宙的長(zhǎng)期想象力,但在行動(dòng)上卻都紛紛表示了對(duì)元宇宙短期前景的悲觀。號(hào)稱(chēng)改變
  • 雷克薩斯高管,“受賄”5000萬(wàn)?

    來(lái)源:毒舌科技作者:潘磊雷克薩斯的高管,好像出事了。五六家日本小媒體,突然曝出了一個(gè)與中國(guó)市場(chǎng)有關(guān)的大新聞——雷克薩斯中國(guó)區(qū)一個(gè)高管受賄10億日元(約合人民幣5000
  • 數(shù)字人的AB面:在元宇宙中過(guò)氣,在AIGC中重生

    來(lái)源:光錐智能作者:郝 鑫“29800元一年的虛擬主播,號(hào)稱(chēng)24小時(shí)不停播,月入十幾萬(wàn),實(shí)際上卻是關(guān)鍵詞都不能回復(fù),播了半個(gè)月,直播間還因違規(guī)被快手封禁,最終投訴無(wú)門(mén)、退款無(wú)果。&
  • AI大模型“戰(zhàn)火”燒到了教育領(lǐng)域

    作者:劉曠自2023年開(kāi)年以來(lái),AI大模型這股風(fēng)是越吹越猛烈了。隨著ChatGPT的出圈爆火,再度掀起了一波AI熱浪,無(wú)論是在國(guó)內(nèi)還是國(guó)外都有不少企業(yè)宣布入局或者跟進(jìn)AI大模型領(lǐng)域。與
  • 元宇宙帶來(lái)沉浸式智能登錄?你學(xué)會(huì)了嗎?

    備受資本市場(chǎng)寵愛(ài)的元宇宙概念,正掀起一番番波瀾。元宇宙作為虛實(shí)相融的互聯(lián)網(wǎng)應(yīng)用和社會(huì)形態(tài),與沉浸式體驗(yàn)緊密相關(guān)。 多重路徑,打造無(wú)感知沉浸式智能登錄《設(shè)計(jì)
  • 星展銀行(DBS)計(jì)劃推出零售數(shù)字資產(chǎn)交易服務(wù)

    2月14日消息,新加坡星展銀行CEO Piyush Gupta在財(cái)報(bào)會(huì)議上表示,計(jì)劃于2022年年底前推出零售數(shù)字資產(chǎn)交易服務(wù)。據(jù)悉,DBS于2021年初開(kāi)設(shè)了機(jī)構(gòu)數(shù)字資產(chǎn)交易平臺(tái),全
  • 元宇宙時(shí)代NFT的價(jià)值衡量

    有人認(rèn)為NFT的高昂價(jià)格只是炒作的產(chǎn)物,并不具有其對(duì)等的價(jià)值,但其實(shí)NFT并不是空中樓閣,只是區(qū)塊鏈數(shù)字分類(lèi)賬中的一種形式。誠(chéng)然,目前的NFT仍處于灰色地帶,相關(guān)的法
  • 韓國(guó)建立元宇宙生態(tài)系統(tǒng),智度股份發(fā)布元宇宙社區(qū)Meta彼岸

    財(cái)聯(lián)社|區(qū)塊鏈日?qǐng)?bào)28日訊 今日《元宇宙新鮮事》有:杭州第十三次黨代會(huì)報(bào)告指出抓緊布局元宇宙等未來(lái)產(chǎn)業(yè);韓國(guó)科學(xué)信息通信技術(shù)部宣布投資1.85億美元建立元宇宙
  • 量子計(jì)算在未來(lái)能否提高區(qū)塊鏈技術(shù)的效率

    區(qū)塊鏈技術(shù)的主要成功之處在于對(duì)不透明的金融流程進(jìn)行了去中心化的訪問(wèn)量子計(jì)算機(jī)的內(nèi)在目標(biāo)是解決傳統(tǒng)計(jì)算機(jī)不可能解決的問(wèn)題隨著區(qū)塊鏈技術(shù)的使用案例逐漸

最新推薦

    SQL Error: select * from ***_ecms_news13 where id in(273,171,279,,46,255) limit 6
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
国产精品麻豆va在线播放| 欧美α欧美αv大片| 亚洲欧美在线网| 欧美一区二区免费视频| 久久午夜精品一区二区| 欧美激情国产高清| 国产精品国产三级国产专播精品人 | 国产精品一区=区| 国内精品久久久久国产盗摄免费观看完整版| 黄色成人在线网址| 99爱精品视频| 欧美在线亚洲在线| 欧美成ee人免费视频| 国产精品你懂的| 亚洲福利国产| 亚洲欧美日韩一区二区三区在线观看 | 亚洲区免费影片| 亚洲欧美日韩精品久久| 久久综合色播五月| 国产精品h在线观看| 韩国自拍一区| 亚洲无限av看| 免费人成网站在线观看欧美高清| 欧美偷拍另类| 亚洲国产影院| 欧美资源在线观看| 欧美色一级片| 亚洲国产成人精品久久| 午夜视频一区二区| 欧美理论电影在线观看| 海角社区69精品视频| 亚洲一区二区精品| 欧美成人免费播放| 国产一区二区三区四区老人| 9人人澡人人爽人人精品| 久久亚洲二区| 国产精品一区一区三区| 亚洲精品在线视频| 久久久久久久久综合| 欧美性猛交xxxx乱大交蜜桃| 亚洲电影在线免费观看| 欧美一级视频免费在线观看| 欧美日韩高清区| 亚洲第一页自拍| 欧美一区二区三区在线观看| 欧美亚州一区二区三区| 亚洲欧洲精品一区二区精品久久久| 欧美在线观看一二区| 国产精品国产成人国产三级| 亚洲三级影片| 蜜桃久久av一区| 韩曰欧美视频免费观看| 欧美一区二区在线播放| 国产精品日韩久久久| 99视频超级精品| 欧美国产日韩一区二区| 在线观看日韩欧美| 久久精品国产综合精品| 国产欧美日韩另类视频免费观看| 亚洲午夜精品久久| 欧美日韩久久精品| 亚洲美女视频在线观看| 欧美国产日产韩国视频| 亚洲国产国产亚洲一二三| 久久嫩草精品久久久精品一| 国产一区二区日韩精品| 久久国产精品72免费观看| 国产日韩1区| 欧美一级淫片aaaaaaa视频| 国产精品嫩草99av在线| 亚洲一区在线看| 国产精品免费在线| 亚洲欧美亚洲| 国产欧美在线| 欧美在线一区二区| 国产亚洲精品久久久| 欧美一区二区私人影院日本| 国产精品永久免费在线| 午夜精品久久久久久99热| 国产伦精品一区二区三区免费| 亚洲欧美国产77777| 国产欧美短视频| 欧美一区二区私人影院日本 | 久久久久久久久久久久久久一区| 国产综合久久| 久久久综合免费视频| 一区二区三区在线观看视频| 久久综合伊人77777| 亚洲黄色三级| 欧美日韩卡一卡二| 一区二区日韩伦理片| 欧美日韩在线播放一区二区| 亚洲一区二区三区欧美| 国产欧美亚洲精品| 久久成人久久爱| **性色生活片久久毛片| 欧美激情第一页xxx| 一区二区三区久久精品| 国产精品区一区二区三区| 欧美亚洲综合在线| 一区二区三区在线视频播放| 欧美大片在线看| 在线视频欧美日韩| 国产欧美91| 噜噜爱69成人精品| 亚洲精品国产品国语在线app| 欧美欧美在线| 亚洲欧美日韩在线高清直播| 国产一区香蕉久久| 蜜桃精品一区二区三区| 99热这里只有精品8| 国产精品私房写真福利视频| 久久久久久久综合狠狠综合| 亚洲国产高清在线观看视频| 欧美日韩中文字幕| 午夜精品久久久久久久白皮肤| 狠狠入ady亚洲精品经典电影| 欧美大胆a视频| 欧美激情第三页| 亚洲人成在线播放| 国产精品免费久久久久久| 久久久精彩视频| 亚洲精品日日夜夜| 国产欧美二区| 欧美黄色小视频| 亚洲欧美春色| 亚洲激情在线视频| 国产精品日韩二区| 欧美成人一区二区三区在线观看| 亚洲一区日本| 亚洲国产片色| 国产精品天天看| 欧美成人免费观看| 午夜精品一区二区三区电影天堂 | 在线欧美日韩国产| 欧美视频四区| 久久综合狠狠| 亚洲综合色噜噜狠狠| 一色屋精品视频免费看| 欧美亚男人的天堂| 久久久久久一区二区| 亚洲五月六月| 伊人色综合久久天天五月婷| 欧美性感一类影片在线播放| 久久中文字幕一区二区三区| 亚洲影院在线| 最新日韩精品| 国内精品久久久久伊人av| 欧美丝袜一区二区三区| 另类天堂av| 亚洲欧美日韩综合| 亚洲人永久免费| 国产一区二区三区久久精品| 欧美日韩在线不卡一区| 每日更新成人在线视频| 午夜在线电影亚洲一区| 99国产精品视频免费观看一公开 | 一区二区黄色| 亚洲高清不卡| 国产真实乱子伦精品视频| 国产精品久久久| 欧美日本在线观看| 蜜臀av一级做a爰片久久| 欧美一二三视频| 亚洲天堂偷拍| 亚洲精品在线视频观看| 尤物精品在线| 国产亚洲午夜| 国产精品腿扒开做爽爽爽挤奶网站| 欧美啪啪成人vr| 麻豆精品在线视频| 久久精品国产欧美亚洲人人爽| 亚洲欧美另类国产| 中文一区二区| 一本综合精品| 99av国产精品欲麻豆| 亚洲欧洲日产国产网站| 在线观看日韩www视频免费 | 亚洲综合色网站| 宅男66日本亚洲欧美视频 | 久久婷婷人人澡人人喊人人爽 | 欧美性理论片在线观看片免费| 欧美精品一区二区久久婷婷| 麻豆精品视频在线观看| 久久免费黄色| 久久久久99| 久久裸体视频| 久久久久久自在自线| 久久se精品一区精品二区| 欧美一二三视频| 亚洲欧美一区二区三区在线| 亚洲午夜激情| 亚洲综合色在线| 国产精品久久毛片a| 欧美日韩亚洲综合| 欧美色欧美亚洲另类二区| 欧美日韩国产在线| 欧美日韩国产成人在线免费 | 欧美色图一区二区三区| 欧美视频在线观看视频极品| 欧美三级网址| 欧美视频免费在线| 国产精品久久久久久久久搜平片| 国产精品狠色婷|