精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SOTA大模型遇上加密數據評測:Qwen3未破10%,o1也栽了丨上海AI Lab等聯合研究

人工智能 新聞
上海AI Lab等聯合推出的CipherBank評測,用海量真實隱私場景數據和多類型密碼算法,硬核挑戰SOTA大模型。

大語言模型遇上加密數據,即使是最新Qwen3也直冒冷汗!

盡管當前的推理模型在各類基準測試中展現出卓越的性能,但在密碼學這一對邏輯嚴密性細節精確度要求近乎苛刻的專業領域,模型的推理能力仍有待深入探索。

密碼學不僅需要模型具備高階數學運算能力和嚴密的邏輯推理鏈條,更要求其能夠精準識別復雜加密模式中的潛在規律;成功解密需要模型具有極強的綜合推理能力

上海AI Lab等聯合推出的CipherBank評測,用海量真實隱私場景數據和多類型密碼算法,硬核挑戰SOTA大模型。

圖片

CipherBank的評測結果顯示,當前的大語言模型在密碼學解密任務上整體表現不佳,最優模型準確率未能過半絕大多數模型準確率不足20%,表明結構化和符號化推理仍是它們的顯著短板。

在CipherBank評測中,Claude-3.5-Sonnet和o1表現最佳,DeepSeek系列略優于通用模型,而 GPT-4o、Gemini等模型表現平庸,Qwen2.5, Llama3.1, Llama3.3等開源模型表現較差,即使是最新發布的Qwen3系列模型表現也不盡人意,30B和32B的模型準確率均未超過10%;整體顯示當前大模型在解密推理任務上仍存在明顯短板。

CipherBank:專門用來考驗大模型解密能力的測試題庫

CipherBank是一個全面真實精妙的密碼學解密基準測試集。它不僅僅是隨機文本的加密,而是精心構建了貼近現實世界隱私敏感場景的明文數據。

數據:涵蓋5大領域(如個人隱私、金融資產)、14個子領域(如身份信息、銀行信息)、89個細粒度標簽,共262個獨特明文。這些數據反映了真實的加密需求。

算法:包含3大類(替換密碼、置換密碼、自定義密碼)、9種典型及創新加密算法,從經典的Rot13、Vigenère到定制的DualAvgCode、ParityShift、WordShift等。設計了5個難度層級,從基礎到專家,全方位考驗模型的解密能力。

題庫:總共生成了2,358道 經過嚴格驗證的解密題目。每一題,都是對LLM推理能力的嚴峻拷問!

圖片

用研究者的話說:CipherBank,就是要讓LLMs在沒有“場外提示”的情況下,純靠本事闖過重重“密室”。

SOTA 模型實測:集體“滑鐵盧”,最高分未過半

研究團隊邀請了當前AI界的18位“頂流”選手(包括GPT家族、DeepSeek系列、Gemini系列、Claude 3.5、o1系列等)進行了這場硬核PK。

評估采用 3-shot 設置。模型拿到的是幾個明文-密文示例,需要像一位真正的密碼分析師一樣,從這些例子中自主學習加密規則、推斷密鑰,最終才能解密全新的密文。這評估的是真正的推理能力,而不是簡單的“記憶”或“窮舉”。

圖片圖片

集體“不及格”?:令人震驚的是,絕大多數SOTA模型得分慘淡,部分甚至接近零分。即使是表現最好的Claude-3.5和o1,準確率也未能突破50%。這說明,即使是古典密碼解密,對目前的LLMs來說依然是一個巨大的未被攻克的堡壘。

推理模型「略有優勢」:推理優化模型(DeepSeek-R1, o1)的平均表現確實優于通用聊天模型,這再次印證了推理優化在邏輯任務上的價值,但差距并沒有拉開到大家想象的那么大。

閉源模型「暫時領跑」:Claude-3.5以顯著優勢領跑,在替換密碼、置換密碼上展現了非凡能力,o1緊隨其后。但DeepSeek-V3/R1等開源模型的進步也很亮眼,正在奮力追趕。

性能差異「驚人」:同類模型在解密任務中的表現差異較大,例如o1與QwQ-32B-Preview的準確率相差幾十倍。

除此之外,研究團隊還對全新發布的Qwen3 32B系列模型進行了測試,發現即使是最新發布的Qwen3模型,測試準確率依舊不足10%

圖片

剝繭抽絲:大模型為何在解密上“犯難”?

為什么LLMs在解密上這么“掙扎”?研究團隊進一步做了細致分析:

怕長文本: 文本越長,模型越容易出錯!與人類解密不同,人類一旦成功找到解密方法之后,便能以近100%的成功率破解,而LLMs的“腦容量”在解密時會受到長度限制。

圖片

怕噪音干擾 :明文中加點兒錯別字或無關信息,模型性能“閃崩”!這暴露了模型在“猜測”而非“推理”——它們不是嚴格按規則解密,而是依賴文本的語義順暢度,一旦語義被破壞,就歇菜了。

怕數字轉換 :加密內容里混入數字?難度瞬間飆升!LLMs在處理涉及數字的轉換規則時顯得尤為吃力。

“提示”依賴癥 :如果在Prompt里直接告訴模型是什么算法,推理模型表現會大幅提升,而通用模型提升有限。這說明推理模型在“有向”推理時更有效,但自主從示例中發現規則的能力還不足。

圖片

錯誤分析:模型到底錯在哪兒?

研究團隊對模型的錯誤輸出進行了細致分類(遺漏/插入、姓名解密錯誤、語義推斷、重組、推理失敗等),將模型的錯誤分布總結為下圖(左圖為Chat model錯誤分布,右圖為Reasoning model的錯誤分布),并發現了一些有意思的現象:

圖片

推理模型「想太多」:有時在簡單的算法(比如Reverse)上,推理模型反而會“過度分析”,繞了遠路最終出錯。

對話模型「愛腦補」:更傾向于生成語義通順但并未完全符合解密規則的文本,容易出現“遺漏/插入”或“重組”錯誤,像是在“自由發揮”。

「姓名識別」的通病 :處理姓名等專有名詞的解密時,模型們普遍容易出錯,這可能是預訓練數據帶來的某種“記憶”干擾。

未來展望

那么,未來的 AI 應該往哪個方向努力,才能征服密碼解密這座“高山”呢?CipherBank的結果為人們指明了幾個關鍵的突破口:

擺脫「過度語義依賴」:讓模型訓練出純粹的、抽象的符號和結構化推理能力,不再僅僅依賴表面文本的“猜意思”或進行“語義補全”,尤其在處理不具備強語義規律的加密數據時。

增強「模式學習與泛化」:提升模型從少量示例中精準對比分析、高效提取隱含加密規則和密鑰的能力,并能將這些規則穩健地泛化應用于各種情況,包括處理混合文本(如數字與字母)以及對抗輕微的噪音干擾。

優化「推理執行的穩定性」:改進模型的思考流程,避免在看似簡單的任務上“過度思考”或陷入不必要的遞歸修正,確保推理過程更加直接、高效和穩定,能夠精確無誤地執行推斷出的解密步驟。

未來,大語言模型有望在密碼學領域取得更加顯著的進展。

項目主頁:https://cipherbankeva.github.io/

論文直達:https://arxiv.org/abs/2504.19093

測試數據:https://huggingface.co/datasets/yu0226/CipherBank

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-08 13:08:55

2025-04-29 09:06:00

2025-07-22 12:44:53

2025-09-05 09:02:00

2025-03-05 10:21:04

DeepSeekLVLM

2024-11-05 14:20:00

AI模型

2025-11-05 09:00:29

2025-09-15 08:52:00

AI模型開源

2025-04-29 07:47:27

2025-06-18 09:03:07

2025-09-26 10:59:55

AI模型數據

2025-05-06 00:35:33

2025-07-16 09:05:00

AI評測模型

2025-05-21 09:04:38

2024-09-24 11:01:03

2025-01-23 14:53:15

2024-09-18 09:17:00

OpenAI模型開源

2025-10-24 08:39:41

2025-04-30 10:59:04

2024-09-13 10:06:21

點贊
收藏

51CTO技術棧公眾號

成人激情小说网站| 亚洲精品tv久久久久久久久久| 欧美午夜性色大片在线观看| 日本一区二区精品| 国产内射老熟女aaaa∵| 精品动漫一区| 中日韩美女免费视频网站在线观看| 午夜宅男在线视频| h片精品在线观看| 欧美国产禁国产网站cc| 国产精品国产亚洲精品看不卡15| 亚洲黄色免费观看| 欧美日本不卡高清| 夜夜嗨av一区二区三区四区| 妖精视频在线观看| 桃色一区二区| 亚洲宅男天堂在线观看无病毒| 日本不卡一区二区三区在线观看| 国产人妖一区二区| 日韩国产精品久久久| 久久久亚洲影院| 日本裸体美女视频| 久久99久久人婷婷精品综合| 日韩欧美在线网站| 色婷婷成人在线| 偷拍自拍在线看| 一区二区三区四区在线播放| 天天综合狠狠精品| 你懂的视频在线| 成人三级在线视频| 亚洲已满18点击进入在线看片| 久操视频在线免费观看| 99热这里只有成人精品国产| 九九久久精品一区| 在线观看黄网址| 欧美日韩一二| 亚洲免费视频观看| 91精品小视频| 97久久精品| 日韩午夜精品电影| 欧美又黄又嫩大片a级| 巨大黑人极品videos精品| 欧美日韩国产综合视频在线观看中文| 最近免费观看高清韩国日本大全| 免费黄色在线视频网站| 懂色av噜噜一区二区三区av| 国产欧美一区二区三区四区| 日本免费在线观看视频| 青青草综合网| 亚洲国产精品va在线看黑人动漫| 手机av在线网站| 久久久久毛片| 欧美性生交片4| av观看免费在线| а√天堂8资源中文在线| 国产精品成人免费| 午夜精品亚洲一区二区三区嫩草| 午夜视频免费看| 国产一区二区精品在线观看| 成人av在线亚洲| 亚洲 小说区 图片区| 久久天天综合| 国产成人精品免高潮在线观看| 国产成人愉拍精品久久 | 国产欧美日韩一级| 欧美激情视频在线免费观看 欧美视频免费一| 鲁丝一区二区三区| 国产精品嫩模av在线| 日韩经典中文字幕| jizz欧美性20| 久久不见久久见国语| 国产一区二区三区丝袜| 人人爽人人爽人人片| 国产欧美一区二区三区精品观看| 亚洲黄色免费三级| 人妻在线日韩免费视频| 亚洲大片精品免费| 亚洲剧情一区二区| 小早川怜子久久精品中文字幕| 奇米色欧美一区二区三区| 日韩大片免费观看视频播放| 色呦呦一区二区| 免费观看久久av| 亚洲人成在线免费观看| 手机看片福利视频| 欧美电影《轻佻寡妇》| 久久综合伊人77777| 国产成人自拍网站| 欧美黄色一级视频| 97人人做人人爱| 国产精品熟女视频| 麻豆成人久久精品二区三区红 | 精品精品国产高清一毛片一天堂| 精品人妻在线视频| 亚洲另类av| 亚洲人成亚洲人成在线观看| 成年人午夜剧场| 亚洲精品九九| 国产精品国模在线| 99在线观看精品视频| caoporm超碰国产精品| 奇米精品在线| 亚洲精品天堂| 91福利在线导航| 三级黄色片播放| 欧美三级电影在线| 尤物九九久久国产精品的分类| 26uuu成人网| 国产精品多人| 日本高清视频精品| 国产精品无码粉嫩小泬| 国产一区999| 蜜桃av噜噜一区二区三| 黄色片网站在线| 午夜成人免费电影| 最新中文字幕免费视频| 精品视频一区二区三区| 亚洲欧美999| 青青草原免费观看| 噜噜噜久久亚洲精品国产品小说| 亚洲一区久久久| 成人网视频在线观看| 亚洲影院在线观看| 超碰在线人人爱| 女同一区二区三区| 欧美成人午夜剧场免费观看| 国产成人麻豆免费观看| 成人av动漫在线| 国产对白在线播放| 自拍偷拍亚洲视频| 亚洲第一精品久久忘忧草社区| 国产精品成人在线视频| 亚洲黄网站黄| 91大片在线观看| 麻豆tv入口在线看| 日本福利一区二区| 亚洲午夜久久久久久久久| 97人人精品| 日韩免费在线免费观看| 亚洲女同志亚洲女同女播放| 亚洲欧美日韩在线| 粉嫩虎白女毛片人体| 免费一级欧美在线大片| 最近中文字幕日韩精品 | 亚洲视频成人| 成人午夜电影免费在线观看| 精品美女在线观看视频在线观看| 91成人国产精品| 在线观看国产三级| 伊人久久综合| 国产成人免费电影| 日本一级理论片在线大全| 欧美日韩国产小视频| 波多野吉衣中文字幕| 在线日本高清免费不卡| 91传媒在线免费观看| 成人av福利| 51精品久久久久久久蜜臀| 欧美爱爱免费视频| 国产一本一道久久香蕉| 自拍偷拍视频在线| 羞羞视频在线观看一区二区| 亚洲最新av在线| 欧美国产一级片| 国产日韩欧美电影| 欧美精品一区二区三区免费播放| 婷婷精品在线观看| 2019av中文字幕| 欧洲天堂在线观看| 亚洲成av人片在www色猫咪| 国产吞精囗交久久久| 久久精品一区二区国产| 日本免费高清一区| 欧美成人app| 日韩网站免费观看| 国产伦精品一区二区三区四区| 综合久久久久综合| av在线免费观看不卡| 欧美激情五月| 精品不卡在线| 成人国产二区| 色噜噜狠狠色综合网图区| 国产深喉视频一区二区| 亚洲成人免费在线观看| 欧美 日本 国产| 日韩中文字幕1| 一区二区三区四区在线视频| 久久亚洲精精品中文字幕| 九九热这里只有在线精品视| 日本黄色大片视频| 日本二三区不卡| 欧美在线视频第一页| 国产一区啦啦啦在线观看| 经典三级在线视频| 欧美网色网址| 国产精品久久久久久久久久免费 | 正在播放亚洲1区| 国产口爆吞精一区二区| 亚洲图片欧美视频| 少妇久久久久久久久久| 国产在线一区观看| 福利视频免费在线观看| 成人精品视频| 国产98在线|日韩| 欧美成人精品一区二区男人小说| 丝袜美腿精品国产二区| 亚洲黄色a级片| 欧日韩精品视频| 青青草成人免费| 国产色产综合色产在线视频| 善良的小姨在线| 韩国精品一区二区三区| 视频一区视频二区视频三区视频四区国产 | 国产一级久久久久毛片精品| 国产精品一区二区x88av| 可以在线看的av网站| 日本欧美肥老太交大片| 国产自产精品| 成人av色网站| 69精品小视频| 国产黄色在线免费观看| 亚洲美女中文字幕| 亚洲福利在线观看视频| 一本大道av一区二区在线播放| 18岁成人毛片| 欧美高清在线一区二区| 日韩片在线观看| 国产高清亚洲一区| 性生生活大片免费看视频| 午夜亚洲视频| 99在线免费视频观看| 久久久久免费av| 日韩欧美精品在线不卡| 911精品国产| 国产女人18毛片水18精品| videos性欧美另类高清| 久久久久久久网站| 麻豆影院在线| 一区二区亚洲欧洲国产日韩| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻av无码一区二区三区 | 久久免费国产| www.亚洲视频.com| 在线电影一区二区| 亚洲午夜精品一区二区三区| 免费看日本一区二区| 国产精品v欧美精品v日韩精品| 国内自拍亚洲| 国产精品久久久久久一区二区| 松下纱荣子在线观看| 韩国19禁主播vip福利视频| 日本大片在线播放| 欧美成人精品一区| 91三级在线| 日韩在线中文字幕| av在线三区| 这里只有精品在线播放| 91sp网站在线观看入口| 在线电影中文日韩| 女人天堂在线| 亚洲最大中文字幕| av网站无病毒在线| 最近中文字幕日韩精品| 午夜看片在线免费| 日韩在线观看免费网站 | 成年无码av片在线| 国产视频一区二区| 欧美成人免费在线视频| 在线中文字幕视频观看| 欧美老少配视频| av免费网站在线观看| 午夜精品一区二区三区在线播放 | 人人爽久久涩噜噜噜网站| 久久爱91午夜羞羞| 97国产精品久久| 另类中文字幕国产精品| 国产成人福利视频| 涩涩涩久久久成人精品| 国产精自产拍久久久久久| 中文字幕一区二区三区中文字幕 | 日韩极品在线| 日本午夜精品一区二区| 久久视频在线| av 日韩 人妻 黑人 综合 无码| 国产综合婷婷| 亚洲熟妇av一区二区三区漫画| 日韩高清不卡一区二区| 天天爽人人爽夜夜爽| 国产福利91精品一区二区三区| 中文字幕18页| 国产亚洲欧美中文| 老熟妇高潮一区二区三区| 亚洲一区二区三区小说| 无码视频在线观看| 欧美一区日本一区韩国一区| 免费观看a视频| 伊人久久免费视频| 性网站在线观看| 欧美做受高潮电影o| 欧美高清你懂的| 黑人中文字幕一区二区三区| 欧美系列电影免费观看| 国产精品av免费观看| 久久精品在线| 不许穿内裤随时挨c调教h苏绵| 91丝袜国产在线播放| 2017亚洲天堂| 亚洲国产sm捆绑调教视频 | 欧美日韩经典丝袜| 国产精品白嫩初高中害羞小美女 | 2019中文字幕在线观看| 成人免费视频观看| 久久综合九色综合久99| 久久久国产精品| 国产精品久久中文字幕| 麻豆91精品91久久久的内涵| 亚洲中文字幕无码一区| 日韩毛片一二三区| 无码人妻精品一区二区蜜桃色欲| 欧美精品久久久久久久多人混战| 性xxxx视频| 欧美wwwxxxx| 精品176极品一区| 免费看污久久久| 欧美日韩国产免费观看| 国产精品人人爽人人爽| 91免费在线播放| 九九精品在线观看视频| 欧美日韩视频第一区| 午夜小视频免费| 欧美黑人巨大精品一区二区| 国产成人久久精品麻豆二区| 久久综合入口| 真实国产乱子伦精品一区二区三区| 国产精品区在线| 久久久久久影视| 国产午夜免费视频| 91精品国产综合久久久蜜臀图片| 无码精品人妻一区二区| 另类色图亚洲色图| 日韩精品成人在线观看| 亚洲一区二区三区加勒比 | 欧美日韩aaaa| 日本伊人久久| 亚洲最新免费视频| 蜜臂av日日欢夜夜爽一区| 中文字幕在线观看免费高清| 无码av中文一区二区三区桃花岛| 丰满人妻一区二区| 欧美精品18videosex性欧美| 蜜桃精品一区二区三区| 国产一区一区三区| 久草这里只有精品视频| 国产一二三四视频| 欧美性感一类影片在线播放| 91大神xh98hx在线播放| 91精品国产综合久久久久久久久| 日韩1区2区| 亚洲性图一区二区| 国产精品欧美极品| 一级黄色大毛片| 亚洲人在线观看| 国产精欧美一区二区三区蓝颜男同| 九九九九精品九九九九| 中文欧美日韩| 国产精品亚洲无码| 色av综合在线| 免费在线国产| 91亚洲精品在线观看| 一区二区三区四区电影| 亚洲一区二区图片| 亚洲精品高清在线| 亚洲春色一区二区三区| 欧美激情国内偷拍| 蜜桃a∨噜噜一区二区三区| 人妻精品无码一区二区三区| 久久精品亚洲麻豆av一区二区| 中文字幕乱码中文字幕| 久久影院资源网| 凹凸成人在线| 欧美精品性生活| 亚洲视频每日更新| 国精品人妻无码一区二区三区喝尿| 久久久免费在线观看| 国产成人精品三级高清久久91| 国产男女无遮挡| 18欧美乱大交hd1984| 成人黄色免费视频| 9.1国产丝袜在线观看| 精品国产欧美日韩| 国产91在线免费观看| 亚洲国产一区视频| 国产精品免费观看| 亚洲va国产va天堂va久久| 影音先锋国产精品| 美女被到爽高潮视频| 69av一区二区三区| 超碰97免费在线| 亚洲欧美国产一区二区| 处破女av一区二区| 亚洲 欧美 日韩 在线|