精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法? 精華

發布于 2025-2-14 12:28
瀏覽
0收藏

我們都知道,普通大模型的數學能力并不好,甚至可能會搞不清楚 9.8 和 9.11 哪個大。但隨著 o1、o3 以及 DeepSeek-R1 等推理模型的到來,情況正在發生變化。比如 DeepSeek-R1 在競賽數學基準 AIME 2024 上達到了 79.8% 的準確度,成就了自己頭號開源推理模型的地位。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

而根據 OpenAI 發布的數據,o3-mini (high) 在 AIME 2024 上的準確度更是達到了 87.3%,預計 o3 滿血版的成績還會更好。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

但即便如此,這些強大的推理模型卻依然常常在一類看起來相當簡單的數學問題上栽跟頭,那就是簡單的乘法算法,尤其是多位數乘法。


去年 9 月,滑鐵盧大學助理教授鄧云天(Yuntian Deng)在 ?? 上分享了自己的一個實驗結果:通過讓 o1 計算最多 20x20(20 位數乘 20 位數)的乘法,發現該模型到 9x9 乘法之后準確度就不好看了,而 GPT-4o 更是在 4x4 時就會難以為繼。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

以下是詳細結果:

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

前兩天,鄧云天又分享了 o3-mini 的「多位數乘法考試」成績。結果嘛,確實相較于 o1 有進步,但當位數超過 13 位時,準確度表現依然會嚴重下滑。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

以下是詳細結果:

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

看起來,至少在多位數乘法任務上,非智能的計算器比推理大模型更可靠。


看到這個消息后,機器之心也去試了試 DeepSeek-R1 能否計算多位數乘法。首先,我們嘗試了讓兩個隨機寫的 9 位數相乘:456347891 乘以 390869523 等于多少?令人驚訝的是,DeepSeek-R1 在思考了足足 240 秒之后成功給出了正確答案。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

接下來我們又試了兩個 15 位數的相乘:569815324865789x698437369846583=? 

這一次 DeepSeek-R1 思考的時間卻更短,為 114 秒,但給出了一個很接近但依然錯誤的答案。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

根據計算器的結果,正確答案應該是 397980316797537914439995248987。


可以看到由于「服務器繁忙」,我們在這里嘗試了 4 次才成功獲得響應;而在另一次使用更加穩定的???火山方舟?? API 版 DeepSeek-R1 的嘗試中,還得到了另一個不同的結果:397816402510166516760347336987。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

所以,LLM 真沒有能力正確執行多位數乘法嗎?


并不一定,轉折馬上就來了。


就在上面那條推文之下,微軟研究院研究科學家、威斯康星大學麥迪遜分校副教授 Dimitris Papailiopoulos 表示這個問題已經解決了。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

他領導的一個研究團隊發現,不管是乘法,還是加法、迷宮求解和從易到難的泛化,都可以基于標準的 Transformer 加以解決,方法就是使用「遞歸式自我提升」。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

下面是一個小模型教自己加法時的準確度表現:

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

Transformer 果真是神一樣的發明:Attention Is All You Need

下面我們就來看看 Papailiopoulos 團隊究竟得到了什么發現。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

  • 論文標題:Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges
  • 論文地址:https://arxiv.org/pdf/2502.01612

Transformer 的長度泛化問題

基于 Transformer 的語言模型取得成功已經無需多談,它們已經有能力解決大量不同類型的任務。但是,它們在長度泛化(length generalization)方面依然有著巨大的局限性。也就是說,模型很難將自己的能力外推到比訓練期間見過的序列更長的序列。


就比如簡單的算術任務,一般的使用自回歸目標訓練的標準 Transformer 使用的訓練數據通常位數不多,當出現高位數算術運算時,這些模型常常表現不佳。


之前也有不少研究者試圖解決這個問題,采用的方法包括改用位置嵌入、修改架構、修改數據格式等。


不過,這些方法雖然在受控的實驗環境中很有效,但卻與 LLM 實際的訓練方式不兼容。原因也很簡單,這些修改方式都是針對具體任務實現的,我們不清楚這些修改能在多大程度上或以什么方式遷移到通用設置。

解決方案:遞歸式自我提升

為此,Papailiopoulos 團隊研究了 Transformer 展現出的一個有趣現象:transcendence,也就是「超越性」。


簡單來說,超越性是指學生模型在訓練期間泛化超過教師模型提供的數據難度的能力。2024 年 OpenAI 與哈佛大學等機構的一篇論文《Transcendence: Generative Models Can Outperform The Experts That Train Them》最早描述了這一現象。


具體來說,在任務的簡單實例(例如 n 位算術運算)上訓練的模型有時可為稍微困難的實例(例如 n + 1 位算術運算)生成正確的輸出。


Papailiopoulos 團隊利用這一現象構建了一個自我提升框架,其中模型可以迭代地生成自己的訓練數據并遞進地學習更困難的示例樣本。下圖展示了該團隊的自我改進流程:

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

在 AI 領域,自我提升并不是一個新鮮詞匯。通常來說,為了保證數據質量,自我提升大都需要外部驗證器、弱監督或過濾機制。下面展示了實驗中采用的兩種數據過濾方法。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

該團隊的研究表明:在這個框架下,極端的長度泛化確實是可能的,而無需對基礎 Transformer 架構進行任何修改。對于反向相加和字符串復制等任務,自我改進無需顯式的數據過濾即可成功。然而,對于乘法和尋找迷宮最短路徑等更難的問題,沒有數據過濾的自我改進會因錯誤累積而失敗。他們的研究表明,簡單的過濾技術(例如長度過濾和多數投票)足以保持數據質量,并可實現大幅超越其初始訓練分布的自我改進。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

不僅如此,該團隊還發現,自我改進不僅限于長度泛化,還可以實現從易到難的泛化,即在簡單任務上訓練的模型無需額外監督即可成功學習更難的任務。值得注意的是,該方法并沒有引入新的自我改進框架,而是展示了其在各種算法任務中的有效性。


此外,他們還研究了自我改進的動態,并得到了以下發現:


首先,控制從弱到強的歷程非常重要,因為為了避免災難性失敗,模型需要結構化的難度調度計劃。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

第二,自我改進會隨著時間的推移而加速,因為更困難的示例樣本會帶來越來越大的好處,在某些情況下會實現指數級的外推。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

最后,如果從預訓練模型開始,可以顯著加快自我改進速度,從而比使用從頭開始訓練的模型更快地實現泛化

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

該團隊總結說:「我們的研究結果提供了證據,表明對于長度泛化和從易到難泛化,學習自我改進是一種通用且可擴展的解決方案。


那么,Transformer 大模型能做多位數乘法了嗎?


回到最開始的問題,如果使用自我改進,基于 Transformer 的大模型能就能做多位數乘法了嗎?


先來看看實驗結果,當組合使用多數投票與長度過濾時,31 輪提升后,實驗模型能在 9 位數以內的乘法上達到近乎完美的表現。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

而如果使用該團隊精心設計的一種自我改進調度方案,提升速度還能大大提升:在 19 輪內就能在 10 位數以內的乘法上達到近乎完美。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

不過,或許是實驗成本方面的考慮,該團隊并未實驗更多位數的乘法。但至少從趨勢上看,這種自我提升策略確實是可行的。


那么,問題來了:現在的大模型已經開始有能力使用工具了,對于這樣的算術運算,為什么不直接讓大模型調用一個計算器應用呢?


對此,Dimitris Papailiopoulos 給出的答復是可以研究 Transformer 可以如何學習算法以及如何讓 Transformer 在比其訓練數據更困難的數據上取得更好的表現。

啊!DeepSeek-R1、o3-mini能解奧數題卻算不了多位數乘法?-AI.x社區

本文轉自機器之心  ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/nFltEWUts-8IM1z5GawlYw??

收藏
回復
舉報
回復
相關推薦
亚洲另类xxxx| 欧美日韩亚洲精品内裤| 亚洲va欧美va国产综合久久| 九九九久久久久| 日韩有码一区| 欧美日韩国产免费| www精品久久| 国产免费av在线| 国产成人精品一区二| 欧洲成人在线观看| 无码黑人精品一区二区| 日韩大尺度在线观看| 欧美麻豆精品久久久久久| 无码熟妇人妻av在线电影| 免费福利在线观看| 欧美视频导航| 一区二区三区视频免费| 成人黄色一区二区| 特级毛片在线| 国产精品三级视频| 国产精品视频免费一区| 一区二区视频网站| 亚洲欧美日韩国产一区| 精品视频偷偷看在线观看| 波多野结衣xxxx| а√天堂8资源在线| 中文字幕一区二区三| 蜜桃视频在线观看成人| 精品久久久久成人码免费动漫| 欧美.日韩.国产.一区.二区| 亚洲人成77777在线观看网| 欧美xxxx黑人| 久久久久伊人| 在线观看日韩国产| 伊人久久av导航| 国产理论视频在线观看| 日韩av中文字幕一区二区| 韩国精品久久久999| 青青草手机在线视频| 久久亚洲成人| 伊人成人开心激情综合网| www国产视频| 91亚洲无吗| 日韩视频免费直播| 成人中文字幕在线播放| 色www永久免费视频首页在线| 成人av在线一区二区| 亚洲影影院av| 免费看日批视频| 一本不卡影院| 午夜精品国产精品大乳美女| 国产在线一二区| 国产精品红桃| 欧美精品videosex牲欧美| 老湿机69福利| 日韩欧美中文字幕电影| 亚洲第一色在线| 五月婷婷六月合| 欧美日韩亚洲国产| 欧亚一区二区三区| 在线视频日韩一区| 福利精品一区| 欧美美女一区二区在线观看| aaa一级黄色片| 国产精品亚洲一区二区在线观看| 高潮白浆女日韩av免费看| 人妻av中文系列| 国产精品蜜芽在线观看| 欧美日韩性视频| 久草精品在线播放| 台湾成人免费视频| 欧美日韩成人一区| 91视频免费入口| 国产+成+人+亚洲欧洲在线| 亚洲黄一区二区| 手机免费看av| 久久精品亚洲人成影院 | 不卡的免费av| 夜夜嗨一区二区三区| 国产成人精品久久二区二区91| 久久丫精品久久丫| 中文亚洲字幕| 国产精品免费电影| 国产视频一区二区三| 成人性生交大片免费看视频在线 | 亚洲免费激情视频| 一本色道88久久加勒比精品| 欧美成人三级视频网站| 日韩精品一区二区av| 久久婷婷激情| 亚洲free性xxxx护士hd| 免费a级片在线观看| 久久久久久久免费视频了| 最新国产精品久久| 国产激情在线播放| 欧美高清dvd| 亚洲午夜久久久久久久久| 精品日韩一区| 欧美激情手机在线视频 | 国产日韩欧美中文| а√天堂资源在线| 国产欧美综合色| 亚洲国产精品无码观看久久| 精品欧美日韩精品| 欧美日韩国产影院| 亚洲精品蜜桃久久久久久| 国内在线视频| 欧美系列在线观看| 国产一级免费片| 99久久久久国产精品| 91成人性视频| 性一交一乱一乱一视频| 亚洲国产精品av| 亚洲熟妇国产熟妇肥婆| 久久69av| 一级做a爰片久久毛片美女图片| 97人妻人人揉人人躁人人| 黄色亚洲免费| 成人午夜在线观看| 亚洲AV无码国产精品午夜字幕 | 日韩精品人妻中文字幕有码| 日韩精品久久| 欧美一区二区视频97| 精品人妻一区二区三区浪潮在线| 国产91丝袜在线播放0| 一区二区不卡在线观看| gogo在线高清视频| 亚洲一区二区在线免费观看视频| 妞干网在线观看视频| 欧美日韩伦理一区二区| 亚洲图中文字幕| 亚洲日本视频在线观看| 青青草伊人久久| 亚洲a级在线观看| 蜜芽在线免费观看| 91极品视觉盛宴| 少妇光屁股影院| 日韩一级大片| 精品久久蜜桃| 三妻四妾的电影电视剧在线观看 | 成人3d动漫一区二区三区| 加勒比色老久久爱综合网| 久久国产精品免费视频| 一区二区三区精| 中文字幕在线不卡视频| 国产一线二线三线女| 一区二区精彩视频| 欧美高清电影在线看| 99久久久国产精品无码网爆| 91在线精品秘密一区二区| 97中文字幕在线| 欧美影视资讯| 在线视频免费一区二区| www.久久网| 中文字幕一区二区三区四区 | 国产日产高清欧美一区二区三区| 国产成人a亚洲精品| 三级在线播放| 亚洲精品伦理在线| 三大队在线观看| 伊人精品成人久久综合软件| 国内精品视频免费| 中文字幕成在线观看| 国产网站欧美日韩免费精品在线观看| 国产男女猛烈无遮挡在线喷水| 亚洲麻豆视频| 久久影视中文粉嫩av| 精品3atv在线视频| www.亚洲成人| www国产一区| 天天亚洲美女在线视频| 精品人妻一区二区乱码| 极品裸体白嫩激情啪啪国产精品| 国产色视频一区| 中文在线观看免费| 亚洲第一色在线| 五月婷婷丁香在线| 亚洲欧美日韩精品久久久久| 无码人妻aⅴ一区二区三区玉蒲团| 国产高清久久| 懂色av一区二区三区在线播放| 欧美成人hd| 欧美大黄免费观看| 国产精品免费精品一区| 中文字幕一区免费在线观看| 99re精彩视频| 欧美日韩ab| 免费精品视频一区二区三区| 欧美美女被草| 欧美性做爰毛片| 日本韩国在线视频爽| 少妇性l交大片| 日韩视频在线直播| 97在线看福利| 91在线播放网站| 日韩一区二区三区视频| 毛片视频网站在线观看| 国产精品久久久久一区二区三区| 欧美成人黄色网址| 欧美网站在线| 日本欧美色综合网站免费| 高清国产一区二区三区四区五区| 日韩在线观看高清| 伊人成人在线观看| 午夜伦理一区二区| 殴美一级黄色片| 99久久综合精品| 国产免费黄色小视频| 日韩一级毛片| 国产一区免费在线| av在线成人| 国产成人一区三区| 好看的中文字幕在线播放| 日韩中文字幕网| 久久久pmvav| 精品区一区二区| 一级特黄aaa大片| 亚洲色图视频免费播放| 青娱乐精品在线| 麻豆精品网站| 亚洲欧洲日本国产| 色婷婷狠狠五月综合天色拍 | 亚洲а∨天堂久久精品2021| 成人小视频免费在线观看| 2018日日夜夜| 午夜激情一区| 综合视频免费看| 成人av资源电影网站| 另类欧美小说| 亚洲精品无播放器在线播放| 国产不卡av在线免费观看| 毛片在线播放a| 亚洲精品一区二区三区影院| 国产又大又黄又爽| 欧美日韩国产影片| 国产一级一片免费播放放a| 国产精品视频观看| 国产香蕉精品视频| 久久久久.com| 免费黄色日本网站| 国产欧美成人| 97国产精东麻豆人妻电影| 国产精品mm| 高清无码一区二区在线观看吞精| 日韩精品社区| 裸模一区二区三区免费| 老牛精品亚洲成av人片| 狠狠综合久久av| 精品少妇一区| 久久久久资源| 视频一区中文| 日韩在线三级| 三上亚洲一区二区| 亚洲 欧洲 日韩| 亚洲欧美在线专区| 91精品国产吴梦梦| 国产伊人精品| 日日碰狠狠添天天爽超碰97| 在线亚洲一区| 男人舔女人下面高潮视频| 日韩**一区毛片| 亚洲天堂av线| 亚洲人人精品| 女人和拘做爰正片视频| 久久中文字幕一区二区三区| 美女黄色片视频| 九九视频精品免费| 日本wwww色| 91丨porny丨首页| 性高潮久久久久久久| 欧美国产精品中文字幕| 久草福利资源在线| 国产欧美日韩精品a在线观看| 亚洲麻豆一区二区三区| 99九九99九九九视频精品| 91精彩刺激对白露脸偷拍| 国产女人18水真多18精品一级做| 黄色a一级视频| 国产婷婷一区二区| 精品夜夜澡人妻无码av| 国产精品色哟哟网站| 538任你躁在线精品视频网站| 中文字幕日韩欧美一区二区三区| 中字幕一区二区三区乱码| 国产精品不卡一区二区三区| 国产精品第一页在线观看| 一区二区三区四区不卡在线| 精品国产乱码一区二区| 欧美日韩在线播| 亚洲狼人综合网| 原创国产精品91| 欧美野外wwwxxx| 国产精品久久一区| 99久久久国产精品免费调教网站| 国产精品福利网| 99精品在免费线中文字幕网站一区 | 欧日韩不卡视频| 亚洲一区二区三区影院| 中文字幕天堂在线| 精品久久国产字幕高潮| av在线免费播放网站| 欧美激情一区二区久久久| 日韩中文视频| 国产日韩精品在线播放| 欧美变态网站| 欧美黄色直播| 欧美日韩国产欧| 日本激情视频在线播放| 91小视频免费看| 九九九免费视频| 欧美精选在线播放| 欧美套图亚洲一区| 欧美激情2020午夜免费观看| 麻豆福利在线观看| 国模私拍一区二区三区| 国产精品igao视频网网址不卡日韩 | 2022中文字幕| 丝袜a∨在线一区二区三区不卡 | 在线天堂资源www在线污| 成人免费自拍视频| 成人在线亚洲| 日本999视频| 国产精品羞羞答答xxdd| 亚洲黄色网址大全| 疯狂欧美牲乱大交777| 亚洲精品久久久久久无码色欲四季 | 中文字幕在线视频一区二区| 大桥未久av一区二区三区中文| 中文字幕乱码在线| 一区二区三区四区不卡在线| 97在线视频人妻无码| 亚洲а∨天堂久久精品喷水| 国产在线激情| 成人久久18免费网站图片| 精品日产免费二区日产免费二区| 99视频精品全部免费看| 激情国产一区二区| 99re6热在线精品视频| 欧美日韩在线免费视频| 1769在线观看| 国产欧美精品在线| 欧美好骚综合网| 狠狠干狠狠操视频| 日韩美女视频19| 国产精品爽爽久久久久久| 精品国产一区二区三区在线观看 | 国产91免费在线观看| 欧美精品福利视频| 97久久综合区小说区图片区| 亚洲国产精品一区二区第四页av| 国产综合精品| 亚洲成a人片在线www| 亚洲午夜电影在线观看| 欧日韩在线视频| www.久久色.com| 电影一区中文字幕| 真人做人试看60分钟免费| 国产成人综合网站| 丰满少妇乱子伦精品看片| 日韩高清免费在线| 性欧美1819sex性高清| 日韩欧美精品一区二区三区经典| 亚洲性人人天天夜夜摸| 男男一级淫片免费播放| 精品成人av一区| 亚洲国产精品久久久久久6q| 欧美高清视频一区二区| 欧美电影在线观看免费| 日韩亚洲在线视频| 日本一区二区不卡视频| 国产人妖一区二区| 久久久久国产精品免费| **国产精品| 日韩欧美精品免费| 国产精品99久久久久久久vr| 性少妇xx生活| 日韩欧美久久一区| 亚洲精品一区| 国产一二三四五| 99久久精品久久久久久清纯| 成年人视频免费| 欧美xxxx做受欧美.88| 午夜不卡一区| 日韩精品一区在线视频| 欧美激情一区在线观看| av中文字幕第一页| 欧美在线视频一区| 我不卡神马影院| 给我看免费高清在线观看| 亚洲成人动漫av| 91视频在线观看| 国产亚洲欧美一区二区| 日本欧美大码aⅴ在线播放| 欧美精品久久久久性色| 亚洲天堂网在线观看| 麻豆精品一区| 日韩中文字幕免费在线| 国产女人18毛片水真多成人如厕 | 日本视频一区二区不卡| 九一九一国产精品|