精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

陶哲軒攜AI再戰數學!o4-mini秒慫棄賽,Claude 20分鐘通關

人工智能 新聞
陶哲軒 YouTube視頻第二彈震撼來襲!這一次,他讓AI挑戰在Lean中形式化代數蘊含證明,結果Claude約20分通關,o4-mini太過謹慎直接「棄賽」。

3天后,陶哲軒YouTube視頻二更來了。

上一次,他使用GitHub Copilot(基于GPT-4),成功在33分鐘內完成一頁非形式化證明。

這次,他嘗試了一種更短、更概念化的證明版本,并測試Claude、o4-mini能否基于之前的非形式和形式證明,生成類似的形式化代碼。

圖片

實驗的核心是,在Lean中形式化同一個代數蘊含的證明。

圖片

此外,他還發文深入剖析了,自動化工具不同尺度上的效率表現,以及自動化與人工干預之間的微妙平衡。

Claude 20分完成,o4-mini棄題

最新實驗中,陶哲軒圍繞一個代數蘊含展開(algebraic implication):證明方程1689蘊含方程2。

圖片

錄制前,他已進行了一次測試。

這里直接在Claude/o4-mini中粘貼prompt,然后附上非形式證明、形式證明、方程三個附件。

接下來,一起看看這兩個模型具體表現如何?

Claude

實驗中,Claude整體表現出色,能夠快速將非形式證明的單行,轉化為看似合理的Lean代碼。

圖片

它生成了與之前形式化證明結構相似的代碼,并成功定義了關鍵的冪函數。

然而,陶哲軒創建一個新文件,在Claude編譯過程中,卻發現錯誤——它假設從自然數1開始,而Lean中的自然數從0開始。

圖片

另外,Claude未能正確處理方程的對稱性,比如x=(y·x)·z,導致了證明邏輯出現偏差。

圖片

盡管單行代碼生成高效,但缺乏對整體結構的理解,使得錯誤診斷和修復變得困難。

通過人工干預,陶哲軒修復了這些問題,最終在20分鐘內完成形式化。

o4-mini

相比之下,o4-mini表現得更為謹慎。

圖片

與Claude類似,o4-mini一上來也創建了一個冪函數,卻勝過前者。

它正確識別了冪函數定義中的問題,magmas中沒有單位元1,因此不能簡單假設0=>x設置為等于1。

然而,o4-mini在關鍵時刻卻選擇了「放棄」,僅生成了部分證明代碼,并在修復步驟中輸出「抱歉」。

圖片

最終,o4-mini未能完成形式化證明。

陶哲軒表示,它的謹慎策略雖避免了嚴重錯誤,但也限制了其在復雜任務中的實用性。

有趣的是,o4-mini和Claude同樣遇到了類似對稱性問題,表明LLM在處理數學邏輯的細微差別時,存在共同的局限。

總之,整個實驗目標看似簡單,即讓AI工具將人類可讀的證明轉化為Lean代碼,并在證明助手中成功編譯。

然而,陶哲軒的實驗揭示了自動化的復雜性,尤其是在效率和正確性之間的平衡。

100%過度自動化,毀掉數學未來?

在長達一周的自動形式化實驗中,陶哲軒得出了一個教訓——

即使純粹專注于效率,僅接受在證明助手中實際編譯并產生預期結果的形式化,衡量效率的尺度現在也產生了顯著差異。

在形式化數學證明過程中,效率可以從以下四個不同尺度衡量。

1. 單形式化:加快證明中任意一行的形式化

2. 單一引理形式化:加快形式化證明中的任一引理

3. 單一證明形式化:加快形式化定理的任一證明

4. 「整個教科書」形式化:加快形式化整個教科書的成果

每個尺度看似都在指向同一個目標:更快地完成形式化。然而,實際操作中,這些尺度的優化策略可能互相沖突。

圖片

陶哲軒以自己最近的實驗為例,嘗試用一些自動化工具,加速形式化過程。

我意識到,許多當前的自動化工具可以在其中一個尺度上加速形式化,但出乎意料的是,過度依賴此類工具可能會削弱在其他尺度上形式化的能力。

比如,依賴類型匹配工具canonical在「單行形式化」(尺度1)的任務中,表現出色。

它能快速解析,并生成正確的代碼,在此過程中,陶哲軒幾乎無需手動干預。

然而,當過于依賴canonical,盲目接受它對某一步的解析,并迅速進入下一步時,他發現自己逐漸失去了對證明整體結構的把握。

這導致了,在「引理形式化」(尺度2)上,診斷和修復錯誤變得更加困難,因為到了此刻,陶哲軒對證明步驟之間的聯系缺乏深入的理解。

有趣的是,修復這些錯誤的過程,卻讓陶哲軒本人受益匪淺。

圖片

通過手動檢查和調整,他逐漸理解了引理之間的作用,這反過來提升了其解決「單一證明形式化」(尺度3)任務的能力。

這種「意外收獲」讓他意識到,完全依賴自動化工具,可能會讓自己錯過對證明結構的深刻洞察,而這些這些洞察在更大尺度上至關重要。

陶哲軒認為結論是,「最優的自動化水平并不是100%,而是介于0%和100%之間的某個值」。

從每個尺度上來說,自動化工具應該被用來減少重復性的繁瑣工作,但同時必須保留足夠的人為干預,以審查和修復局部問題,從加深人類對所有尺度任務結構的理解。

更廣義地看,如果我們100%依賴自動化工具解決所有任務,可能會失去對任務空間的熟悉度。

在面對中等,甚至高難度任務時,自動化工具可靠性下降,我們卻可能因缺乏經驗而束手無策。

值得警醒的是,過度聚焦于單一尺度的效率優化,可能會違背數學形式化的長遠目標。

其終極目標,不僅是生成在證明助手中編譯的代碼,更是要創造一個靈活、可用、不斷演變且富有啟發性的形式化數學語料庫。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-10-08 09:49:06

2025-05-28 10:30:41

AI陶哲軒模型

2025-04-18 11:18:51

2025-06-03 08:15:00

2025-11-06 08:59:00

2023-12-06 13:44:00

模型訓練

2025-03-18 09:19:26

大模型AI代碼

2024-02-26 08:30:00

2024-07-29 08:49:00

AI數學

2024-07-08 13:08:04

2023-10-10 13:51:46

GPT-4GitHubAI

2025-05-12 14:26:43

AI陶哲軒模型

2024-11-29 13:25:00

2024-09-29 14:00:00

AI數學自動化

2025-08-05 14:54:39

AI模型陶哲軒

2025-09-08 09:15:00

2023-10-04 08:07:06

CopilotGitHub

2024-12-23 07:40:00

AI模型數學

2025-05-22 09:08:40

2024-12-09 09:35:00

AI數據訓練
點贊
收藏

51CTO技術棧公眾號

欧美与欧洲交xxxx免费观看| 欧美亚洲国产一区二区三区va| 国产福利久久精品| 五月天综合激情| 成人免费av| 日韩午夜精品视频| 免费观看精品视频| 老司机精品视频在线观看6| 国产成人免费视频网站| 日本一本a高清免费不卡| 中文字幕第69页| 国产精品白浆| 欧美日韩一级大片网址| 黄色一级片在线看| 人人干在线视频| 久久综合九色综合97_久久久| 国产一区玩具在线观看| 中文字幕国产在线观看| 欧美激情五月| 中文字幕欧美精品日韩中文字幕| 国产在线不卡av| 成人97精品毛片免费看| 日韩欧美999| 久久精品无码中文字幕| 秋霞a级毛片在线看| www久久久久| 国产视频99| 国产普通话bbwbbwbbw| 蜜桃视频一区| 2019日本中文字幕| 性欧美疯狂猛交69hd| 精品免费在线| 亚洲欧美国内爽妇网| 亚洲麻豆一区二区三区| 日韩精品成人在线观看| 欧美高清你懂得| 天堂网在线免费观看| 欧美大片免费高清观看| 亚洲va国产天堂va久久en| 日韩中文在线字幕| 日本视频在线| 久久久精品免费观看| 国产伦精品一区二区三| www.av在线.com| 国产激情视频一区二区三区欧美 | 午夜裸体女人视频网站在线观看| 一区二区日韩电影| 五月天激情图片| a黄色片在线观看| 亚洲精品大片www| 男女裸体影院高潮| 18+视频在线观看| 亚洲人成7777| 91精品一区二区三区四区| 成人三级网址| 一区二区欧美国产| 大西瓜av在线| 中文字幕在线看片| 色婷婷综合在线| 国内自拍视频一区| 日本另类视频| 欧美日韩高清一区二区不卡| 亚洲综合日韩欧美| 日本成人一区二区| 91精品国产品国语在线不卡| 日本少妇激三级做爰在线| 999精品视频在线观看| 在线不卡中文字幕| 手机在线播放av| 国产精品白浆| 亚洲精品在线不卡| gv天堂gv无码男同在线观看 | 国产一二三四五| av免费在线观| 亚洲成人av中文| 欧美日韩在线中文| 91tv亚洲精品香蕉国产一区| 欧美日韩一区二区在线视频| 国内精品国产三级国产aⅴ久| 999在线精品| 日韩成人小视频| 熟女少妇内射日韩亚洲| 久久久久国产| 2025国产精品视频| 伊人成人在线观看| 成人在线综合网| 青娱乐国产91| av大大超碰在线| 婷婷久久综合九色综合伊人色| 黄色国产精品视频| 国产一区二区三区| 亚洲精品xxx| 日韩人妻无码一区二区三区| 日韩欧美高清| 韩国三级日本三级少妇99| 看黄色一级大片| 国产电影一区二区三区| 免费日韩av电影| 国产精品一卡二卡三卡| 欧美日韩中文字幕在线| 欧美视频国产视频| 在线日本制服中文欧美| 欧美成人激情在线| 欧美人一级淫片a免费播放| 国产1区2区3区精品美女| 日本不卡一区二区三区视频| 91国内在线| 在线观看91视频| 国产精品手机在线观看| 91影院成人| 日本午夜在线亚洲.国产| 精品国产av 无码一区二区三区 | 日日夜夜精品视频天天综合网| 亚洲线精品一区二区三区| 国产美女无遮挡网站| 日韩一级视频| 国产丝袜一区视频在线观看 | 黄a在线观看| 图片区小说区国产精品视频| 国产精品igao网网址不卡| 久久综合久久久久| 欧美18av| 亚洲激情国产精品| 放荡的美妇在线播放| 日本亚洲视频在线| 久久精品美女| av最新在线| 欧美一级理论片| 中文字幕美女视频| 男人的j进女人的j一区| 欧美精品在线一区| 超碰在线视屏| 亚洲第一视频网| 青草草在线视频| 国产在线播放一区| 亚洲国产精品毛片| gogo亚洲高清大胆美女人体 | 男人添女人下部高潮视频在观看 | 亚洲在线一区二区| 成人精品一区二区三区校园激情 | 亚洲第一天堂| 欧美另类老女人| 在线不卡免费视频| 国产欧美综合在线| 无码人妻h动漫| 亚洲人和日本人hd| 性欧美亚洲xxxx乳在线观看| 成人av无码一区二区三区| 曰韩精品一区二区| 国产又粗又猛大又黄又爽| 亚洲乱码在线| 91深夜福利视频| av在线播放观看| 91麻豆精品国产91久久久久久| 我不卡一区二区| 日韩精品欧美成人高清一区二区| 欧美精品一区二区视频| 亚洲成人一区在线观看| 在线一区二区日韩| 91精品国产色综合久久ai换脸 | 欧美日韩有码| 日韩美女视频在线观看| 日本韩国欧美一区| 亚洲一区精彩视频| 国产亚洲精彩久久| 日韩中文字幕不卡视频| 中文字幕永久在线视频| 亚洲图片激情小说| 久久久久无码精品| 9国产精品视频| 欧美日韩在线不卡一区| 精品欧美日韩精品| 久久手机精品视频| 蜜桃91麻豆精品一二三区| 亚洲va韩国va欧美va精品| 一本色道久久综合亚洲精品图片| 日日夜夜免费精品视频| 天天干天天色天天爽| a级日韩大片| 日本道色综合久久影院| 秋霞a级毛片在线看| 精品国产伦一区二区三区免费| 一区二区三区视频免费看| 国产色一区二区| 免费高清视频在线观看| 国产婷婷精品| 亚洲最新在线| 国产精品xxx在线观看| 国产精品激情自拍| 日本色护士高潮视频在线观看| 日韩h在线观看| 91av国产精品| 天天操天天综合网| 一本一本久久a久久| 成人av影院在线| 亚欧激情乱码久久久久久久久| 欧美激情综合色综合啪啪| 欧美一区二区影视| 嫩呦国产一区二区三区av| 欧美在线视频播放| 羞羞电影在线观看www| 一二美女精品欧洲| 欧美一级性视频| 欧美日韩黄视频| 在线观看亚洲天堂| 亚洲乱码日产精品bd| 国产又粗又猛又爽又黄av| 成人黄色在线看| 亚洲视频一二三四| 久久国产精品久久久久久电车| 一卡二卡3卡四卡高清精品视频| 久久中文资源| 96成人在线视频| 亚洲精品66| 国产精品美乳一区二区免费| 黄色aa久久| 欧美激情xxxx性bbbb| 91ph在线| 亚洲天堂一区二区三区| 亚州av在线播放| 日韩精品一区二区三区四区 | 强制捆绑调教一区二区| 樱花影视一区二区| 翔田千里亚洲一二三区| 中文无码日韩欧| 国产欧美日韩精品专区| 欧美毛片在线观看| 久久久久久亚洲综合| 污污免费在线观看| 国产美女视频一区| 日韩欧美国产片| 日韩av在线播放中文字幕| 黄色片视频在线免费观看| 亚洲三级影院| 国产日韩av网站| 在线播放精品| 免费看黄在线看| 亚洲午夜一区| 国产成人在线小视频| 女人色偷偷aa久久天堂 | 国产精品99一区二区三| 日韩激情视频| gogogo高清在线观看一区二区| 欧美日韩国产精品一区二区| 婷婷综合电影| 蜜桃视频在线观看91| 日韩动漫一区| 美女一区视频| 欧美激情在线免费| 色一情一区二区三区四区| 国产欧美日韩视频在线| 日韩成人在线资源| 日韩电影免费在线观看| 亚洲最大免费| 欧美黄色aaaa| 久久成人福利视频| 夜夜嗨一区二区三区| 国产精品视频一区二区三区四区五区| 中文亚洲免费| 日韩一级在线免费观看| 日本91福利区| 久久久久xxxx| 国产成人亚洲精品狼色在线| 亚洲av无码一区东京热久久| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 国产午夜精品久久久久免费视| 久久视频中文字幕| 9999在线视频| 国产成人avxxxxx在线看| 国内自拍亚洲| yellow视频在线观看一区二区| h视频久久久| 欧美中日韩免费视频| 三级电影一区| 亚洲精品无码国产| 久久综合五月| 日本少妇激三级做爰在线| av高清不卡在线| 手机毛片在线观看| 亚洲精品免费在线| 久久亚洲精品石原莉奈| 91精品国产91久久久久久一区二区| 性生交大片免费看女人按摩| 日韩经典中文字幕| 韩国av网站在线| 亚洲免费影院| 欧美污视频网站| 韩国女主播成人在线观看| 91丨porny丨对白| 中文子幕无线码一区tr| 国产91精品高潮白浆喷水| www.亚洲激情| 日韩欧美精品在线视频| 性xxxxbbbb| 精品国产依人香蕉在线精品| 91黄页在线观看| 国产精品一二三在线| 国产精品videossex| 亚洲欧美综合一区| 99国产精品视频免费观看一公开| 手机在线看福利| av福利精品导航| 精品国产乱码久久久久久鸭王1 | 国产美女激情视频| 91精品国产一区二区三区| 蜜桃成人在线视频| 欧美国产精品日韩| 四虎国产精品免费久久| 精品日产一区2区三区黄免费| 中文字幕av亚洲精品一部二部| 成人久久久久久久久| 成人国产亚洲欧美成人综合网| 亚洲色图100p| 日韩欧美综合在线视频| 黑人乱码一区二区三区av| 北条麻妃久久精品| 朝桐光一区二区| 精品一区在线播放| 欧美成人有码| 激情黄色小视频| 日本一区二区三区免费乱视频 | 国产精品xxx在线观看www| 日韩欧美一区二区三区免费看| 国产欧美在线一区| www.一区二区| 五月天婷婷丁香| 欧美成人伊人久久综合网| 看黄网站在线| 国产精品欧美激情在线播放| 真实原创一区二区影院| 欧美色图另类小说| 99国产精品视频免费观看| 久久精品免费av| 日韩欧美成人激情| 成人av免费| 亚洲一区国产精品| 亚洲成人精品| 第一区免费在线观看| 国产精品久久福利| 中文字幕久久久久| 中文字幕视频在线免费欧美日韩综合在线看 | 亚洲高清视频在线播放| 久热爱精品视频线路一| 亚洲人成777| 99久re热视频精品98| 国产高清无密码一区二区三区| 在线免费日韩av| 日韩免费电影一区| 免费看电影在线| 国产美女99p| av不卡在线| 97伦伦午夜电影理伦片| 色噜噜狠狠色综合中国| 啊v在线视频| 国产日韩视频在线观看| 2023国产精品久久久精品双| 亚洲高清视频免费| 一区二区三区美女视频| 国产91麻豆视频| 欧美一区二区.| 欧美日韩激情| 污污的视频免费观看| 亚洲人123区| 成人毛片视频免费看| 国产91精品黑色丝袜高跟鞋| 精品视频97| 黄色a级三级三级三级| 亚洲一区二区三区在线看| 无码精品人妻一区二区| 国产精品69av| 亚洲国产精品久久久天堂| 中文字幕三级电影| 色哟哟亚洲精品| 黄色片网站在线| 国产在线欧美日韩| 天堂蜜桃一区二区三区| 国产免费一区二区三区四区| 精品国偷自产国产一区| 美脚恋feet久草欧美| 精品视频一区二区在线| 国产又粗又黄又爽的视频| 亚洲一级黄色av| 日本在线一区二区| 少妇大叫太大太粗太爽了a片小说| 成人18视频日本| 久久久久亚洲视频| 欧美成人h版在线观看| 天天久久夜夜| 国产乱码一区二区三区四区| 亚洲国产另类av| av在线日韩国产精品| 99久久精品免费看国产一区二区三区| 亚洲专区欧美专区| 国产真实乱在线更新| 精品亚洲国产视频| 成人豆花视频| av免费网站观看| 亚洲一区二区黄色| 男女啪啪在线观看| 精品久久久久久亚洲|