精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI首勝人類博士,頂會論文秒變代碼!港大90后開源刷爆8k星

人工智能 新聞
香港大學黃超團隊開源的DeepCode在「論文復現代碼」方面,首次在PaperBench測試中超過來自劍橋、伯克利等8所頂尖高校的機器學習博士,并領先Claude Code、Cursor等先進的商用代碼智能體。

在AI領域,學術論文往往承載了算法、模型架構等方面的最前沿突破。

但想要真正理解論文的核心知識,并成功復現其中的算法和實驗結果,卻經常面臨巨大挑戰。

問題的主要癥結,在于「關鍵實現細節」上的缺失!

現實中論文作者通常將復雜的算法邏輯高度抽象化為幾行數學公式,省略了真正影響成敗的核心細節,比如:

超參數的具體取值范圍、訓練過程中的技巧性調整、數據預處理的細節步驟、網絡初始化策略等。

然而正是關鍵實現要點上的缺失,導致了理論與實踐之間的巨大鴻溝。

就連資深研究員也經常對此束手無策。

怎么破?

近日,香港大學黃超教授團隊開源的DeepCode,為這一難題的解決提供了超強的AI利器。

它不僅能夠分析論文內容,理解算法邏輯,還可以自動生成可運行的代碼。

DeepCode演示

0:11DeepCode視覺交互界面

在基準測試中,DeepCode在復現成功率和代碼質量方面表現出眾,在多項指標上超過了頂級大學的機器學習博士。

DeepCode自今年7月發布首個版本——DeepCode v1.0.0以來便備受關注,并登上 GitHub Trending榜首,斬獲近8千星標(截至11月1日數據)。

開源鏈接: https://github.com/HKUDS/DeepCode

四大基準測試全面領先

研究人員將DeepCode放在以下四大基準測試中進行比較:

  • 人類專家;
  • 最先進的商業代碼智能體;
  • 科學代碼智能體;
  • 基于大模型的智能體。

結果顯示,DeepCode均拿到了最高分。

首超人類專家:75.9% vs 72.4%

在OpenAI發布的PaperBench基準測試中,DeepCode的總體準確率為75.9%,超過參與評測的人類專家組72.4%的成績。

PaperBench的基準測試規格如下:

  • 數據集來源:OpenAI官方發布的標準化評測基準;
  • 任務規模:20篇ICML2024會議論文的完整復現;
  • 評估維度:8316個獨立可評分組件;
  • 評分機制:SimpleJudge分層加權評估系統;
  • 任務復雜度:要求從論文文本到可執行代碼的端到端實現。

為確保實驗的科學嚴謹性,研究團隊還建立了高質量的人類專家基線。

首先是嚴格的人類專家資質標準。

這些專家均來自8所頂尖研究型大學的機器學習博士(在讀/已畢業博士學位)。

8所大學分別為UC Berkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TU Wien、UMass Amherst。

此外,研究團隊還采用了嚴格的人類專家篩選流程:

首先,進行簡歷預篩選和學術背景驗證;

接著,實施機器學習理論知識的標準化測試;

然后,評估Git版本控制和軟件工程實踐能力;

最后,驗證候選人在論文復現任務中的完整技能鏈。

以上篩選流程確保所有參與者都具備從理論理解到代碼實現的全流程能力。

實驗環境配置如下:

  • 計算資源:NVIDIA A10 GPU標準配置,部分使用A100;
  • 開發時間:4周彈性開發周期;
  • 工具權限:無限制使用ChatGPT、GitHub Copilot等商業AI助手;
  • 嘗試機制:每論文3次獨立復現機會,采用best@3評分策略。

以上實驗結果充分證明:

面對需要深度理解和長期開發的復雜任務,即使人類專家可以充分利用各種AI輔助工具,DeepCode仍能在代碼質量和準確性方面達到更高的水平。

這表明DeepCode不僅達到而且超越了專家級的代碼復現能力,也意味著自主科學軟件工程領域的一個重要里程碑。

優于現有AI Coding:84.8% vs 58.7%

在同一基準上,研究人員從20篇論文中隨機抽取5篇,將DeepCode與當前主流商用代碼智能體進行了系統性的性能對比。

在評測中DeepCode展現出明顯領先優勢:

DeepCode得分84.8% ,領先Claude Code(58.7%)約26.1個百分點。

為確保測試的公平性和權威性,所有參與評測的商業代碼智能體均配備了當前最先進的基礎模型:Claude 4.5 Sonnet-think和GPT 5 codex-high。

結果提示性能差距主要來自多智能體架構設計,而非單純的基礎模型差異。

此外,在科學代碼智能體、基于大模型的智能體兩項評測中,DeepCode同樣保持領先:

與目前最先進的科學代碼復現框架PaperCoder(51.1%)相比,DeepCode的復現率達到了73.5% ,提升了22.4個百分點。

這一顯著的提升驗證了研究團隊結合規劃、分層任務分解、代碼生成和迭代調試的多模塊架構優于更簡單的基于流水線的方法。

與性能最佳的大模型智能體(43.3%)相比,DeepCode(73.5%)提升了30.2個百分點。

這表明,對于復雜的代碼復現任務而言,復雜的代理支架(而不是延長推理時間或更大的模型)至關重要。

DeepCode三大核心能力

Paper2Code(論文→代碼)

  • 輸入:學術論文PDF文檔;
  • 輸出:生產級代碼實現+完整測試套件+詳細技術文檔。

DeepCode的核心優勢在于自動解析復雜數學公式、理解算法邏輯、生成可運行的高質量代碼,可以幫助科研人員快速復現SOTA算法、驗證理論創新、加速研究進展等。

Paper2Code

Text2Web:(想法→網頁)

  • 輸入:自然語言描述的界面需求和功能期望;
  • 輸出:響應式前端頁面+現代化UI設計+完整交互邏輯。

DeepCode可以智能理解用戶意圖、自動適配移動端、生成符合設計規范的界面,適用于快速原型驗證、MVP產品開發、創業想法落地等場景。

前端實現

Text2Backend:(需求→服務)

  • 輸入:后端功能需求和業務邏輯描述;
  • 輸出:高性能API接口 + 優化數據庫設計 + 可擴展系統架構。

DeepCode可以自動選擇最佳技術棧、考慮性能和安全性、支持云原生部署,適用于微服務快速開發、遺留系統重構、企業數字化轉型等場景。

DeepCode的核心技術框架

DeepCode采用系統化的三階段框架,將復雜的代碼生成任務分解為架構藍圖構建、代碼實現和自動驗證三個步驟,通過多智能體協作實現從文檔到可執行代碼的自動轉換。

階段一:架構藍圖構建

該階段將冗長的文檔規范轉化為結構化的架構藍圖,通過層次化內容分割、多智能體深度分析、架構藍圖融合三個關鍵步驟解決長文檔理解的挑戰。

在多智能體深度分析環節,采用概念智能體、算法智能體兩個專業智能體并行深度分析文檔的不同維度,確保了既有全局視野又有具體實現細節。

代碼規劃智能體融合以上兩個分析智能體的深度輸出,協調高層架構與底層規范,解決潛在的不一致性。

通過智能化的融合過程,最終生成完整的架構藍圖,為后續代碼生成提供了詳細的指導。

階段二:自動化代碼構建

該階段基于構建完成的架構藍圖進行代碼倉庫的系統化構建,通過雙重機制設計解決大規模代碼庫中的跨文件一致性維護和領域知識缺失的核心挑戰。

階段三:動態驗證與優化

該階段構建了一個多層次的質量保障體系,通過靜態分析和動態執行的雙重驗證機制,實現代碼從結構完整性到功能正確性的全面保障,形成了自我完善的閉環反饋系統。

AI Coding的挑戰與思考

目前AI編程工具在代碼補全和簡單任務上表現良好,但在需要深層理解的復雜任務中仍有不足。

科學論文復現就是一個典型例子——它需要AI理解數學原理,將抽象概念轉化為代碼實現,并處理各種技術細節。

DeepCode在這個領域的進展表明,通過專門的架構設計,AI可以在特定領域取得較好效果,但通用的深度理解能力仍然存在局限。

如何讓AI更好地理解復雜的業務邏輯和技術需求,仍是一個開放性問題。

· 從輔助工具到開發伙伴

AI編程工具正在從簡單的代碼補全向更全面的開發支持演進。

DeepCode展示的從需求分析到代碼生成再到質量驗證的完整流程,代表了這種發展趨勢。

然而,這也帶來了新的問題:

如何在AI系統提供更多自主能力的同時,保持開發者對項目的有效控制? 

如何確保生成的代碼符合團隊的編碼規范和架構要求?

這些問題需要在技術進步和工程實踐中逐步解決。

· Vibe Coding的實用性考量

Vibe Coding的興起降低了編程門檻,讓更多人能夠參與軟件開發。

但這種模式也帶來了一系列挑戰:

  • 生成代碼的質量和一致性如何保證?
  • 當開發者減少對底層細節的關注時,如何維護代碼的長期可維護性?
  • 如何在提高開發效率的同時確保代碼的安全性和穩定性?

DeepCode的驗證機制提供了一種思路,但更完善的工程實踐和質量標準還需要行業的進一步探索和完善。

作者介紹

李宗蔚

李宗蔚

李宗蔚(1999年生),現為香港大學博士生,師從黃超老師,專注于大模型智能體前沿技術研究。其學術成果入選CIKM 2024最具影響力論文榜單。作為開源項目DeepCode的核心貢獻者,該項目在GitHub上獲得約8,000星標。

李中行

李中行

李中行(1998年生),香港大學訪問博士,研究方向為大模型智能體與智慧城市。作為智慧城市大模型UrbanGPT第一作者,其研究成果入選KDD 2024及ICDE 2022最具影響力論文榜單。同時為開源項目DeepCode核心貢獻者,獲得約8,000 GitHub星標。

郭子睿

郭子睿

郭子睿(2000年生),香港大學博士學生,專注于RAG與智能體技術研究。作為LightRAG和RAG-Anything開源項目的第一作者,其項目在GitHub上累計獲得超過32,000星標,已成為圖RAG系統領域的主流技術框架之一。

黃超

黃超

黃超,香港大學博士生導師,專注于大語言模型、智能體與圖機器學習研究,Google Scholar引用超過13,000次。其團隊開發的LightRAG、RAG-Anything、DeepCode、AutoAgent、AI-Researcher、AI-Trader、MiniRAG、VideoRAG等開源項目累計獲得超過70,000 GitHub星標,50次登上GitHub Trending(趨勢榜)。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-03-17 08:40:00

開源智能體框架

2025-04-04 00:00:00

AI模型數據

2025-05-30 09:15:00

2025-06-04 09:03:00

2025-09-01 17:09:21

AI論文模型

2025-08-18 08:51:00

2020-06-10 10:32:10

人工智能技術編輯

2023-10-27 20:52:13

OpenAIJina AI開源

2025-11-03 09:06:00

2025-11-17 08:32:57

2023-07-19 17:27:38

研究方案

2023-11-16 12:36:00

AI數據

2022-01-04 11:00:15

AI 數據人工智能

2016-12-02 20:10:22

人工智能唇語序列

2020-04-20 10:08:22

AI 代碼開源

2023-06-01 16:56:50

AI女友

2019-07-03 09:01:29

博士生頂會計算機

2025-05-29 05:00:10

開源AI工具
點贊
收藏

51CTO技術棧公眾號

日韩人妻无码精品久久久不卡| 亚洲va欧美va国产综合剧情| 欧美偷拍一区二区三区| 精品福利在线| 亚洲综合偷拍欧美一区色| 九九九九久久久久| 亚洲综合精品在线| 91久久综合| 久久久999国产| 国产精品无码毛片| 成年永久一区二区三区免费视频| 亚洲五码中文字幕| 四虎永久在线精品免费一区二区| 国产婷婷一区二区三区久久| 精品福利av| 最近2019年日本中文免费字幕| 久久久精品人妻一区二区三区| 粉嫩一区二区| 亚洲一区二区成人在线观看| 亚洲日本精品国产第一区| 肥臀熟女一区二区三区| 秋霞av亚洲一区二区三| 久久久久中文字幕| 手机在线免费看片| av永久不卡| 国产视频久久久| 真实乱偷全部视频| 九九久久国产| 一本高清dvd不卡在线观看| 国产免费内射又粗又爽密桃视频| 国产二区视频在线观看| 99精品热视频| 国产精品一区二区三区在线观| 中文字幕日韩国产| 国产欧美一区二区色老头 | 成人黄色免费片| jizz国产在线观看| 国产精品腿扒开做爽爽爽挤奶网站| 美女av一区二区| 天天操天天摸天天舔| 亚洲+变态+欧美+另类+精品| 欧美大片拔萝卜| 国产资源中文字幕| 成人国产精品久久| 欧美精选午夜久久久乱码6080| 久久久久久久久久久久久久国产| 福利在线免费视频| 精品av在线播放| 亚洲精品无码国产| 黄色在线观看视频网站| 亚洲色图欧美激情| 先锋影音男人资源| 顶级网黄在线播放| 亚洲欧美视频一区| 黄色一级片国产| 3d玉蒲团在线观看| 一区二区三区日韩精品视频| 亚洲精品天堂成人片av在线播放| 18加网站在线| 亚洲精品写真福利| 996这里只有精品| 免费在线观看av电影| 洋洋av久久久久久久一区| www.欧美黄色| av资源在线| 欧美日韩综合视频| 精品久久久噜噜噜噜久久图片| 91精品影视| 欧美色区777第一页| 亚洲 激情 在线| 成人av在线播放| 精品国产露脸精彩对白| 黄色国产在线观看| 欧洲激情综合| 欧美成人四级hd版| 日韩大片免费在线观看| 欧美亚洲一区| 成人a免费视频| 成人午夜免费在线观看| www久久精品| 亚洲一区二区三区欧美| 9191在线播放| 日韩欧美在线网址| 成人综合久久网| 中文字幕一区二区三区中文字幕 | 国产精品九九| 午夜精品久久久99热福利| 国产精品777777| 久久国产精品72免费观看| 成人一区二区在线| 国内av一区二区三区| 国产精品国产三级国产普通话蜜臀| 国产乱子伦精品视频| 性爽视频在线| 欧美顶级少妇做爰| 在线精品一区二区三区| 青青草原综合久久大伊人精品| 久久av在线播放| 日本中文字幕第一页| 精品午夜一区二区三区在线观看| 国产精品亚洲不卡a| 成人高清网站| 亚洲成国产人片在线观看| caoporn超碰97| 大桥未久女教师av一区二区| 色偷偷偷综合中文字幕;dd| 久久久一区二区三区四区| 日韩高清不卡一区| 国产精品一区二区你懂得| 波多野结衣在线网站| 亚洲一区电影777| 91视频这里只有精品| 美女少妇全过程你懂的久久| 欧美老女人在线视频| 国模私拍一区二区| 91丨porny丨蝌蚪视频| 青草全福视在线| 99久久er| 亚洲欧美国产一区二区三区| 久久久久久久久久99| 蜜桃视频第一区免费观看| 国产日韩一区欧美| 色爱综合区网| 欧美一区二区三区电影| 人妻aⅴ无码一区二区三区 | 午夜免费久久久久| 国产片在线播放| 中文一区二区在线观看| 97在线播放视频| 精品在线网站观看| 久久91精品国产91久久久| 在线观看国产精品入口男同| 久久久不卡影院| 激情五月宗合网| 波多野结衣在线一区二区| 欧美精品中文字幕一区| 国产精品探花视频| 亚洲同性同志一二三专区| 四季av一区二区| 精品久久久久中文字幕小说| 97视频在线观看播放| 免费观看a视频| 亚洲综合另类小说| 久久精品无码专区| 亚洲性感美女99在线| 国产99午夜精品一区二区三区 | 亚洲九九爱视频| 四虎成人在线播放| 欧美成人国产| 国产精品国产精品国产专区不卡| 黄网址在线观看| 欧美一区二区三区四区五区 | 成年人在线看| 欧美三级电影网站| 日本黄色免费片| 九一九一国产精品| 日韩在线视频在线| 欧美日韩破处| 日本精品视频在线观看| 国产在线视频你懂得| 欧美天堂亚洲电影院在线播放| 你懂得视频在线观看| 精品一区二区三区在线播放视频| 99精品视频网站| 一区中文字幕电影| 2018国产精品视频| 国产成人天天5g影院在线观看| 欧美午夜一区二区| 久久久久久久麻豆| 高清不卡一区二区在线| 日韩免费一级视频| 色偷偷综合网| 99国内精品久久久久久久软件| f2c人成在线观看免费视频| 亚洲美女av电影| 一区二区视频网站| 亚洲综合在线观看视频| 少妇精品一区二区| 久久精品99国产精品日本| 国产激情片在线观看| 欧美日日夜夜| 成人免费在线视频网站| 丁香花在线影院| 国产亚洲在线播放| www日本高清| 色狠狠av一区二区三区| 成人免费视频网站入口::| 9i在线看片成人免费| 亚洲黄色av网址| 国内精品久久久久久久影视蜜臀 | 在线不卡a资源高清| 天堂资源在线播放| 国产精品入口麻豆九色| 日本中文字幕有码| 日韩中文字幕区一区有砖一区| 一级黄色免费在线观看| 美女毛片一区二区三区四区最新中文字幕亚洲 | 美女福利视频在线观看| 久久嫩草精品久久久精品| 手机av在线网站| 久久激情网站| 国产精品成人久久电影| 日韩欧美视频在线播放| 国产亚洲一区二区三区在线播放| 嫩草伊人久久精品少妇av杨幂| 欧美日韩国产999| 日本免费在线视频| 精品一区二区三区四区在线| 99久久精品国产成人一区二区| 日本精品视频一区二区| 久久9999久久免费精品国产| 日韩一区在线看| 在线小视频你懂的| 91亚洲精品久久久蜜桃网站 | 在线观看av大片| 岛国av一区二区在线在线观看| 97成人资源站| 国产精品久久网站| 亚洲性猛交xxxx乱大交| 99久精品国产| 欧美久久久久久久久久久| 激情综合网av| gai在线观看免费高清| 久久久人人人| 国产精品沙发午睡系列| 亚洲午夜一级| 精品人妻人人做人人爽| 91精品婷婷色在线观看| 在线视频欧美一区| 第一sis亚洲原创| 亚洲va韩国va欧美va精四季| 亚洲精品一级二级三级| 国产一区二区不卡视频| 亚洲视频国产| 97久久天天综合色天天综合色hd| 欧美一区=区三区| 成人国产精品免费视频| 国产精品久久久久久吹潮| 国产成人91久久精品| 中文字幕在线直播| 日韩美女视频中文字幕| 中文字幕 在线观看| 4438全国成人免费| 亚洲人成午夜免电影费观看| 欧美一级在线播放| 国产日韩电影| 国产精品91免费在线| 成人爱爱网址| 国产精品国模在线| 国产精品蜜月aⅴ在线| 国产精品日韩久久久久| 午夜不卡一区| 3d蒂法精品啪啪一区二区免费| 成人综合日日夜夜| 91精品综合久久| 国产主播性色av福利精品一区| 精品在线视频一区二区三区| 日韩黄色网络| 日韩欧美一区二区三区久久婷婷| 精品国产乱码久久久| 亚洲午夜在线观看| 亚洲精品国产成人影院| 亚洲精品久久久久久久蜜桃臀| 日韩午夜免费视频| 超碰影院在线观看| 另类调教123区| 国内自拍偷拍视频| 91免费看`日韩一区二区| 五月激情四射婷婷| 一区二区在线观看免费| 国产成人在线免费观看视频| 欧美在线观看你懂的| 国产口爆吞精一区二区| 精品国产伦一区二区三区观看方式| 香蕉人妻av久久久久天天| 中文字幕av一区二区三区谷原希美| 欧美jizz18性欧美| 97视频免费在线看| 久久爱.com| 国产精品我不卡| 精品日韩欧美一区| 欧美日韩dvd| 久久亚洲精品伦理| 特黄特黄一级片| 久久精品一区二区三区av| 男人与禽猛交狂配| 色综合久久六月婷婷中文字幕| 91精品国产乱码久久| 亚洲国产精品va在线| a√在线中文网新版址在线| 欧美国产在线视频| 欧美另类激情| 久久久久久久久久久久久久久久av| 色135综合网| 无码人妻精品一区二区三区在线| 蜜臀av一区二区在线免费观看| 亚洲av熟女高潮一区二区| 国产农村妇女毛片精品久久麻豆| 久久久久久久久久久97| 欧美写真视频网站| 五月婷婷六月丁香| 久热99视频在线观看| 在线天堂资源| 国产99在线播放| 国产高清一区二区| 久久久久久久激情| 成人午夜激情片| 天海翼在线视频| 欧美色网一区二区| 可以直接在线观看的av| 久久久久久久久久久久av| 欧美视频在线视频精品| 欧美日韩一区在线播放| 激情久久久久| 中文字幕第10页| 国产精品私人影院| jizz国产在线观看| 亚洲精品久久久一区二区三区| av免费在线网站| 国产精品午夜一区二区欲梦| 小说区图片区色综合区| 欧美极品少妇无套实战| 国产一区二区调教| 一区二区三区在线播放视频| 一本色道久久综合亚洲91 | 91色porny| 国产一级在线播放| 欧美一级片免费看| a视频在线播放| 国产精品午夜视频| 日韩理论电影院| 午夜激情av在线| 国产精品久久一卡二卡| 一本色道久久综合精品婷婷| 亚洲天堂网在线观看| 欧美成人资源| 日本不卡一区| 日本女人一区二区三区| 久久成人激情视频| 欧美少妇一区二区| 婷婷在线视频观看| 亚洲精品日产aⅴ| 综合久久精品| 老司机av网站| 亚洲国产一区二区三区| 免费观看国产精品| 97视频免费在线观看| 伊人春色精品| 自拍偷拍 国产| 国产精品国产馆在线真实露脸 | 亚洲精品在线网站| 国产丝袜在线播放| 久久99精品久久久久子伦| 西西裸体人体做爰大胆久久久| 精品人妻一区二区三区香蕉| 色综合av在线| av网站在线免费播放| 国产日韩在线观看av| 欧美在线资源| 丰满人妻一区二区三区免费视频棣| 亚洲一区二区视频在线观看| 天堂成人在线视频| 国产91色在线| 亚洲天堂免费| 污片免费在线观看| 色av成人天堂桃色av| 888av在线| 97久草视频| 久久视频一区| 欧美肥妇bbwbbw| 亚洲第一级黄色片| 蜜桃精品在线| 日韩久久久久久久久久久久| 久久综合九色综合97婷婷女人| 波多野结衣高清视频| 久久视频免费观看| 欧美性生活一级片| 深夜黄色小视频| 亚洲国产精品自拍| 草草影院在线观看| 国产精品自拍首页| 秋霞午夜鲁丝一区二区老狼| 九九热精品在线观看| 国产视频精品自拍| 激情综合五月| 999香蕉视频| 亚洲一区二区偷拍精品| 77777影视视频在线观看| 国产九色精品| 久久精品国产99国产精品| 国产午夜精品一区二区理论影院 | 羞羞网站在线免费观看| 另类小说综合网| 国产九色精品成人porny| 亚洲欧美一区二区三区在线观看| 久热精品视频在线观看| 亚洲综合图色| 国产人成视频在线观看| 欧美精品99久久久**| 欧美大片高清|