AI「牛頓」來了!北大團(tuán)隊(duì)新突破,看一眼數(shù)據(jù)就能推出物理定律
一個(gè)AI,在觀察了一系列小球運(yùn)動(dòng)的枯燥數(shù)據(jù)后,突然「頓悟」,推導(dǎo)出了牛頓第二定律?
這聽起來像是科幻小說的情節(jié),但它的確真實(shí)地發(fā)生了。

近日,《Nature》雜志介紹了北京大學(xué)團(tuán)隊(duì)的一項(xiàng)研究。
他們開發(fā)出了一個(gè)名為AI-Newton的系統(tǒng),它在輸入實(shí)驗(yàn)數(shù)據(jù)后,能夠自主「發(fā)現(xiàn)」關(guān)鍵的物理原理。
目前,大多數(shù)AI模型本質(zhì)上都是在海量數(shù)據(jù)中尋找關(guān)聯(lián)性的「模式識(shí)別大師」。
但若是讓它們利用這些數(shù)據(jù)推導(dǎo)出像「萬有引力定律」這樣的科學(xué)定律就很困難了。
而AI-Newton,正是在這條艱難的路上邁出了關(guān)鍵一步。

論文地址:https://arxiv.org/abs/2504.01538
哈佛大學(xué)計(jì)算機(jī)科學(xué)家Keyon Vafa解釋,AI-Newton使用的是「符號(hào)回歸」(symbolic regression)方法,也就是讓模型去搜索哪個(gè)數(shù)學(xué)方程最能描述某個(gè)物理現(xiàn)象。
他認(rèn)為這將有望推動(dòng)科學(xué)發(fā)現(xiàn),因?yàn)橄到y(tǒng)會(huì)嘗試去推導(dǎo)概念。
在自然科學(xué)發(fā)展史上,人類對(duì)自然定律的探索具有可解釋性強(qiáng)、簡潔、普適性好等優(yōu)勢(shì),但也存在研究周期長、容易受主觀偏見影響、面對(duì)復(fù)雜問題能力有限等不足。
這些短板隨著各學(xué)科前沿問題日益復(fù)雜而被進(jìn)一步放大。
AI驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)為人類主導(dǎo)的科學(xué)研究提供了一種新范式,它既能繼承人類良好的研究習(xí)慣,又能彌補(bǔ)其固有不足。
AI-Newton
基于大模型的SR方法
近年來,基于神經(jīng)網(wǎng)絡(luò)(NN)的方法迅速興起,其強(qiáng)大的模式識(shí)別能力,可以從觀測(cè)數(shù)據(jù)中提取物理世界的潛在結(jié)構(gòu)。
但受制于其本身存在的「黑箱」特性,使其在推導(dǎo)物理定律時(shí)的可靠性受到質(zhì)疑。
神經(jīng)網(wǎng)絡(luò)方法的不足,重新引發(fā)了人們對(duì)符號(hào)方法的興趣,這類方法通過顯式數(shù)學(xué)表達(dá)式來優(yōu)先保證可解釋性。
符號(hào)回歸(SR)不同于傳統(tǒng)的回歸方法,它會(huì)同時(shí)探索數(shù)學(xué)表達(dá)式的結(jié)構(gòu)與參數(shù),它在重新發(fā)現(xiàn)控制方程與守恒量方面表現(xiàn)尤為突出。
而基于大模型技術(shù)的SR方法可以利用其豐富的跨學(xué)科知識(shí),為搜索提供有效引導(dǎo),生成更合理的候選表達(dá)式。
與神經(jīng)網(wǎng)絡(luò)不同,這類方法生成的人類可讀方程可以直接用于分析推導(dǎo),這對(duì)確保科學(xué)可證偽性至關(guān)重要。
然而,現(xiàn)有符號(hào)方法在處理多自由度復(fù)雜系統(tǒng)時(shí)仍會(huì)遇到搜索空間急劇膨脹的問題。此外,它們通常只能提煉出適用于某類特定問題的知識(shí),難以在不同實(shí)驗(yàn)條件下泛化。
因此,如何構(gòu)建一個(gè)能夠從數(shù)據(jù)中自主提取并泛化知識(shí)的系統(tǒng),仍是一個(gè)重大挑戰(zhàn)。
正是在這樣的背景下,研究人員提出了一個(gè)基于概念提取與合理推理的發(fā)現(xiàn)系統(tǒng)AI-Newton。
它整合了一個(gè)自主發(fā)現(xiàn)工作流,并由一個(gè)由符號(hào)化概念、特定定律與普適定律構(gòu)成的知識(shí)庫(KB)提供支持,這些知識(shí)通過一個(gè)物理領(lǐng)域?qū)S谜Z言(DSL)進(jìn)行表示。
通過這種方式,當(dāng)系統(tǒng)接收到一組物理實(shí)驗(yàn)時(shí),它能夠在完全沒有監(jiān)督、沒有任何物理先驗(yàn)知識(shí)的前提下,提出可適用于廣泛問題范圍的符號(hào)化普適定律。
知識(shí)庫與知識(shí)表示
知識(shí)庫,是AI-Newton的核心組成部分,它負(fù)責(zé)存儲(chǔ)與管理結(jié)構(gòu)化知識(shí)。
如下圖所示,它由實(shí)驗(yàn)庫與理論庫構(gòu)成。

AI-Newton通過一種語法與語義均嚴(yán)格定義的物理DSL來表示知識(shí)。
該DSL不僅可以將方程寫成數(shù)學(xué)表達(dá)式,還會(huì)按照抽象語法樹的結(jié)構(gòu),將物理對(duì)象的屬性以及物理量之間的關(guān)系編碼到DSL表示中。
實(shí)驗(yàn)庫,用于存儲(chǔ)物理實(shí)驗(yàn)及其對(duì)應(yīng)的數(shù)據(jù)模擬器。
每個(gè)實(shí)驗(yàn)的輸入僅包括涉及的物體、幾何信息、實(shí)驗(yàn)參數(shù)與時(shí)空坐標(biāo)。
為了確保系統(tǒng)不依賴任何物理先驗(yàn)知識(shí),其他所有概念(如質(zhì)量、能量等)都由AI-Newton自主提取。每個(gè)實(shí)驗(yàn)的輸出是帶有統(tǒng)計(jì)誤差的模擬數(shù)據(jù)。
理論庫,用于存儲(chǔ)系統(tǒng)自主發(fā)現(xiàn)的知識(shí)。
它采用以「概念」為中心的三層結(jié)構(gòu)(符號(hào)、概念、定律)。
概念對(duì)于人類物理學(xué)家制定簡潔又普適的定律至關(guān)重要。
與以往將神經(jīng)網(wǎng)絡(luò)的潛在特征解釋為物理概念的研究不同,AI-Newton以DSL表達(dá)式的方式顯式表示概念與定律。
這不僅提升了可解釋性,也能夠更方便地將已發(fā)現(xiàn)的知識(shí)遷移到不同任務(wù)中。
此外,與傳統(tǒng)符號(hào)方法相比,引入具有強(qiáng)表達(dá)能力的概念顯著減少了搜索空間,使表達(dá)式更加簡潔。
符號(hào)層用于存儲(chǔ)可用于表示物理知識(shí)的符號(hào)。
定律層存儲(chǔ)由AI-Newton發(fā)現(xiàn)的物理定律,包括守恒量和動(dòng)力學(xué)方程。
定律分為兩大類:一類是只適用于某一具體實(shí)驗(yàn)的特定定律,另一類是可以在多種實(shí)驗(yàn)條件下成立的一般定律。
比如,能量守恒、牛頓第二定律這樣的典型定律就屬于一般定律。
有了一般定律,AI-Newton就能夠用緊湊而簡潔的表達(dá)式,同時(shí)描述多個(gè)復(fù)雜系統(tǒng)中的物理過程。
自主發(fā)現(xiàn)工作流
AI-Newton將合理推理與符號(hào)方法相結(jié)合,構(gòu)建了一個(gè)自主的發(fā)現(xiàn)工作流。
該工作流可以持續(xù)從實(shí)驗(yàn)數(shù)據(jù)中提煉知識(shí),并以物理概念和物理定律的形式加以表示。每次分析試驗(yàn)都會(huì)嘗試完整地執(zhí)行這一流程,如圖1中所示。
所謂的「合理推理」,是一種基于局部證據(jù)進(jìn)行理性推斷的方法。
與嚴(yán)格的演繹邏輯不同,它給出的并不是在所有情形下都必然正確的結(jié)論,而是「在當(dāng)前語境下看起來合理」的結(jié)論,這與科學(xué)實(shí)踐中「先提出假說,再進(jìn)行嚴(yán)謹(jǐn)驗(yàn)證」的做法非常接近。
每次試驗(yàn)的起點(diǎn),是從知識(shí)庫中選擇一個(gè)實(shí)驗(yàn)和若干個(gè)概念。這一選擇由推薦引擎完成。
推薦引擎將受UCB算法啟發(fā)的價(jià)值函數(shù),與在發(fā)現(xiàn)過程中動(dòng)態(tài)自適應(yīng)的神經(jīng)網(wǎng)絡(luò)結(jié)合起來。
接下來,系統(tǒng)會(huì)在所選實(shí)驗(yàn)與概念的基礎(chǔ)上尋找新的定律。
特定定律可以通過在允許的運(yùn)算范圍內(nèi),直接搜索這些概念之間的關(guān)系來獲得,這相當(dāng)于符號(hào)回歸(SR)的一個(gè)特殊情形。
在此之上,還可以通過合理推理在已有一般定律的基礎(chǔ)上作擴(kuò)展,從而產(chǎn)生新的一般定律。
合理推理的核心思想是:
如果某條一般定律在多個(gè)實(shí)驗(yàn)中都成立,卻在當(dāng)前實(shí)驗(yàn)中失效,那么就有可能通過符號(hào)回歸在原表達(dá)式上添加一些簡單的額外項(xiàng),從而得到一條新的、在當(dāng)前實(shí)驗(yàn)中同樣有效的修正定律。
整體而言,系統(tǒng)以類似人類研究者的方式,啟發(fā)式地利用已有的一般定律與精心挑選的概念,去搜索能夠解釋新實(shí)驗(yàn)數(shù)據(jù)的物理定律。
通過這種一體化的架構(gòu),系統(tǒng)得以在多自由度系統(tǒng)中推導(dǎo)出重要的物理定律。
測(cè)試與結(jié)果
作為概念驗(yàn)證,研究人員將AI-Newton應(yīng)用于牛頓力學(xué)問題,重點(diǎn)考察了一組預(yù)先設(shè)定的46個(gè)實(shí)驗(yàn)。
這些問題涉及三類主要物理對(duì)象:球體(包括小球和天體)、彈簧以及斜面。

實(shí)驗(yàn)研究對(duì)象既包括孤立系統(tǒng),也包括耦合系統(tǒng),如圖2所示,主要包括:
- 單個(gè)小球和彈簧的自由運(yùn)動(dòng);
- 小球之間的彈性碰撞;
- 展現(xiàn)平動(dòng)振蕩、轉(zhuǎn)動(dòng)振蕩以及類擺運(yùn)動(dòng)的耦合系統(tǒng);
- 與重力相關(guān)的問題,例如拋體運(yùn)動(dòng)、斜面運(yùn)動(dòng),以及復(fù)雜的彈簧–小球系統(tǒng);
- 涉及引力相互作用的天體力學(xué)問題。
這樣構(gòu)建出的實(shí)驗(yàn)集合,覆蓋了牛頓力學(xué)中的三類典型力:彈力、近地重力以及萬有引力,同時(shí)納入了現(xiàn)實(shí)測(cè)量中存在的不確定性。
這一設(shè)置,有助于較為嚴(yán)格地評(píng)估AI-Newton在含噪聲實(shí)驗(yàn)數(shù)據(jù)中發(fā)現(xiàn)物理定律的能力。

在將最大試驗(yàn)次數(shù)設(shè)為1200的條件下,系統(tǒng)展現(xiàn)出較強(qiáng)的知識(shí)發(fā)現(xiàn)能力:在各個(gè)測(cè)試用例中,平均識(shí)別出約90個(gè)物理概念和50條一般定律。
在此基礎(chǔ)上,AI-Newton通過合理推理,最終給出了完整的能量守恒定律。
牛頓第二定律的發(fā)現(xiàn)過程與此類似。
研究人員通過對(duì)多組測(cè)試用例的綜合分析,觀察到AI-Newton的兩個(gè)根本特性:
漸進(jìn)性:人類物理學(xué)家不會(huì)在一步之內(nèi)就同時(shí)定義所有物理概念或?qū)懗鐾暾亩桑菑幕A(chǔ)概念做起,再在不斷探索中擴(kuò)展到更復(fù)雜的概念。這種漸進(jìn)式的模式在AI-Newton中也表現(xiàn)得很明顯。
多樣性:在遵循上述邏輯推進(jìn)的同時(shí),AI-Newton在不同測(cè)試用例中的行為又表現(xiàn)出明顯的多樣性。
設(shè)計(jì)一個(gè)能夠進(jìn)行無監(jiān)督科學(xué)發(fā)現(xiàn)的AI系統(tǒng),依然是一個(gè)開放問題。
AI-Newton不僅在一定程度上彌補(bǔ)了以往工作的不足,還展現(xiàn)出良好的擴(kuò)展?jié)摿Α?/span>
例如,它可以引入更強(qiáng)大的數(shù)學(xué)工具,有望顯著提升AI-Newton在定律推導(dǎo)與證偽方面的能力。
此外,AI-Newton的核心框架天然適合集成自然語言,這有望帶來更加多樣的知識(shí)表示形式和更靈活的合理推理機(jī)制。
這將有助于將那些難以用純數(shù)學(xué)表達(dá)式描述的物理概念和一般定律(如慣性、量子力學(xué)原理等),也得以在系統(tǒng)中更自然地表達(dá)。































