谷歌使用大模型模擬神經(jīng)操作系統(tǒng)，界面實(shí)時(shí)生成，人機(jī)交互新未來？

2025-09-29 13:58:14

這是一個(gè)非常前沿的新型操作系統(tǒng)研究，是智能化人機(jī)交互的未來方向。

谷歌搞了個(gè)AI時(shí)代的神經(jīng)操作系統(tǒng)原型，里面的所有界面，都不是程序員提前寫好的，而是靠Gemini 2.5 Flash-Lite大模型實(shí)時(shí)生成出來的。

這是一個(gè)非常前沿的新型操作系統(tǒng)研究，是智能化人機(jī)交互的未來方向。

我們現(xiàn)在用的所有軟件，電腦系統(tǒng)也好，手機(jī)應(yīng)用也罷，每一個(gè)按鈕放在哪，每一個(gè)菜單長什么樣，都是開發(fā)者一行一行代碼提前規(guī)定好的。你點(diǎn)這個(gè)按鈕，它就執(zhí)行這個(gè)功能，跳轉(zhuǎn)到那個(gè)頁面，一切都是預(yù)設(shè)的。

但谷歌的這個(gè)研究原型，想玩點(diǎn)不一樣的。它問了一個(gè)問題：如果界面不是固定的，而是能根據(jù)你當(dāng)下的操作和需求，實(shí)時(shí)為你生成一個(gè)最合適的，那會(huì)是一種什么樣的體驗(yàn)？

為了回答這個(gè)問題，他們就動(dòng)手做了這個(gè)模擬的“神經(jīng)操作系統(tǒng)”。

你點(diǎn)的界面，AI正在為你生成

他們把這個(gè)原型系統(tǒng)比作一個(gè)操作系統(tǒng)，但它的內(nèi)核不是傳統(tǒng)的代碼邏輯，而是一個(gè)大型語言模型。

要實(shí)現(xiàn)界面實(shí)時(shí)生成，模型的響應(yīng)速度必須跟得上人的操作速度。Gemini 2.5 Flash-Lite的低延遲特性，成了這個(gè)項(xiàng)目能跑起來的基礎(chǔ)。

在這個(gè)系統(tǒng)里，用戶的每一次點(diǎn)擊，每一次互動(dòng)，都不是在打開一個(gè)預(yù)先設(shè)計(jì)好的窗口。恰恰相反，用戶的操作會(huì)變成一個(gè)指令，發(fā)給大模型，然后模型“憑空”生成一個(gè)全新的界面給你。

這就好比，你不是在一個(gè)已經(jīng)建好的城市里按地圖找路，而是你每向前走一步，你腳下的路和眼前的風(fēng)景才被創(chuàng)造出來。整個(gè)交互過程，變成了一場(chǎng)持續(xù)的、動(dòng)態(tài)的生成。

這代表著人機(jī)交互的一個(gè)全新方向，我們可能正在從一個(gè)靜態(tài)、固定的界面時(shí)代，慢慢走向一個(gè)動(dòng)態(tài)、生成的界面時(shí)代。

比如你完全不再需要多個(gè)APP來回切換、點(diǎn)擊登錄、復(fù)制粘貼，甚至都不需要APP，你對(duì)著手機(jī)說出你的需求，將實(shí)時(shí)生成一個(gè)最終包含多個(gè)互動(dòng)選項(xiàng)的界面等待你確認(rèn)即可。

這套“憑空造物”的功夫是怎么練的

讓大模型實(shí)時(shí)生成一個(gè)能用的界面，不是簡(jiǎn)單地對(duì)它說一句“給我畫個(gè)按鈕”就行了。谷歌的研究人員設(shè)計(jì)了一套精巧的機(jī)制，來引導(dǎo)和約束模型的行為。

他們把給模型的指令分成了兩個(gè)部分：“界面構(gòu)成”和“界面互動(dòng)”。

“界面構(gòu)成”像是一本操作系統(tǒng)的“設(shè)計(jì)規(guī)范”或者“風(fēng)格指南”。它是一段預(yù)設(shè)好的、相對(duì)固定的系統(tǒng)提示，里面定義了整個(gè)系統(tǒng)的基本外觀和行為準(zhǔn)則。

比如，所有窗口的邊框應(yīng)該是什么樣式，主屏幕的圖標(biāo)怎么排列，地圖這樣的特殊元素應(yīng)該如何嵌入等等。這部分內(nèi)容保證了無論模型怎么生成，整個(gè)系統(tǒng)的視覺風(fēng)格都是統(tǒng)一的，不會(huì)一會(huì)兒一個(gè)樣，讓用戶感覺精神分裂。

“界面互動(dòng)”則完全是動(dòng)態(tài)的。它是一個(gè)JSON格式的對(duì)象，專門用來捕捉用戶剛剛做的那個(gè)操作。比如你用鼠標(biāo)點(diǎn)了一個(gè)圖標(biāo)，系統(tǒng)就會(huì)立刻生成一個(gè)JSON對(duì)象，詳細(xì)描述這次點(diǎn)擊的所有信息。

舉個(gè)例子，假設(shè)你在一個(gè)記事本應(yīng)用里，點(diǎn)擊了“保存筆記”這個(gè)按鈕，系統(tǒng)就會(huì)生成類似下面這樣的一個(gè)JSON對(duì)象，然后把它發(fā)給大模型。

{"id": "save_note_action","type": "button_press","value": "Meeting notes\n- Discuss Q3 roadmap\n- Finalize budget","elementType": "button","elementText": "Save Note","appContext": "notepad_app"}

{"id": "save_note_action",
"type": "button_press",
"value": "Meeting notes\n- Discuss Q3 roadmap\n- Finalize budget",
"elementType": "button",
"elementText": "Save Note",
"appContext": "notepad_app"}

我們來拆解一下這個(gè)JSON對(duì)象里的信息：

id: save_note_action，這是“保存筆記”這個(gè)按鈕的唯一ID，像它的身份證號(hào)。
type: button_press，說明用戶的操作類型是“按下了按鈕”。
value: Meeting notes...，這是系統(tǒng)從記事本的文本框里自動(dòng)抓取的內(nèi)容，因?yàn)槟泓c(diǎn)的是保存，模型需要知道你要保存什么。
elementType: button，說明被點(diǎn)擊的元素是個(gè)按鈕。
elementText: Save Note，按鈕上顯示的文字是“保存筆記”。
appContext: notepad_app，告訴模型，這個(gè)操作發(fā)生在“記事本應(yīng)用”這個(gè)上下文里。

把“界面構(gòu)成”（風(fēng)格指南）和“界面互動(dòng)”（用戶具體操作）這兩部分信息組合在一起，作為一次完整的請(qǐng)求發(fā)給Gemini模型，模型就能據(jù)此生成下一步的界面了。這種方法既保證了風(fēng)格統(tǒng)一，又能靈活應(yīng)對(duì)用戶的實(shí)時(shí)輸入。

光有單次互動(dòng)的上下文還不夠，一個(gè)聰明的操作系統(tǒng)應(yīng)該能理解用戶的一系列操作。

谷歌的原型就能做到這一點(diǎn)。它會(huì)記錄用戶最近的N次互動(dòng)歷史。這樣，模型在生成新界面時(shí)，就能參考用戶之前都干了些什么。

這就是情境感知。通過調(diào)整這個(gè)“N”的大小，也就是互動(dòng)歷史記錄的長度，就可以在界面的情境準(zhǔn)確性和多樣性之間找到一個(gè)平衡點(diǎn)。

速度是體驗(yàn)的生命線。

如果每次點(diǎn)擊都要等模型生成完整的HTML代碼再渲染出來，那感覺就像在用2G網(wǎng)絡(luò)看高清視頻。為了解決這個(gè)問題，谷歌的原型用了兩個(gè)技術(shù)：模型流式傳輸和瀏覽器原生解析器。

模型流式傳輸，就是讓模型生成一點(diǎn)代碼，就立刻發(fā)送一點(diǎn)，而不是等全部生成完再一起發(fā)。瀏覽器接收到這些一小塊一小塊的HTML代碼后，會(huì)利用原生解析器立即進(jìn)行渲染。

對(duì)用戶來說，最終的體驗(yàn)就是界面元素幾乎是瞬間“生長”或者“流淌”出來的，而不是“啪”一下跳出來。這極大地提升了系統(tǒng)的響應(yīng)速度和流暢感。

還有一個(gè)問題：大模型本身是沒有記憶的。默認(rèn)情況下，你每次請(qǐng)求，它都會(huì)從頭生成一個(gè)全新的界面。

這意味著，你第一次打開一個(gè)文件夾，看到里面有三個(gè)文件。關(guān)掉再打開，里面可能就變成五個(gè)完全不同的文件了。這對(duì)于習(xí)慣了靜態(tài)圖形用戶界面（GUI）的用戶來說，簡(jiǎn)直是場(chǎng)災(zāi)難。

為了解決這個(gè)問題，原型系統(tǒng)提供了一個(gè)選項(xiàng)，叫做“生成式界面圖”。

你可以把它理解成一個(gè)為當(dāng)前會(huì)話服務(wù)的“臨時(shí)內(nèi)存”。當(dāng)一個(gè)界面被首次生成后，系統(tǒng)會(huì)把它緩存到這個(gè)“圖”里。下次用戶再訪問同一個(gè)地方時(shí)，系統(tǒng)會(huì)直接從緩存里把之前生成過的版本拿出來，而不是再去請(qǐng)求模型重新生成一次。

只有當(dāng)用戶要去一個(gè)從未去過的新地方時(shí)，系統(tǒng)才會(huì)再次請(qǐng)求模型，并將新生成的界面也加入到這個(gè)“圖”里。

這樣一來，既保證了體驗(yàn)的穩(wěn)定性和狀態(tài)的持久性，又沒有犧牲生成式界面的靈活性。

學(xué)術(shù)圈也在琢磨同一件事

谷歌在做神經(jīng)操作系統(tǒng)的同時(shí)，學(xué)術(shù)界也有團(tuán)隊(duì)在進(jìn)行類似的研究，并發(fā)表了一篇名為《NeuralOS: Towards Simulating Operating Systems via Neural Generative Models》的論文。

這個(gè)NeuralOS（神經(jīng)操作系統(tǒng)）框架的目標(biāo)和谷歌的有點(diǎn)像，但實(shí)現(xiàn)路徑不太一樣。

NeuralOS不生成HTML代碼，它直接“畫”像素。它的工作方式是，接收用戶的鼠標(biāo)移動(dòng)、點(diǎn)擊、鍵盤輸入等事件，然后直接預(yù)測(cè)下一幀屏幕圖像應(yīng)該長什么樣。

為了實(shí)現(xiàn)這個(gè)目標(biāo)，NeuralOS的架構(gòu)由兩部分組成：一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），用來跟蹤計(jì)算機(jī)的內(nèi)部狀態(tài)；另一個(gè)是基于擴(kuò)散模型的神經(jīng)渲染器，專門負(fù)責(zé)生成屏幕圖像。

簡(jiǎn)單來說，RNN就像是大腦，負(fù)責(zé)記憶和邏輯，記住你剛剛打開了哪個(gè)應(yīng)用，光標(biāo)現(xiàn)在在哪里。擴(kuò)散模型就像是手，負(fù)責(zé)把大腦想的東西畫出來。

研究團(tuán)隊(duì)在一個(gè)大規(guī)模的Ubuntu XFCE（一個(gè)Linux發(fā)行版）操作系統(tǒng)的交互記錄數(shù)據(jù)集上訓(xùn)練這個(gè)模型。這些數(shù)據(jù)既包含了隨機(jī)生成的操作，也包含了AI代理產(chǎn)生的真實(shí)交互。

實(shí)驗(yàn)結(jié)果表明，NeuralOS成功地渲染出了真實(shí)的GUI序列，能準(zhǔn)確捕捉鼠標(biāo)的交互，并且可以可靠地預(yù)測(cè)像應(yīng)用啟動(dòng)這樣的狀態(tài)轉(zhuǎn)換。

從技術(shù)細(xì)節(jié)上看，NeuralOS的設(shè)計(jì)模仿了傳統(tǒng)操作系統(tǒng)內(nèi)部邏輯和GUI渲染分離的模式。它用一個(gè)分層的RNN來跟蹤用戶驅(qū)動(dòng)的狀態(tài)變化，然后用一個(gè)潛在空間擴(kuò)散模型來生成屏幕視覺。

這個(gè)模型在預(yù)測(cè)光標(biāo)位置方面表現(xiàn)相當(dāng)出色，誤差大約在1.5個(gè)像素以內(nèi)。在73種有挑戰(zhàn)性的狀態(tài)轉(zhuǎn)換測(cè)試中（比如打開某個(gè)特定應(yīng)用），它的準(zhǔn)確率達(dá)到了37.7%，顯著優(yōu)于基線模型。

當(dāng)然，NeuralOS也存在明顯的局限。它的分辨率很低，速度非常慢，只能達(dá)到1.8幀每秒（fps）。

這一切最終能用來做什么

雖然谷歌的神經(jīng)操作系統(tǒng)目前還只是一個(gè)研究原型，但它背后的技術(shù)和理念，已經(jīng)可以應(yīng)用到一些實(shí)際的場(chǎng)景中。

比如，情境式快捷方式。

想象一下，系統(tǒng)在后臺(tái)觀察你的操作模式。當(dāng)你正在多個(gè)網(wǎng)站之間來回切換，比較不同航班的價(jià)格時(shí)，屏幕上可能會(huì)自動(dòng)彈出一個(gè)小小的懸浮窗。這個(gè)懸浮窗不是預(yù)設(shè)的，而是系統(tǒng)實(shí)時(shí)生成的，上面有幾個(gè)按鈕，可以幫你一鍵對(duì)比價(jià)格，或者直接預(yù)訂你瀏覽次數(shù)最多的那個(gè)航班。這個(gè)小工具幫你省去了好幾個(gè)步驟的重復(fù)操作。

另一個(gè)可能的應(yīng)用是在現(xiàn)有軟件中加入“生成式模式”。

開發(fā)者可以給自己的應(yīng)用增加一個(gè)開關(guān)。比如在谷歌日歷里，當(dāng)你需要重新安排一個(gè)會(huì)議時(shí)間時(shí)，你不用再去手動(dòng)查看所有參會(huì)者的日程表。你只要激活“生成式模式”，拖動(dòng)一下這個(gè)會(huì)議邀請(qǐng)，系統(tǒng)不會(huì)彈出那個(gè)標(biāo)準(zhǔn)的對(duì)話框，而是會(huì)生成一個(gè)全新的界面。這個(gè)界面上可能會(huì)直接用一系列按鈕列出所有人都方便的幾個(gè)最佳備選時(shí)間，你只需點(diǎn)擊一下即可。

這將創(chuàng)造一種混合體驗(yàn)，靜態(tài)的、可靠的傳統(tǒng)界面和動(dòng)態(tài)的、智能的生成式界面，可以在同一個(gè)應(yīng)用里無縫共存。

這兩個(gè)項(xiàng)目，無論是谷歌的商業(yè)原型，還是學(xué)術(shù)界的NeuralOS，都指向了一個(gè)共同的未來：我們與計(jì)算機(jī)的交互方式，可能會(huì)發(fā)生根本性的變化。

計(jì)算機(jī)界面將不再是靜態(tài)和預(yù)定義的，而是可以像生命體一樣，根據(jù)環(huán)境和需求，動(dòng)態(tài)地生長和變化。

你怎么看這個(gè)事？

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)