谷歌使用大模型模擬神經(jīng)操作系統(tǒng),界面實(shí)時(shí)生成,人機(jī)交互新未來?
谷歌搞了個(gè)AI時(shí)代的神經(jīng)操作系統(tǒng)原型,里面的所有界面,都不是程序員提前寫好的,而是靠Gemini 2.5 Flash-Lite大模型實(shí)時(shí)生成出來的。

這是一個(gè)非常前沿的新型操作系統(tǒng)研究,是智能化人機(jī)交互的未來方向。
我們現(xiàn)在用的所有軟件,電腦系統(tǒng)也好,手機(jī)應(yīng)用也罷,每一個(gè)按鈕放在哪,每一個(gè)菜單長什么樣,都是開發(fā)者一行一行代碼提前規(guī)定好的。你點(diǎn)這個(gè)按鈕,它就執(zhí)行這個(gè)功能,跳轉(zhuǎn)到那個(gè)頁面,一切都是預(yù)設(shè)的。
但谷歌的這個(gè)研究原型,想玩點(diǎn)不一樣的。它問了一個(gè)問題:如果界面不是固定的,而是能根據(jù)你當(dāng)下的操作和需求,實(shí)時(shí)為你生成一個(gè)最合適的,那會(huì)是一種什么樣的體驗(yàn)?
為了回答這個(gè)問題,他們就動(dòng)手做了這個(gè)模擬的“神經(jīng)操作系統(tǒng)”。
你點(diǎn)的界面,AI正在為你生成
他們把這個(gè)原型系統(tǒng)比作一個(gè)操作系統(tǒng),但它的內(nèi)核不是傳統(tǒng)的代碼邏輯,而是一個(gè)大型語言模型。

要實(shí)現(xiàn)界面實(shí)時(shí)生成,模型的響應(yīng)速度必須跟得上人的操作速度。Gemini 2.5 Flash-Lite的低延遲特性,成了這個(gè)項(xiàng)目能跑起來的基礎(chǔ)。
在這個(gè)系統(tǒng)里,用戶的每一次點(diǎn)擊,每一次互動(dòng),都不是在打開一個(gè)預(yù)先設(shè)計(jì)好的窗口。恰恰相反,用戶的操作會(huì)變成一個(gè)指令,發(fā)給大模型,然后模型“憑空”生成一個(gè)全新的界面給你。
這就好比,你不是在一個(gè)已經(jīng)建好的城市里按地圖找路,而是你每向前走一步,你腳下的路和眼前的風(fēng)景才被創(chuàng)造出來。整個(gè)交互過程,變成了一場(chǎng)持續(xù)的、動(dòng)態(tài)的生成。
這代表著人機(jī)交互的一個(gè)全新方向,我們可能正在從一個(gè)靜態(tài)、固定的界面時(shí)代,慢慢走向一個(gè)動(dòng)態(tài)、生成的界面時(shí)代。
比如你完全不再需要多個(gè)APP來回切換、點(diǎn)擊登錄、復(fù)制粘貼,甚至都不需要APP,你對(duì)著手機(jī)說出你的需求,將實(shí)時(shí)生成一個(gè)最終包含多個(gè)互動(dòng)選項(xiàng)的界面等待你確認(rèn)即可。
這套“憑空造物”的功夫是怎么練的
讓大模型實(shí)時(shí)生成一個(gè)能用的界面,不是簡(jiǎn)單地對(duì)它說一句“給我畫個(gè)按鈕”就行了。谷歌的研究人員設(shè)計(jì)了一套精巧的機(jī)制,來引導(dǎo)和約束模型的行為。
他們把給模型的指令分成了兩個(gè)部分:“界面構(gòu)成”和“界面互動(dòng)”。
“界面構(gòu)成”像是一本操作系統(tǒng)的“設(shè)計(jì)規(guī)范”或者“風(fēng)格指南”。它是一段預(yù)設(shè)好的、相對(duì)固定的系統(tǒng)提示,里面定義了整個(gè)系統(tǒng)的基本外觀和行為準(zhǔn)則。
比如,所有窗口的邊框應(yīng)該是什么樣式,主屏幕的圖標(biāo)怎么排列,地圖這樣的特殊元素應(yīng)該如何嵌入等等。這部分內(nèi)容保證了無論模型怎么生成,整個(gè)系統(tǒng)的視覺風(fēng)格都是統(tǒng)一的,不會(huì)一會(huì)兒一個(gè)樣,讓用戶感覺精神分裂。
“界面互動(dòng)”則完全是動(dòng)態(tài)的。它是一個(gè)JSON格式的對(duì)象,專門用來捕捉用戶剛剛做的那個(gè)操作。比如你用鼠標(biāo)點(diǎn)了一個(gè)圖標(biāo),系統(tǒng)就會(huì)立刻生成一個(gè)JSON對(duì)象,詳細(xì)描述這次點(diǎn)擊的所有信息。
舉個(gè)例子,假設(shè)你在一個(gè)記事本應(yīng)用里,點(diǎn)擊了“保存筆記”這個(gè)按鈕,系統(tǒng)就會(huì)生成類似下面這樣的一個(gè)JSON對(duì)象,然后把它發(fā)給大模型。
{"id": "save_note_action","type": "button_press","value": "Meeting notes\n- Discuss Q3 roadmap\n- Finalize budget","elementType": "button","elementText": "Save Note","appContext": "notepad_app"}
{"id": "save_note_action",
"type": "button_press",
"value": "Meeting notes\n- Discuss Q3 roadmap\n- Finalize budget",
"elementType": "button",
"elementText": "Save Note",
"appContext": "notepad_app"}我們來拆解一下這個(gè)JSON對(duì)象里的信息:
id:save_note_action,這是“保存筆記”這個(gè)按鈕的唯一ID,像它的身份證號(hào)。type:button_press,說明用戶的操作類型是“按下了按鈕”。value:Meeting notes...,這是系統(tǒng)從記事本的文本框里自動(dòng)抓取的內(nèi)容,因?yàn)槟泓c(diǎn)的是保存,模型需要知道你要保存什么。elementType:button,說明被點(diǎn)擊的元素是個(gè)按鈕。elementText:Save Note,按鈕上顯示的文字是“保存筆記”。appContext:notepad_app,告訴模型,這個(gè)操作發(fā)生在“記事本應(yīng)用”這個(gè)上下文里。
把“界面構(gòu)成”(風(fēng)格指南)和“界面互動(dòng)”(用戶具體操作)這兩部分信息組合在一起,作為一次完整的請(qǐng)求發(fā)給Gemini模型,模型就能據(jù)此生成下一步的界面了。這種方法既保證了風(fēng)格統(tǒng)一,又能靈活應(yīng)對(duì)用戶的實(shí)時(shí)輸入。
光有單次互動(dòng)的上下文還不夠,一個(gè)聰明的操作系統(tǒng)應(yīng)該能理解用戶的一系列操作。
谷歌的原型就能做到這一點(diǎn)。它會(huì)記錄用戶最近的N次互動(dòng)歷史。這樣,模型在生成新界面時(shí),就能參考用戶之前都干了些什么。
這就是情境感知。通過調(diào)整這個(gè)“N”的大小,也就是互動(dòng)歷史記錄的長度,就可以在界面的情境準(zhǔn)確性和多樣性之間找到一個(gè)平衡點(diǎn)。
速度是體驗(yàn)的生命線。
如果每次點(diǎn)擊都要等模型生成完整的HTML代碼再渲染出來,那感覺就像在用2G網(wǎng)絡(luò)看高清視頻。為了解決這個(gè)問題,谷歌的原型用了兩個(gè)技術(shù):模型流式傳輸和瀏覽器原生解析器。
模型流式傳輸,就是讓模型生成一點(diǎn)代碼,就立刻發(fā)送一點(diǎn),而不是等全部生成完再一起發(fā)。瀏覽器接收到這些一小塊一小塊的HTML代碼后,會(huì)利用原生解析器立即進(jìn)行渲染。
對(duì)用戶來說,最終的體驗(yàn)就是界面元素幾乎是瞬間“生長”或者“流淌”出來的,而不是“啪”一下跳出來。這極大地提升了系統(tǒng)的響應(yīng)速度和流暢感。
還有一個(gè)問題:大模型本身是沒有記憶的。默認(rèn)情況下,你每次請(qǐng)求,它都會(huì)從頭生成一個(gè)全新的界面。
這意味著,你第一次打開一個(gè)文件夾,看到里面有三個(gè)文件。關(guān)掉再打開,里面可能就變成五個(gè)完全不同的文件了。這對(duì)于習(xí)慣了靜態(tài)圖形用戶界面(GUI)的用戶來說,簡(jiǎn)直是場(chǎng)災(zāi)難。
為了解決這個(gè)問題,原型系統(tǒng)提供了一個(gè)選項(xiàng),叫做“生成式界面圖”。
你可以把它理解成一個(gè)為當(dāng)前會(huì)話服務(wù)的“臨時(shí)內(nèi)存”。當(dāng)一個(gè)界面被首次生成后,系統(tǒng)會(huì)把它緩存到這個(gè)“圖”里。下次用戶再訪問同一個(gè)地方時(shí),系統(tǒng)會(huì)直接從緩存里把之前生成過的版本拿出來,而不是再去請(qǐng)求模型重新生成一次。
只有當(dāng)用戶要去一個(gè)從未去過的新地方時(shí),系統(tǒng)才會(huì)再次請(qǐng)求模型,并將新生成的界面也加入到這個(gè)“圖”里。
這樣一來,既保證了體驗(yàn)的穩(wěn)定性和狀態(tài)的持久性,又沒有犧牲生成式界面的靈活性。
學(xué)術(shù)圈也在琢磨同一件事
谷歌在做神經(jīng)操作系統(tǒng)的同時(shí),學(xué)術(shù)界也有團(tuán)隊(duì)在進(jìn)行類似的研究,并發(fā)表了一篇名為《NeuralOS: Towards Simulating Operating Systems via Neural Generative Models》的論文。

這個(gè)NeuralOS(神經(jīng)操作系統(tǒng))框架的目標(biāo)和谷歌的有點(diǎn)像,但實(shí)現(xiàn)路徑不太一樣。
NeuralOS不生成HTML代碼,它直接“畫”像素。它的工作方式是,接收用戶的鼠標(biāo)移動(dòng)、點(diǎn)擊、鍵盤輸入等事件,然后直接預(yù)測(cè)下一幀屏幕圖像應(yīng)該長什么樣。
為了實(shí)現(xiàn)這個(gè)目標(biāo),NeuralOS的架構(gòu)由兩部分組成:一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),用來跟蹤計(jì)算機(jī)的內(nèi)部狀態(tài);另一個(gè)是基于擴(kuò)散模型的神經(jīng)渲染器,專門負(fù)責(zé)生成屏幕圖像。
簡(jiǎn)單來說,RNN就像是大腦,負(fù)責(zé)記憶和邏輯,記住你剛剛打開了哪個(gè)應(yīng)用,光標(biāo)現(xiàn)在在哪里。擴(kuò)散模型就像是手,負(fù)責(zé)把大腦想的東西畫出來。
研究團(tuán)隊(duì)在一個(gè)大規(guī)模的Ubuntu XFCE(一個(gè)Linux發(fā)行版)操作系統(tǒng)的交互記錄數(shù)據(jù)集上訓(xùn)練這個(gè)模型。這些數(shù)據(jù)既包含了隨機(jī)生成的操作,也包含了AI代理產(chǎn)生的真實(shí)交互。
實(shí)驗(yàn)結(jié)果表明,NeuralOS成功地渲染出了真實(shí)的GUI序列,能準(zhǔn)確捕捉鼠標(biāo)的交互,并且可以可靠地預(yù)測(cè)像應(yīng)用啟動(dòng)這樣的狀態(tài)轉(zhuǎn)換。
從技術(shù)細(xì)節(jié)上看,NeuralOS的設(shè)計(jì)模仿了傳統(tǒng)操作系統(tǒng)內(nèi)部邏輯和GUI渲染分離的模式。它用一個(gè)分層的RNN來跟蹤用戶驅(qū)動(dòng)的狀態(tài)變化,然后用一個(gè)潛在空間擴(kuò)散模型來生成屏幕視覺。
這個(gè)模型在預(yù)測(cè)光標(biāo)位置方面表現(xiàn)相當(dāng)出色,誤差大約在1.5個(gè)像素以內(nèi)。在73種有挑戰(zhàn)性的狀態(tài)轉(zhuǎn)換測(cè)試中(比如打開某個(gè)特定應(yīng)用),它的準(zhǔn)確率達(dá)到了37.7%,顯著優(yōu)于基線模型。
當(dāng)然,NeuralOS也存在明顯的局限。它的分辨率很低,速度非常慢,只能達(dá)到1.8幀每秒(fps)。
這一切最終能用來做什么
雖然谷歌的神經(jīng)操作系統(tǒng)目前還只是一個(gè)研究原型,但它背后的技術(shù)和理念,已經(jīng)可以應(yīng)用到一些實(shí)際的場(chǎng)景中。
比如,情境式快捷方式。
想象一下,系統(tǒng)在后臺(tái)觀察你的操作模式。當(dāng)你正在多個(gè)網(wǎng)站之間來回切換,比較不同航班的價(jià)格時(shí),屏幕上可能會(huì)自動(dòng)彈出一個(gè)小小的懸浮窗。這個(gè)懸浮窗不是預(yù)設(shè)的,而是系統(tǒng)實(shí)時(shí)生成的,上面有幾個(gè)按鈕,可以幫你一鍵對(duì)比價(jià)格,或者直接預(yù)訂你瀏覽次數(shù)最多的那個(gè)航班。這個(gè)小工具幫你省去了好幾個(gè)步驟的重復(fù)操作。
另一個(gè)可能的應(yīng)用是在現(xiàn)有軟件中加入“生成式模式”。
開發(fā)者可以給自己的應(yīng)用增加一個(gè)開關(guān)。比如在谷歌日歷里,當(dāng)你需要重新安排一個(gè)會(huì)議時(shí)間時(shí),你不用再去手動(dòng)查看所有參會(huì)者的日程表。你只要激活“生成式模式”,拖動(dòng)一下這個(gè)會(huì)議邀請(qǐng),系統(tǒng)不會(huì)彈出那個(gè)標(biāo)準(zhǔn)的對(duì)話框,而是會(huì)生成一個(gè)全新的界面。這個(gè)界面上可能會(huì)直接用一系列按鈕列出所有人都方便的幾個(gè)最佳備選時(shí)間,你只需點(diǎn)擊一下即可。
這將創(chuàng)造一種混合體驗(yàn),靜態(tài)的、可靠的傳統(tǒng)界面和動(dòng)態(tài)的、智能的生成式界面,可以在同一個(gè)應(yīng)用里無縫共存。
這兩個(gè)項(xiàng)目,無論是谷歌的商業(yè)原型,還是學(xué)術(shù)界的NeuralOS,都指向了一個(gè)共同的未來:我們與計(jì)算機(jī)的交互方式,可能會(huì)發(fā)生根本性的變化。
計(jì)算機(jī)界面將不再是靜態(tài)和預(yù)定義的,而是可以像生命體一樣,根據(jù)環(huán)境和需求,動(dòng)態(tài)地生長和變化。
你怎么看這個(gè)事?

























