神經驅動的圖像編輯:結合腦機接口與擴散模型的創新方法
傳統的圖像編輯需要用戶具備專業的技術知識和大量的手動操作能力。近年來,雖然生成模型的發展使得基于指令的圖像編輯變得更加高效,但這些方法仍然依賴于用戶輸入大量的文本提示、視覺參考或物理操作,在很大程度上限制了圖像編輯的效率和可訪問性。
為了突破這一瓶頸,研究人員開始探索利用腦機接口(BCI)技術來實現圖像編輯。BCI技術通過直接解碼大腦信號,為用戶與設備之間的交互提供了一種全新的方式。但以往的研究大多僅限于單一模態數據,無法滿足復雜編輯場景下對用戶意圖的精準捕捉。
浙江大學、新加坡國立大學等高校聯合發布了LoongX,通過整合多模態神經生理信號(包括EEG、fNIRS、PPG和頭動信號),并結合先進的擴散模型和對比學習技術,實現了從用戶神經意圖到圖像編輯的無縫轉換。

CS3編碼器是LoongX系統中負責從多模態神經信號中提取特征的關鍵組件。其設計目標是從復雜的神經信號中提取出能夠有效表征用戶意圖的特征,同時確保這些特征能夠適應不同長度的輸入信號。為了實現這一目標,CS3編碼器采用了自適應特征金字塔和結構化的狀態空間模型(S3M)。
在特征提取過程中,CS3編碼器首先將輸入信號通過一個自適應平均池化(AAP)模塊,生成不同尺度的特征金字塔。這一過程類似于在不同分辨率下觀察同一信號,從而捕捉到信號中的多尺度信息。
以EEG信號為例,經過多層AAP處理后,可以得到一系列不同分辨率的特征表示。這些特征金字塔不僅保留了信號的細節信息,還能夠提供更宏觀的信號模式,為后續的特征融合提供了豐富的信息基礎。

為了進一步捕捉神經信號中動態的時空模式,CS3編碼器采用了結構化的狀態空間模型(S3M)。S3M是一種能夠高效處理長序列信號的模型,它通過分別對時間和通道信息進行編碼,實現了對信號的全面分析。
輸入信號經過填充和排列后,分別通過兩個并行的S3M塊進行處理。這兩個S3M塊分別關注信號的時間模式和通道動態,從而實現對信號的全面編碼。通過這種設計,CS3編碼器不僅能夠捕捉到信號中的短期動態變化,還能夠理解信號在更長時間尺度上的演變趨勢。
在特征融合階段,CS3編碼器將多尺度特征和時空特征沿著通道維度進行合并,并通過自適應非線性投影(ANP)模塊進行投影,得到最終的特征表示。ANP模塊由兩層全連接層、層歸一化(LayerNorm)、ReLU激活函數和Dropout組成,能夠對合并后的特征進行進一步的非線性變換,從而提取出更具代表性的特征。
最終,CS3編碼器輸出的特征不僅保留了輸入信號的關鍵信息,還能夠適應不同長度的輸入信號,為后續的特征融合和圖像編輯提供了堅實的基礎。

動態門控融合(DGF)則是LoongX系統中用于將不同模態的特征進行融合的關鍵所在。其主要功能是將來自不同模態的特征,例如,EEG、fNIRS、PPG和頭動信號動態地結合在一起,生成一個統一的潛在空間表示,并將其與文本嵌入進行對齊。
在門控混合階段,DGF模塊計算輸入內容嵌入和條件嵌入的實例均值和方差。這些統計量用于評估每個通道的信息含量和噪聲水平。通過一個一維門控網絡,DGF模塊為每個通道計算一個權重,這些權重用于自適應地混合統計信息。具體來說,門控網絡會根據每個通道的信息含量動態調整其權重,從而強調信息豐富的通道,抑制噪聲較大的通道。這種動態調整機制使得DGF模塊能夠根據輸入信號的特性靈活地選擇重要的特征信息。

接下來,在自適應仿射調制階段,DGF模塊對條件特征進行全局平均池化,生成一個全局特征表示。這個全局特征被傳遞到一個仿射網絡中,生成兩個仿射系數。這兩個系數用于對歸一化后的內容特征進行調制,從而實現對特征的動態調整。通過這種方式,DGF模塊能夠根據條件特征的全局信息對內容特征進行有針對性的調整,進一步優化特征表示。
在動態掩碼階段,DGF模塊計算條件特征的通道重要性分數,并選擇其中最重要的幾個通道。通過應用一個二進制掩碼,可以將不重要的通道信息過濾掉,從而提高特征的魯棒性和有效性。這種動態掩碼機制不僅能夠去除噪聲信息,還能夠保留對圖像編輯任務最有幫助的特征,進一步提升模型的性能。
































