無(wú)線合成數(shù)據(jù)助力破解物理感知大模型數(shù)據(jù)瓶頸,SynCheck獲頂會(huì)最佳論文獎(jiǎng)
在萬(wàn)物互聯(lián)的智能時(shí)代,具身智能和空間智能需要的不僅是視覺(jué)和語(yǔ)言,還需要突破傳統(tǒng)感官限制的能力;無(wú)線感知正成為突破這些物理限制的關(guān)鍵技術(shù):通過(guò)捕捉無(wú)線信號(hào)的反射特性,它讓不可見(jiàn)的目標(biāo)變得可感知,使機(jī)器能夠 "看見(jiàn)" 墻壁后的動(dòng)靜、"感知" 數(shù)米外的動(dòng)作,甚至捕捉到人類難以察覺(jué)的微妙變化。這種全新的感知維度,能對(duì)環(huán)境中人機(jī)行為實(shí)現(xiàn)無(wú)感監(jiān)測(cè)與精準(zhǔn)解析,正在重塑人機(jī)交互的邊界。
從感知到?jīng)Q策,離不開(kāi)具有強(qiáng)大語(yǔ)義理解能力的大模型。但怎樣構(gòu)建一個(gè)除了視覺(jué)和語(yǔ)言之外,能夠理解物理原理(電磁場(chǎng)、光學(xué)、聲學(xué)等)、與物理世界交互的大模型?
這一問(wèn)題并不能復(fù)制語(yǔ)言、視覺(jué)大模型的經(jīng)驗(yàn),因?yàn)榇竽P涂梢詮娜祟悗浊甑奈淖仲Y料中學(xué)習(xí)語(yǔ)言,可以從整個(gè)互聯(lián)網(wǎng)的視頻學(xué)習(xí)視覺(jué);但除此以外,能提供給模型學(xué)習(xí)的數(shù)據(jù)微乎其微;僅依賴真實(shí)世界的數(shù)據(jù)采集,難以支持大模型所需的海量數(shù)據(jù)。
為解決數(shù)據(jù)稀缺這一最大挑戰(zhàn),北京大學(xué)的許辰人教授團(tuán)隊(duì)和匹茲堡大學(xué)的高偉教授聯(lián)合提出 SynCheck,為機(jī)器學(xué)習(xí)提供與真實(shí)數(shù)據(jù)質(zhì)量相近的合成數(shù)據(jù)。相關(guān)工作發(fā)表在移動(dòng)計(jì)算領(lǐng)域旗艦會(huì)議 MobiSys 2025 上,并獲得會(huì)議的最佳論文獎(jiǎng)。

- 論文標(biāo)題:Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data
- 論文鏈接:https://arxiv.org/abs/2506.23174
- 代碼鏈接:https://github.com/MobiSys25AE/SynCheck
1. 生成模型評(píng)估:數(shù)據(jù)導(dǎo)向的效率優(yōu)化
在無(wú)線感知領(lǐng)域,生成模型已被廣泛用于產(chǎn)生合成數(shù)據(jù)以補(bǔ)充真實(shí)數(shù)據(jù)集。然而,現(xiàn)有研究大多只關(guān)注數(shù)據(jù)量的擴(kuò)充,而忽視了合成數(shù)據(jù)的質(zhì)量問(wèn)題。為解決這一問(wèn)題,研究團(tuán)隊(duì)提出了兩個(gè)創(chuàng)新性質(zhì)量指標(biāo):
- 親和力(affinity):衡量合成數(shù)據(jù)與真實(shí)數(shù)據(jù)的相似度
- 多樣性(diversity):評(píng)估合成數(shù)據(jù)覆蓋真實(shí)數(shù)據(jù)分布的范圍

圖:兩類質(zhì)量指標(biāo)的解釋
與以往依賴視覺(jué)啟發(fā)或局限于特定數(shù)據(jù)集的質(zhì)量評(píng)估方法不同,這項(xiàng)研究通過(guò)貝葉斯分析和性能指標(biāo)建立了具有理論支撐的通用評(píng)估框架。研究還引入 "邊際"(margin) 概念作為性能指標(biāo),利用訓(xùn)練集的邊際分布作為自然參考標(biāo)準(zhǔn),實(shí)現(xiàn)了跨數(shù)據(jù)集的公平比較。

圖:基于 margin 的質(zhì)量評(píng)估方法
研究團(tuán)隊(duì)通過(guò)系統(tǒng)評(píng)估發(fā)現(xiàn),現(xiàn)有無(wú)線合成數(shù)據(jù)普遍存在 “親和力不足” 的問(wèn)題,這會(huì)導(dǎo)致數(shù)據(jù)標(biāo)簽錯(cuò)誤,進(jìn)而降低任務(wù)性能。
2. 合成數(shù)據(jù)應(yīng)用:質(zhì)量?jī)?yōu)先的性能突破
基于質(zhì)量評(píng)估結(jié)果,團(tuán)隊(duì)開(kāi)發(fā)了 SynCheck 框架,其核心創(chuàng)新在于:
- 將合成數(shù)據(jù)視為未標(biāo)記數(shù)據(jù),真實(shí)數(shù)據(jù)作為標(biāo)記數(shù)據(jù)
- 采用半監(jiān)督學(xué)習(xí)框架結(jié)合兩種數(shù)據(jù)源,在迭代訓(xùn)練過(guò)程中過(guò)濾低親和力合成樣本,為剩余樣本分配偽標(biāo)簽
這種方法不需要修改生成模型的訓(xùn)練或推理過(guò)程,可以作為通用后處理步驟適配各種生成流程。

圖:基于半監(jiān)督學(xué)習(xí)的合成數(shù)據(jù)通用后處理使用方法
實(shí)驗(yàn)結(jié)果顯示,SynCheck 在性能上實(shí)現(xiàn)了顯著提升:
- 在質(zhì)量無(wú)關(guān)方法導(dǎo)致性能下降 13.4% 的最壞情況下,仍能實(shí)現(xiàn) 4.3% 的性能提升
- 最佳情況下性能提升達(dá) 12.9%
- 過(guò)濾后的合成數(shù)據(jù)展現(xiàn)出更好的親和力,同時(shí)保持了與原始數(shù)據(jù)相當(dāng)?shù)亩鄻有?/span>

圖:合成數(shù)據(jù)的不同使用方法的性能對(duì)比
在逐步提升合成數(shù)據(jù)占比的過(guò)程中,由于合成數(shù)據(jù)與真實(shí)數(shù)據(jù)存在分布差異,其他基線方法的任務(wù)性能會(huì)隨著合成數(shù)據(jù)比例增加而顯著下降,這種分布偏移現(xiàn)象破壞了任務(wù)性能與訓(xùn)練數(shù)據(jù)之間的 scaling law 規(guī)律。相比之下,SynCheck 方法通過(guò)動(dòng)態(tài)校正合成數(shù)據(jù)的分布偏差,使得模型性能能夠保持穩(wěn)定提升,最終收斂至最優(yōu)狀態(tài)。

圖:任務(wù)性能隨合成數(shù)據(jù)規(guī)模擴(kuò)展的變化趨勢(shì)
3. 超越數(shù)據(jù)瓶頸:無(wú)線大模型的規(guī)?;瘧?yīng)用前景
當(dāng)前學(xué)術(shù)界對(duì)合成數(shù)據(jù)的研究呈現(xiàn)明顯的觀點(diǎn)分野。持審慎態(tài)度的學(xué)者從理論推演和實(shí)證研究出發(fā),提出了 "模型崩塌"(model collapse)的警示 —— 這類似于生物學(xué)上的近親繁殖現(xiàn)象,當(dāng)模型持續(xù)消化自身生成的數(shù)據(jù)時(shí),其性能將不可避免地出現(xiàn)退化。然而,另一批研究者則持樂(lè)觀態(tài)度,他們認(rèn)為通過(guò)引入驗(yàn)證器(verifier)機(jī)制,完全可以規(guī)避模型崩潰的風(fēng)險(xiǎn)。值得注意的是,現(xiàn)有研究多集中于數(shù)學(xué)、代碼等具有明確評(píng)價(jià)標(biāo)準(zhǔn)的領(lǐng)域,而在復(fù)雜度更高的任務(wù)場(chǎng)景中,這一問(wèn)題的驗(yàn)證仍面臨挑戰(zhàn)。
北京大學(xué)和匹茲堡大學(xué)的研究團(tuán)隊(duì)創(chuàng)新性地提出了以目標(biāo)任務(wù)模型為橋梁的研究范式,成功建立了合成數(shù)據(jù)與真實(shí)數(shù)據(jù)條件分布之間的映射關(guān)系。這一突破性進(jìn)展為無(wú)線感知這一真實(shí)數(shù)據(jù)匱乏但性能導(dǎo)向的領(lǐng)域,確立了切實(shí)可行的數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)與篩選方法。
未來(lái),研究團(tuán)隊(duì)將致力于推動(dòng)無(wú)線大模型的訓(xùn)練范式革新,通過(guò)拓展數(shù)據(jù)源的多樣化泛化路徑,探索更高效的預(yù)訓(xùn)練任務(wù)架構(gòu),實(shí)現(xiàn)合成數(shù)據(jù)與多元數(shù)據(jù)源的有機(jī)融合。在此基礎(chǔ)上,團(tuán)隊(duì)將進(jìn)一步構(gòu)建面向各類無(wú)線感知任務(wù)的通用預(yù)訓(xùn)練框架,積極拓展多樣化的數(shù)據(jù)來(lái)源,依托更強(qiáng)大的無(wú)線大模型,為具身智能系統(tǒng)提供堅(jiān)實(shí)的感知與決策支撐。這些研究不僅將深化對(duì)合成數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)的理論認(rèn)知,更將為新一代具身智能系統(tǒng)的創(chuàng)新發(fā)展奠定基礎(chǔ),推動(dòng)人工智能在物理世界的深度融合與廣泛應(yīng)用。































