用視覺來做Prompt!沈向洋展示IDEA研究院新模型,無需訓(xùn)練或微調(diào),開箱即用
用視覺來做Prompt,是種什么體驗?
只需在圖里隨便框一下,結(jié)果秒秒鐘圈出同一類別!

即便是那種GPT-4V都難搞定的數(shù)米粒的環(huán)節(jié)。只需要你手動拉一下框,就能找出所有米粒來。

新的目標(biāo)檢測范式,有了!
剛剛結(jié)束的IDEA年度大會上,IDEA研究院創(chuàng)院理事長、美國國家工程院外籍院士沈向洋展示了最新研究成果——
基于視覺提示(Visual Prompt)模型T-Rex。

整個流程交互,開箱即用,只需幾步就可以完成。
此前,Meta開源的SAM分割一切模型,直接讓CV領(lǐng)域迎來了GPT-3時刻,但仍是基于文本prompt的范式,在應(yīng)對一些復(fù)雜、罕見場景就會比較難辦。
現(xiàn)在以圖換圖的方式,就能輕松迎刃而解。
除此之外,整場大會也是干貨滿滿,比如Think-on-Graph知識驅(qū)動大模型、開發(fā)者平臺MoonBit月兔、AI科研神器ReadPaper更新2.0、SPU機密計算協(xié)處理器、可控人像視頻生成平臺HiveNet等等。
最后,沈向洋還分享了過去幾年時間花時間最多的一個項目:低空經(jīng)濟。
我相信當(dāng)?shù)涂战?jīng)濟發(fā)展到相對成熟時,同一個時間點,在深圳的天空中每天有10萬架無人機,每天飛起來的有百萬架無人機。
用視覺來做Prompt
除了基礎(chǔ)的單輪提示功能,T-Rex還支持三種進階模式。
- 多輪正例模式
有點像多輪對話,以得出更為精確的結(jié)果,不至于出現(xiàn)漏檢的情況。
- 正例+負例模式
適用于視覺提示帶有二義性造成誤檢的場景。
* 跨圖模式。
用單張參考圖提示,來檢測其他的圖。

據(jù)介紹,T-Rex不會受到預(yù)定義類別限制,能夠利用視覺示例指定檢測目標(biāo),這樣一來就克服有些物體難以用文字充分表達的問題,以提高提示效率。尤其像一些工業(yè)場景中的復(fù)雜組件等。

除此之外,通過與用戶交互的方式,也可以隨時快速地評估檢測結(jié)果,并進行糾錯等。
T-Rex主要由三個組件組成:圖像編碼器、提示編碼器以及框解碼器。

這項工作來自IDEA研究院計算機視覺與機器人研究中心。
該團隊此前開源的目標(biāo)檢測模型DINO是首個在COCO目標(biāo)檢測上取得榜單第一的DETR類模型;在Github上大火(至今狂攬11K星)的零樣本檢測器Grounding DINO與能夠檢測、分割一切的Grounded SAM。更多技術(shù)細節(jié)可戳文末鏈接。
整場大會干貨滿滿
除此之外,IDEA大會上還重點分享了幾個研究成果。
比如Think-on-Graph知識驅(qū)動大模型,簡單來說就是將大模型與知識圖譜結(jié)合。
大模型擅長意圖理解和自主學(xué)習(xí),而知識圖譜因其結(jié)構(gòu)化的知識存儲方式,更擅長邏輯鏈條推理。
Think-on-Graph通過驅(qū)動大模型agent在知識圖譜上“思考”,逐步搜索推理出最優(yōu)答案(在知識圖譜的關(guān)聯(lián)實體上一步一步搜索推理)。每一步推理中,大模型都親自參與,與知識圖譜相互取長補短。

MoonBit月兔,這是由Wasm驅(qū)動,專為云計算與邊緣計算設(shè)計的開發(fā)者平臺。
它不僅提供通用程序語言設(shè)計,還整合了編譯器、構(gòu)建系統(tǒng)、集成開發(fā)環(huán)境(IDE)、部署工具等版塊,來提升開發(fā)體驗與效率。

此前發(fā)布的科研神器ReadPaper也更新至2.0,發(fā)布會現(xiàn)場演示了閱讀copilot、潤色copilot等新功能。

發(fā)布會最后,沈向洋發(fā)布《低空經(jīng)濟發(fā)展白皮書(2.0)——全數(shù)字化方案》,在其智能融合低空系統(tǒng)(Smart Integrated Lower Airspace System,SILAS)中,提出時空進程(Temporal Spatial Process)新概念。
T-Rex鏈接:
https://trex-counting.github.io/




























