被阿里挖來(lái)的高級(jí)別華人科學(xué)家,聊聊AI帶來(lái)的想象空間
他曾是亞馬遜***級(jí)別的華人科學(xué)家,他也是 1 年前轟動(dòng)全球零售業(yè)的亞馬遜無(wú)人零售店項(xiàng)目 Amazon Go 的重要策劃者。而現(xiàn)在,他的身份是阿里巴巴 iDST ***科學(xué)家兼副院長(zhǎng)。
因此,在云棲大會(huì)新零售峰會(huì)上,任小楓大概是談「人工智能如何在新零售場(chǎng)景下進(jìn)行應(yīng)用」這個(gè)話題中最有話語(yǔ)權(quán)的科學(xué)家之一。
除了向大家介紹了自己最為擅長(zhǎng)的計(jì)算機(jī)識(shí)別技術(shù),他也在演講中披露了自己對(duì)新零售諸多應(yīng)用場(chǎng)景中的 4 個(gè)最感興趣也最看好的應(yīng)用方向:
增強(qiáng)現(xiàn)實(shí)、智慧門店、機(jī)器人、可穿戴設(shè)備。
至于原因,請(qǐng)仔細(xì)閱讀任小楓在這次大會(huì)上由機(jī)器之能整理的全篇演講:
今天非常高興能夠有這個(gè)機(jī)會(huì)來(lái)這里跟大家分享一下我的一些想法。
剛才看到天貓小店的視頻,非常好,它的存在已經(jīng)給了大家很多 想像 的空間。也給大家描述了很好的未來(lái)。而作為一個(gè)技術(shù)人員,我平時(shí)大多數(shù)時(shí)間其實(shí)是在思考怎么樣解決實(shí)際的技術(shù)問題,怎么實(shí)現(xiàn)這個(gè)未來(lái)。
當(dāng)然,解決問題也并不是工作的全部,有的時(shí)候確實(shí)也會(huì)想一下未來(lái)會(huì)是什么樣子的,所以很高興有這個(gè)機(jī)會(huì)跟大家分享一下。
不過(guò)因?yàn)槠鋵?shí)我在美國(guó)工作生活了很長(zhǎng)時(shí)間,所以新零售這件事情很多時(shí)候?qū)ξ襾?lái)說(shuō)也是一個(gè)迷,前面聽了曾教授也好,還有其它各位講的,我也學(xué)到很多。
怎樣去解開這個(gè)謎呢?我去看了一下前段時(shí)間阿里研究院有關(guān)于新零售的報(bào)告,那個(gè)對(duì)于新零售有一個(gè)非常全面的總結(jié): 新零售是以消費(fèi)者體驗(yàn)為中心的,數(shù)據(jù)驅(qū)動(dòng)的泛零售的形態(tài)。
其實(shí)雖然是短短的一句話,但里面有很多的信息。有一個(gè)比較難讓我們控制這個(gè) 想像 空間的是因?yàn)槟軌驊?yīng)用的場(chǎng)景是非常的多,比方說(shuō)批發(fā)零售、物流、娛樂、餐飲,其實(shí)就是說(shuō)我們說(shuō)到新零售有很多可以應(yīng)用的地方。
但是我們看到這句話的描述中有幾個(gè)關(guān)健詞,一個(gè)是體驗(yàn)、一個(gè)數(shù)據(jù)、一個(gè)泛零售。
從體驗(yàn)來(lái)說(shuō)我相信很多在座的比我會(huì)有更多想法,也有更多經(jīng)驗(yàn)去想怎樣才是更好的用戶體驗(yàn)。而對(duì)我來(lái)說(shuō),因?yàn)槲易龅氖侨斯ぶ悄埽貏e是計(jì)算機(jī)視覺,想的則是怎么樣能夠得到有用的數(shù)據(jù)。
從數(shù)據(jù)的角度來(lái)說(shuō),因?yàn)閼?yīng)用的場(chǎng)景很多,百貨公司、購(gòu)物中心,便利店,甚至還有很多比方說(shuō)是直播,視頻、電子商務(wù)。
從各個(gè)場(chǎng)景來(lái)看,買東西的本質(zhì),無(wú)非就是人和商品。我們做的事情就是去理解人,理解物,然后把人跟物聯(lián)系起來(lái),讓用戶更好和更快地找到他滿意的商品,把商品能夠更快更好的送到用戶的手里。
從信息的角度來(lái)說(shuō),要得到關(guān)于人的信息或者關(guān)于物的信息,特別在很多線下的場(chǎng)景當(dāng)中,我自己覺得計(jì)算機(jī)視覺或者用相機(jī)是非常好的方法。
比方說(shuō),視覺是通用的方法,有一個(gè)相機(jī)在里面可以干很多事情,可以識(shí)別人、物、動(dòng)作,也是非常高信息量的感知的方法,像現(xiàn)在比如 1080P的視頻非常普及,1080P 的象素下面可以看到很多東西。
而它又是一種被動(dòng)的方法,很多情況下原因是因?yàn)槿耸怯醚劬Ω兄模赃@個(gè)世界實(shí)際上是為了我們的眼睛而設(shè)計(jì)的,從紅綠燈也好,標(biāo)志牌也好,很多商品的包裝,很多時(shí)候都是為了適應(yīng)人眼,計(jì)算機(jī)視覺就是利用了這個(gè)世界設(shè)計(jì)的規(guī)律,然后試圖用同樣的途徑來(lái)得到更多的信息。
當(dāng)然視覺它其實(shí)有很多問題,首先必須要有光照,比較好的光照才能夠得到比較好的信息。但這問題也不是太大,因?yàn)槿说难劬σ残枰玫墓庹詹拍芸吹健?/p>
另一個(gè)是遮擋,這是個(gè)比較大的問題。相機(jī)被擋住,后面的東西確實(shí)沒法看到。這個(gè)其實(shí)也是跟高信息量相關(guān)的,因?yàn)槲覀冇玫氖强梢姽猓ㄩL(zhǎng)很短,需要高信息量的時(shí)候沒辦法繞過(guò)前面的遮擋物。而計(jì)算機(jī)視覺應(yīng)用***的問題是它的精度,很多時(shí)候精度不夠,但是最近幾年有很大的改變,很大程度上來(lái)說(shuō)精度并不是特別大的問題了。
下面我想介紹一下現(xiàn)在計(jì)算機(jī)領(lǐng)域的發(fā)展?fàn)顟B(tài),也讓大家對(duì)其有更好的了解,看看我們技術(shù)已經(jīng)進(jìn)步到什么程度。
從物來(lái)說(shuō)大家知道有一個(gè)非常有影響力的競(jìng)賽是物體分類的競(jìng)賽,一千個(gè)物體,所要做的就是給每一張圖打上一個(gè)標(biāo)簽,知道它是什么。這個(gè)是過(guò)去八年當(dāng)中 ILSVRC 上面的進(jìn)展,Y 軸描述是錯(cuò)誤率,還是非常難的,最近這八年進(jìn)步非常快。

2012 年的時(shí)候深度學(xué)習(xí)開始就是說(shuō)在這個(gè)問題當(dāng)中得到應(yīng)用,在整個(gè)計(jì)算機(jī)視覺領(lǐng)域得到應(yīng)用。2012 年之后,過(guò)去的六年當(dāng)中精度一直在提高。
可以比較一下,有人測(cè)過(guò)人在這個(gè)問題的錯(cuò)誤率是 5%,并不是計(jì)算機(jī)超過(guò)人,它也有各種各樣的問題。但在一定程度上,計(jì)算機(jī)在某些情況下可以達(dá)到人的精度。
光是一張圖一個(gè)物體并不是視覺唯一的問題,很多情況下需要處理一個(gè)復(fù)雜的場(chǎng)景,所以 ilsvrc 也有物體檢測(cè)的競(jìng)賽,給你復(fù)雜的場(chǎng)景,需要找到各種各樣的物體,這個(gè)問題這幾年的進(jìn)展也是很快的,當(dāng)然深度學(xué)習(xí)是一個(gè)原因,當(dāng)然數(shù)據(jù)其它的都是原因。
這個(gè)圖稍微復(fù)雜一點(diǎn),因?yàn)闄z測(cè)的問題來(lái)說(shuō),要做到正確的檢測(cè)需要有正確的標(biāo)簽和正確的位置,檢測(cè)問題還有一個(gè)預(yù)值的問題,可以把預(yù)值調(diào)高,返回的問題少會(huì)錯(cuò)失一些,調(diào)低返回的更多,但是會(huì)有一些誤解。
總的來(lái)說(shuō)現(xiàn)在的 MAP,就是平均精度達(dá)到 0.75,這個(gè)確實(shí)跟人還有一定的距離。但是大家看一下這個(gè)圖,很多情況下還是能夠做的很好。像這個(gè)場(chǎng)景當(dāng)中有很多東西,有人,有狗,有雨傘,后面還有一些比較小的東西,比如椅子,很多情況下都是能夠檢測(cè)到的。

大家再看一下這個(gè)語(yǔ)義分割的例子。很多情況并不是只是找邊框,這個(gè)問題在每個(gè) 象素點(diǎn) 上我們都去標(biāo)注這個(gè)到底是什么。這是自動(dòng)駕駛的例子,算法可以標(biāo)樹、車、行人,還有各種各樣的在場(chǎng)景當(dāng)中能夠碰到的物體,這也是一個(gè)已經(jīng)能夠達(dá)到不錯(cuò)的精度,現(xiàn)在用相機(jī)做無(wú)人車也是非常有意思的方向。
總之,對(duì)人來(lái)說(shuō),其實(shí)視覺也能夠做很多東西。這又是一個(gè)例子,這是一個(gè)多相機(jī)的跟蹤的例子,比方用八個(gè)相機(jī),人在走動(dòng),很多情況下我們可以比較精準(zhǔn)地跟蹤這些人,每時(shí)每刻知道這個(gè)人的地方。多相機(jī)的跟蹤可以做很多事,首先可以得到人的身份,可以知道這個(gè)人是誰(shuí),還有一個(gè)就是可以比較精準(zhǔn)的得到這個(gè)人的位置。
大家知道室內(nèi)定位,其實(shí)有很多方法,WIFI 也好,藍(lán)牙也好,超聲波。而精準(zhǔn)定位,視覺能夠給我們一個(gè)至少是厘米級(jí)的定位的精度,很多情況下是很有用的。
不是說(shuō)只是去檢測(cè)這個(gè)人在哪里,在很多情況下,我想給大家看的是其實(shí)我們?cè)诤芏嗲闆r下能夠做到對(duì)人姿態(tài)及各種動(dòng)作的判斷——不光知道人在哪,也能知道眼睛、耳朵、肩膀、手臂是怎樣活動(dòng)的。
即使比較復(fù)雜的場(chǎng)景下,即便人的動(dòng)作變化很大,我們也一樣能夠去得到這些信息。人的姿態(tài)其實(shí)是一個(gè)對(duì)人理解的基礎(chǔ)。
這是一張圖片,就是其實(shí)是一個(gè)基于人姿態(tài)的動(dòng)作識(shí)別。上面那個(gè)藍(lán)色的是我們想得到的東西,綠的是算法的估計(jì)。這個(gè)相對(duì)來(lái)說(shuō)是一個(gè)比較簡(jiǎn)單的問題,這個(gè)視頻相對(duì)來(lái)說(shuō)比較簡(jiǎn)單,想給大家看一下,有了姿態(tài)之后,還可以在姿態(tài)的基礎(chǔ)上做一些動(dòng)作的識(shí)別,物體的識(shí)別,很多情況下能夠識(shí)別人的動(dòng)作。
如果我們往前展望一下,無(wú)論是一個(gè)室外場(chǎng)景也好或者室內(nèi)場(chǎng)景也好,現(xiàn)在計(jì)算機(jī)視覺真的能夠做很多東西。
稍微夸張一下的說(shuō),其實(shí)很多情況下,我們看得見的事情,人能做的事情確實(shí)計(jì)算機(jī)現(xiàn)在都能做。在幾年前絕對(duì)不敢說(shuō)這句話,但是現(xiàn)在算法的發(fā)展也好,其它能力的提高也好,很多情況已經(jīng)很接近了。
當(dāng)然,從另一個(gè)方面來(lái)說(shuō),如果相機(jī)看不見的也沒辦法。這個(gè)也不是純開玩笑,因?yàn)閺慕鉀Q實(shí)際問題的角度出發(fā),相機(jī)的布置其實(shí)是一個(gè)很重要的問題,你希望能夠有一個(gè)很好的布置,能夠在***程度上得到你想得到的信息。
除了相機(jī)之外,其實(shí)我們還有很多別的問題需要考慮,比方說(shuō)數(shù)據(jù)、計(jì)算量、成本,這些跟算法需要結(jié)合在一起。我對(duì)視覺還是有非常有信心的,覺得有很多情況下很多事情都能做的。
回到新零售的討論,如果說(shuō)新零售是一個(gè)數(shù)據(jù)驅(qū)動(dòng),其實(shí)也可以把這個(gè)說(shuō)法做小小的修改,可以使用信息驅(qū)動(dòng)的形態(tài)。怎么說(shuō)呢?有很多時(shí)候數(shù)據(jù)并不是現(xiàn)成的,有很多時(shí)候數(shù)據(jù)需要我們花力氣得到的,特別線下的場(chǎng)景當(dāng)中,或者線上也好,很多情況用視覺或者其它得到對(duì)我們有用的信息。
說(shuō)完了視覺,前段時(shí)間的進(jìn)展或者技術(shù),我也想跟大家說(shuō)一下我自己非常感興趣的幾個(gè)應(yīng)用方向,在這么多的應(yīng)用場(chǎng)景當(dāng)中,我想提幾個(gè)自己比較感興趣的:
增強(qiáng)現(xiàn)實(shí),智慧門店,機(jī)器人,***助手(可穿戴)。
想給大家看一下幾個(gè)例子,看看現(xiàn)在技術(shù)大概發(fā)展到什么程度:
增強(qiáng)現(xiàn)實(shí)是現(xiàn)實(shí)世界跟虛擬世界的疊加。就像這個(gè)圖上顯示的,我們買家具,可以拿 PAD 看家里,可以把家具放那邊。這里面有幾個(gè)比較關(guān)鍵的問題,比如三維定位、三維建模,渲染。建模與渲染是比較簡(jiǎn)單的問題,對(duì)定位來(lái)說(shuō)現(xiàn)在也到了一個(gè)時(shí)候。
大家知道前幾個(gè)月蘋果公司發(fā)布了他們能夠在蘋果手機(jī)上面做到相當(dāng)精準(zhǔn)的實(shí)時(shí)的三維的定位,它的計(jì)算量都達(dá)到了使用的程度。
三維定位解決之后,其實(shí)增強(qiáng)現(xiàn)實(shí)能夠有很多應(yīng)用的,給大家稍微看一下幾個(gè)例子。
這是一個(gè)例子是就是說(shuō)是相當(dāng)于幫助你去找東西,其實(shí)對(duì)我來(lái)說(shuō)是一個(gè)很重要的事情。經(jīng)常我太太讓我到店里買東西,不知道在哪,我也不愿意問人,要花很長(zhǎng)時(shí)間。
如果有了定位技術(shù),然后如果以這個(gè)店里面商品的位置做一個(gè)比較精確的地圖,就可以想像可以用增強(qiáng)現(xiàn)實(shí)去做一些導(dǎo)引方面的東西。
當(dāng)然其實(shí)我們也可以說(shuō)在這個(gè)例子當(dāng)中,增強(qiáng)現(xiàn)實(shí)不一定是非常關(guān)鍵的東西。回到剛才說(shuō)的虛擬購(gòu)物,也是大家經(jīng)常說(shuō)的東西,如果有了增強(qiáng)現(xiàn)實(shí),可以在網(wǎng)上找到這些家具可以放到家里可以看大小,可以看搭配,很多情況下還可以看光影的效果等等。這個(gè)在現(xiàn)在也是一個(gè)可能也是一個(gè)比較成熟的,很多人可能有很多人在做,很多時(shí)候很快可以用到。
下一個(gè)想跟大家稍微討論一下的是智能門店,大家知道我以前是在亞馬遜的,我很幸運(yùn)在亞馬遜 GO 項(xiàng)目開始的時(shí)候加入了進(jìn)去,我們花了四年時(shí)間做了這么一個(gè)店,還是非常興奮和自豪的。
我們解決的問題是在一個(gè)相對(duì)通用的場(chǎng)景下解決支付的問題,做到進(jìn)去之后拿了直接走,不需要排隊(duì)結(jié)賬環(huán)節(jié)。
做了 4 年之后,現(xiàn)在每次買東西排隊(duì)都希望能夠把支付環(huán)節(jié)做好,省掉排隊(duì)跟 結(jié)帳 。雖然只是支付一個(gè)環(huán)節(jié),但要做到高精度就有很多問題要解決,解決人的問題、商品的問題、動(dòng)作方面的問題,知道人拿的什么商品。
很多情況下可以想像成是一個(gè)相對(duì)通用的線下智能系統(tǒng),如果有一個(gè)相機(jī)網(wǎng)絡(luò),可以做很多事情,可以用來(lái)跟蹤人,可以用來(lái)分析人流,可以看停留的時(shí)間,看有人有沒有拿東西,看了多久,有沒有放回去,可以用相機(jī)監(jiān)控貨架。
如果跟身份結(jié)合,或者用人臉或者其它方式,可以做到很多個(gè)性化的體驗(yàn),能夠讓你在每時(shí)每刻在店里面知道你是誰(shuí),提供個(gè)性化的服務(wù)。
支付肯定是一個(gè)方向,有很多情況下我們會(huì)思考很多事情在線上比較容易做的,像停留時(shí)間、個(gè)性化。現(xiàn)在到了一個(gè)其實(shí)我們?cè)诰€下也能夠做類似東西的時(shí)候。
實(shí)際上,有些東西在線上不是那么容易做的,比方說(shuō)我們可以做表情識(shí)別,這是一個(gè)例子,就是我們可以通過(guò)對(duì)人臉的分析知道它是高興還是不高興,是生氣了還是無(wú)聊,其實(shí)很多時(shí)候這件事情都是可以做的。
因此,線下跟線上相比,有一些時(shí)候說(shuō)不定真的有一些優(yōu)勢(shì)。
回到這個(gè)線下系統(tǒng),在不遠(yuǎn)的將來(lái)可以看到像這樣通用的線下智能系統(tǒng)可以做很多事情,在一家小店鋪?zhàn)鲆换厥拢窃诖蟮?shopping mall 場(chǎng)景下,里面有各種各樣的店鋪,有比較大的空間,那個(gè)里面的實(shí)現(xiàn)難度會(huì)再上一個(gè)大臺(tái)階。
普通情況下是一回事,如果在一個(gè)比較擁擠的情況下,很多時(shí)候也是需要在算法上,在數(shù)據(jù)上,或者其它方面花很大的力氣,但是在很多時(shí)候應(yīng)該是在目前來(lái)說(shuō)應(yīng)該是已經(jīng)是可見的事,能夠看得到的事情。
第三個(gè)提一下機(jī)器人,前面提的很多情況下只是感知,只知道那個(gè)人在哪里,其實(shí)我們可以做一些交互,可以是語(yǔ)音的交互,也可以是顯示屏或者視覺上面的交互。從物理的角度來(lái)說(shuō),我覺得我對(duì)機(jī)器人還是非常感興趣的,機(jī)器人現(xiàn)在發(fā)展也是非常的快,大家其實(shí)已經(jīng)看到了很多的例子。
這是一個(gè) Boston 的例子,他們做了很長(zhǎng)時(shí)間機(jī)器人,在控制上面做的很好。它可以做很多事情,可以在家里走,這個(gè)是顯示一下它能夠做非常復(fù)雜的動(dòng)作。
因?yàn)樗型龋灿惺郑梢宰N房里面的一個(gè)杯子,當(dāng)然這只是一個(gè)例子。其實(shí)很多人想做一個(gè)機(jī)器人,自動(dòng)的幫你洗碗洗盤子,或者干其它家務(wù),那個(gè)還有一定的距離,但是這個(gè)其實(shí)例子也說(shuō)明了我們這個(gè)可能離將來(lái)并不是那么遠(yuǎn)。
這個(gè)是因?yàn)?Boston 他們主要做控制,視覺上沒有花太多功夫,不然可以識(shí)別那是個(gè)香蕉皮的。但是它可以爬起來(lái),然后自己上樓梯。
所以機(jī)器人在將來(lái),應(yīng)該是一個(gè)非常有意思的方向,物流也好,門店也好,相信在將來(lái)肯定會(huì)看到更多機(jī)器人的應(yīng)用。
***一個(gè)是***助手,主要指的是可穿戴設(shè)備。
可穿戴設(shè)備是個(gè)人視角,跟門店不同,它可以記錄生活,識(shí)別環(huán)境,識(shí)別其它的人,也可以用來(lái)識(shí)別自己的動(dòng)作狀態(tài),可以作為一個(gè)助手跟你對(duì)話,給你提供信息,它其實(shí)是有很多事情可以做的。
譬如,Snap Sperctacles 前段時(shí)間出了一個(gè)比較好的眼鏡,可以比較好的記錄生活狀態(tài)。
谷歌其實(shí)好幾年前,就做谷歌眼鏡,后來(lái)沒有做成功,后來(lái)出了企業(yè)版,還比較有意思,可以幫工作人員在制造或者物流或者其它情況當(dāng)中做很多事情,可以幫你識(shí)別,可以幫你掃碼。其實(shí)還有一個(gè)例子,他們當(dāng)時(shí)是想說(shuō)你有一個(gè)比較復(fù)雜的工作要接線,可以告訴你線怎么接,干什么事情,這樣的設(shè)備在以后對(duì)大家是很有用的東西。
***,大家應(yīng)該都見過(guò)這個(gè)曲線,這是 Hype Cycle,就是每個(gè)技術(shù),新產(chǎn)品,都要經(jīng)歷這樣的發(fā)展階段:
開始大家非常興奮,一擁而上,很快達(dá)到頂點(diǎn),再然后就要處理實(shí)際的問題,再往下走了,走到谷底,最現(xiàn)實(shí)的問題出來(lái),大家才知道應(yīng)該解決哪些問題,逐漸往上走。

剛才提到那幾個(gè)方向,增強(qiáng)現(xiàn)實(shí)其實(shí)已經(jīng)在這個(gè)地方了,下面會(huì)看到比較多的應(yīng)用;
而智能門店可能還是處在山頂附近,下面應(yīng)該有很多東西要走;
而機(jī)器人或者可穿戴設(shè)備可能還會(huì)在更加遙遠(yuǎn)的將來(lái)。
但是我有時(shí)候也需要想象一下五年以后,十年以后的樣子,這些也都是非常讓人感到激動(dòng)的方向。

剛才提到很多應(yīng)用當(dāng)中,視覺是能夠起到非常關(guān)鍵的作用,能夠得到很多信息,因?yàn)樗峭ㄓ玫姆椒ǎ軌虻玫饺宋飫?dòng)作,很多東西能做的。
當(dāng)然我們需要去得到相關(guān)的數(shù)據(jù),很多時(shí)候很多算法需要融合,需要跟其它的傳感器進(jìn)行融合。另外,很多時(shí)候也不光是感知的問題,我們需要去跟機(jī)器人或者其它交匯的方法融合,計(jì)算角度來(lái)說(shuō)不見得都在云上或者端上做,云跟端也要融合。
除了這幾個(gè)問題之外,還有很多大家有的時(shí)候會(huì)提到的方向,譬如簡(jiǎn)單的手勢(shì)識(shí)別、商品搜索、虛擬現(xiàn)實(shí)。
其實(shí)在新制造上面我自己也覺得人工智能,計(jì)算機(jī)視覺有很多可能性的應(yīng)用。我們經(jīng)常說(shuō)現(xiàn)在確實(shí)是一個(gè)技術(shù)發(fā)展非常快的時(shí)候,商業(yè)也是發(fā)展非常快的時(shí)候,我也是非常期待能夠成為這個(gè)當(dāng)中的一部分,能夠跟大家一起努力,能夠建設(shè)一個(gè)更好的未來(lái)。
版權(quán)聲明
本文僅代表作者觀點(diǎn),不代表百度立場(chǎng)。



























