技術(shù)總結(jié) | 十分鐘了解機(jī)器如何識(shí)別一只貓?
盡管多模態(tài)大模型已廣泛應(yīng)用于各個(gè)領(lǐng)域,但計(jì)算機(jī)到底是如何識(shí)別一只貓的?最近閱讀了一篇文章(https://www.quantamagazine.org/how-can-ai-id-a-cat-an-illustrated-guide-20250430/),內(nèi)容容易理解,總結(jié)如下。
一個(gè)簡(jiǎn)單的分類器
假設(shè)在同一個(gè)坐標(biāo)系中存在三角形和方形,如下圖:

如果要將這兩個(gè)類型分開,就需要一條分界線,但是如何知道這條分界線?傳統(tǒng)的機(jī)器學(xué)習(xí)可以通過 ??SVM??,計(jì)算一條與剛好兩個(gè)分類的各個(gè)點(diǎn)上距離和最小的一條邊界線即可。另一種方法就是通過神經(jīng)網(wǎng)絡(luò),根據(jù)已知的數(shù)據(jù)找到邊界。
神經(jīng)元
神經(jīng)網(wǎng)絡(luò)的基本單元是神經(jīng)元,在計(jì)算機(jī)中就是一個(gè)數(shù)學(xué)函數(shù),類似:??y = f(x1,x2,...)??,存在多個(gè)輸入的數(shù)據(jù),然后輸出一個(gè)值。 現(xiàn)在讓我們來(lái)看看輸入和輸出之間的關(guān)系,下面的三幅圖展示了具有三組不同參數(shù)的神經(jīng)元,在每種情況下,隨著輸入的變化,它們會(huì)跨越一個(gè)邊界,神經(jīng)元的輸出會(huì)在這個(gè)邊界上迅速?gòu)?0 上升到 1,在這些圖中,邊界始終是一條直線,參數(shù)決定了這條線的位置和角度。

訓(xùn)練
為了創(chuàng)建一個(gè)分類器,告訴我們一個(gè)新點(diǎn)應(yīng)該位于正方形狀態(tài)還是三角形區(qū)域,我們需要優(yōu)化這條邊界線,使其準(zhǔn)確地表示兩個(gè)區(qū)域之間的邊界。 在這里,如果輸出接近于 0,我們就說一個(gè)點(diǎn)位于正方形狀態(tài);如果輸出接近于 1,我們就說一個(gè)點(diǎn)位于三角形區(qū)域。 為了優(yōu)化這條邊界線,我們需要通過一個(gè)叫做“訓(xùn)練”的過程來(lái)調(diào)整神經(jīng)元的參數(shù),第一步是將參數(shù)設(shè)置為隨機(jī)值,這意味著神經(jīng)元的初始邊界線看起來(lái)與實(shí)際邊界完全不同。

在訓(xùn)練過程中,我們將每個(gè)已知數(shù)據(jù)點(diǎn)的經(jīng)度和緯度輸入到神經(jīng)元的輸入中,神經(jīng)元會(huì)根據(jù)其當(dāng)前參數(shù)輸出一個(gè)輸出,然后將該輸出與真實(shí)值進(jìn)行比較,有時(shí),它會(huì)得到正確的答案。每當(dāng)神經(jīng)元得到錯(cuò)誤答案時(shí),自動(dòng)算法就會(huì)稍微調(diào)整神經(jīng)元的參數(shù),使邊界更接近錯(cuò)誤點(diǎn)。

神經(jīng)網(wǎng)絡(luò)
單個(gè)神經(jīng)元效果很好,但這僅僅是因?yàn)槿穷I(lǐng)地和方形之間的真實(shí)邊界接近直線,對(duì)于更復(fù)雜的任務(wù),我們需要使用由許多相互連接的神經(jīng)元組成的集合——神經(jīng)網(wǎng)絡(luò)。

如圖所示,神經(jīng)網(wǎng)絡(luò)是多個(gè)神經(jīng)元組成,與單個(gè)神經(jīng)元相比,神經(jīng)網(wǎng)絡(luò)擁有更多的參數(shù),一個(gè)神經(jīng)元可能是2個(gè)參數(shù),但是多層神經(jīng)網(wǎng)絡(luò)一一組合就可能超過 ??100?? 萬(wàn)個(gè)參數(shù),這些參數(shù)不斷擬合你需要分類的邊界。
從三角形和正方形分類問題到識(shí)別貓
三角形和正方形分類問題和貓有什么不同呢?三角形正方形坐標(biāo)是可以看成兩個(gè)維度(例如:(1,2),(3,10)),但是貓是照片,那么貓的照片的每個(gè)像素格就是一個(gè)維度??(50x50)??,將二維輸入轉(zhuǎn)換為2500維輸入:

然后將貓的歸一化的像素格作為 ??input?? 輸入神經(jīng)網(wǎng)絡(luò),讓權(quán)重參數(shù)用大量的輸入數(shù)據(jù)做擬合,只要有足夠的數(shù)據(jù)點(diǎn),我們就可以訓(xùn)練一個(gè)大型網(wǎng)絡(luò)來(lái)區(qū)分貓和非貓。

所有貓照片都位于 ??2500?? 維空間中某個(gè)復(fù)雜的區(qū)域。訓(xùn)練算法會(huì)反復(fù)調(diào)整網(wǎng)絡(luò)參數(shù),直到找到這個(gè)無(wú)法可視化的區(qū)域的邊界,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)就能正確分類訓(xùn)練數(shù)據(jù)中沒有的新圖像。

參考
(1)https://www.quantamagazine.org/how-can-ai-id-a-cat-an-illustrated-guide-20250430/
本文轉(zhuǎn)載自??周末程序猿??,作者:周末程序猿

















