文本 音頻 視頻 多模態(tài)等不同模型之間的區(qū)別和聯(lián)系 原創(chuàng)
“ 大模型從任務類型分類主要分為文本,音頻,視頻和多模態(tài)模型。”
在人工智能領域,大模型技術是目前主要的研究方向,但面對市面上各種各樣的模型,很多時候我們都搞不明白這些模型都是干什么的,有什么區(qū)別和聯(lián)系。
其實這個就涉及到模型的分類問題,原因在于人工智能技術涉獵范圍比較廣,不但有各種基于深度神經(jīng)網(wǎng)絡實現(xiàn)的大模型各行其道,還包括傳統(tǒng)的機器學習模型,以及各種模型的變種。
并且,從不同的維度模型又有不同的分類,如從技術維度,架構維度,業(yè)務維度等;因此,面對這些復雜的模型種類,我們需要有一個完善的分類機制,但又由于模型技術在快速發(fā)展,因此我們今天只從任務類型的角度來了解不同模型之間的區(qū)別。
模型任務類型
從處理不同任務的角度來說,模型主要有以下幾種類型:
文本模型(自然語言處理——NLP):主要處理文本數(shù)據(jù) 包括邏輯推理
音頻模型(Audio):主要處理音頻數(shù)據(jù) 如配音
視覺模型(computer vision): 主要處理圖片和視頻數(shù)據(jù)
多模態(tài)模型(multi model): 能同時處理文字,圖片,音頻視頻等數(shù)據(jù)

文本模型
文本模型主要是基于自然語言處理技術(NLP)實現(xiàn)的主要用來處理文本數(shù)據(jù)的模型,如問答,翻譯等功能;但隨著大模型技術的發(fā)展,現(xiàn)在的模型開始加入邏輯推理的能力,也就是所謂的深度思考模型,通常是使用思維鏈技術,強化學習,自我反思等技術實現(xiàn)復雜任務的拆解和執(zhí)行。

音頻模型
音頻模型顧名思義主要用來處理音頻數(shù)據(jù),通過在文本和語音,以及配音等任務場景;如開會時對會議內容進行錄音,然后交給音頻模型就可以根據(jù)錄音內容生成會議紀要;以及在AIGC領域通過音頻模型給視頻進行配音。
視覺模型
視覺模型的應用范圍要比音頻模型更廣,原因在于視覺模型同時支持圖片和視頻兩種格式的數(shù)據(jù)進行處理;其同樣可以應用于AIGC領域,如圖片生成,P圖,鬼畜視頻等。

同時,視覺模型可以通過圖片和視頻內容進行行為分析,來實現(xiàn)預防救災,行為識別,如自動駕駛等領域。
多模態(tài)模型
多模態(tài)模型簡單來說就是能夠支持多種模態(tài)數(shù)據(jù)的模型,如文本,圖片,視頻,音頻等;但很多人可能會把多模態(tài)模型當作視覺模型或推理模型,但事實上多模態(tài)模型的實現(xiàn)原理和以上三種模型不太相同,且應用場景也不一樣。
多模態(tài)模型是通過對不同模態(tài)數(shù)據(jù)進行模態(tài)對齊等技術實現(xiàn)不同模態(tài)數(shù)據(jù)之間的轉換和處理。如音視頻生成,轉換。
其主要可以用來解決人機交互,跨模態(tài)檢索,問答,生成等。
總之,不同任務類型的模型從實現(xiàn)技術和應用場景上都不盡相同;切不同模型之間即有聯(lián)系又有區(qū)別,這里的聯(lián)系和區(qū)別不僅僅只技術的,同時還有任務上的。
本文轉載自??AI探索時代?? 作者:DFires

















