精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Stream-Omni:多模態交互的“黃金三角”——視覺、語音、文本的完美融合

發布于 2025-6-29 23:17
瀏覽
0收藏

Stream-Omni 是中國科學院計算技術研究所、中國科學院人工智能安全重點實驗室及中國科學院大學聯合推出的類似 GPT-4o 的大型語言-視覺-語音模型,能夠同時支持文本、圖像和語音等多種模態的交互。

Stream-Omni:多模態交互的“黃金三角”——視覺、語音、文本的完美融合-AI.x社區

一、項目概述?

Stream-Omni 是一個基于大型語言模型(LLM)的多模態交互模型,能夠同時處理文本、圖像和語音三種模態的輸入,并生成相應的文本和語音輸出。該模型通過序列維度拼接和層維度映射的方式,實現了視覺與文本的對齊,以及語音與文本的對齊,從而在視覺理解、語音交互和視覺引導的語音交互任務上表現出色。Stream-Omni 的訓練僅需少量全模態數據,訓練效率高,適合在資源有限的環境中部署。

二、技術原理

1. 基于 LLM 的骨干架構

Stream-Omni 的核心是基于大型語言模型(LLM)的骨干架構。LLM 作為模型的核心,提供了強大的語言理解和生成能力,為多模態交互提供了基礎支持。通過將 LLM 與視覺和語音模態進行對齊,Stream-Omni 實現了跨模態的交互能力。

2. 視覺文本對齊

為了實現視覺與文本的對齊,Stream-Omni 使用序列維度拼接的方式,將視覺編碼器提取的視覺特征與文本輸入進行拼接,再共同輸入到 LLM 中,實現視覺和文本模態的對齊。這種方式使得模型能夠更好地理解圖像內容,并生成與之相關的文本信息。

3. 語音文本對齊

對于語音與文本的對齊,Stream-Omni 引入了基于 CTC(Connectionist Temporal Classification)的層維度映射。在 LLM 的底部和頂部添加語音層,實現語音到文本的映射和文本到語音的生成,從而將語音模態與文本模態對齊。這種對齊方式使得模型能夠在語音交互過程中實時生成語音輸出,提供流暢的交互體驗。

4. 多任務學習

Stream-Omni 采用多任務學習策略,同時訓練視覺文本、語音文本及全模態(視覺+文本+語音)的任務,讓模型更好地理解和生成多模態內容。這種策略不僅提高了模型的泛化能力,還增強了其在不同任務上的適應性。

5. 實時語音生成

基于特殊的語音層設計和層維度映射,Stream-Omni 在生成文本的同時,實時生成對應的語音輸出,實現流暢的語音交互。這種能力使得用戶在語音交互過程中能夠同時看到文本和聽到語音,從而獲得更全面的交互體驗。

6. 數據驅動與監督學習結合

Stream-Omni 依賴少量多模態數據進行訓練,基于精心設計的對齊機制和多任務學習,能在有限的數據上實現高效的模態對齊和交互能力。這種設計使得模型在數據稀缺的情況下仍能保持良好的性能。

Stream-Omni:多模態交互的“黃金三角”——視覺、語音、文本的完美融合-AI.x社區

三、主要功能

1. 多模態輸入與輸出

Stream-Omni 支持文本、圖像和語音等多種模態的輸入,并能同時生成文本和語音輸出。這種能力使得模型能夠處理復雜的多模態交互任務,滿足不同場景下的需求。

2. 無縫“邊聽邊看”體驗

在語音交互過程中,Stream-Omni 能實時輸出中間文本結果(如自動語音識別 ASR 轉錄和模型響應),為用戶提供更豐富的交互體驗。這種無縫的交互體驗類似于 GPT-4o 的高級語音服務,提升了用戶的交互滿意度。

3. 高效訓練

Stream-Omni 僅需少量全模態數據(如 23000 小時語音數據)進行訓練,對數據需求量小,訓練效率高。這種高效訓練能力使得模型能夠在資源有限的環境中快速部署和使用。

4. 靈活的交互模式

Stream-Omni 支持多種模態組合的交互,包括文本+視覺→文本、文本+視覺→語音、語音+視覺→文本、語音+視覺→語音等,滿足不同場景下的交互需求。這種靈活性使得模型能夠適應各種應用場景,提高其適用性。

5. 視覺理解與語音交互

Stream-Omni 在視覺理解任務和語音交互任務上表現出色,能準確理解和生成與視覺內容相關的文本和語音信息。這種能力使得模型在智能車載系統、教育輔助工具、智能家居控制、醫療輔助診斷和智能客服服務等多個領域具有廣泛的應用前景。

四、評測結果

1. 視覺理解能力

在多個視覺理解基準測試中,Stream-Omni 表現出色。例如,在 VQA-v2、GQA、VizWiz、ScienceQA-IMG、TextVQA、POPE、MME、MMBench、SEED-Bench 和 LLaVA-Bench-in-the-Wild 等基準測試中,Stream-Omni 的性能接近或超越了最先進的視覺導向 LMMs,如 LLaVA、BLIP-2、InstructBLIP、Qwen-VL、SPHINX 和 mPLUG-Owl2 等。

Stream-Omni:多模態交互的“黃金三角”——視覺、語音、文本的完美融合-AI.x社區

2. 語音交互能力

在語音交互任務中,Stream-Omni 也表現出色。在 Llama Questions 和 Web Questions 等基準測試中,Stream-Omni 的準確率分別為 76.3% 和 65.0%,在語音到文本(S→T)和語音到語音(S→S)任務中均優于其他模型。此外,Stream-Omni 在語音識別任務中的 WER(Word Error Rate)也優于其他模型,如 Whisper、SpeechGPT、Moshi、Mini-Omni、Freeze-Omni 和 GLM-4-Voice 等。

3. 視覺引導的語音交互能力

在視覺引導的語音交互任務中,Stream-Omni 也表現出色。在 SpokenVisIT 基準測試中,Stream-Omni 的評分分別為 3.93 分(視覺+文本→文本)和 3.68 分(視覺+語音→文本),在語音生成任務中也表現出色。這種能力使得模型在真實世界中能夠更好地理解和生成語音信息。

4. 語音-文本映射質量

在語音-文本映射任務中,Stream-Omni 的表現也優于其他模型。在 LibriSpeech 基準測試中,Stream-Omni 的 WER 為 3.0%,在語音識別任務中的推理時間也優于其他模型。這種高質量的映射能力使得模型在語音交互任務中能夠提供更準確的語音輸出。

五、應用場景

1. 智能車載系統

在智能車載系統中,司機可以通過語音指令查詢路線、獲取路況,系統結合視覺信息(如導航地圖、路況攝像頭圖像)實時顯示文本提示和語音反饋,提升駕駛安全性和交互效率。

2. 教育輔助工具

在教育場景中,學生可以通過語音提問,系統依據教材視覺內容(如圖表、圖片)給出詳細文本解釋和語音回答,幫助學生更好地理解和學習知識。

3. 智能家居控制

作為智能家居助手,用戶可以通過語音指令控制家電設備,系統結合視覺輸入(如攝像頭捕捉的環境信息)提供文本或語音反饋,實現更智能、便捷的家居控制。

4. 醫療輔助診斷

在醫療場景中,醫生可以通過語音指令查詢關鍵信息,系統結合視覺報告(如X 光片、CT 圖像)提供詳細的文本分析和語音解釋,輔助醫生更準確地做出診斷。

5. 智能客服服務

在客服領域,客服人員可以通過語音與客戶交流,系統實時顯示相關文本信息和視覺提示(如產品圖片、操作流程圖),幫助客服人員快速理解客戶需求并提供準確解答,提升服務質量和效率。

六、快速使用

1. 模型下載

1)從這里下載 Stream-Omni 模型,放入 ${STREAMOMNI_CKPT} 。

https://huggingface.co/ICTNLP/stream-omni-8b

2)從這里下載 CosyVoice(分詞器 & 流模型),放入 COSYVOICE_CKPT=./CosyVoice-300M-25Hz :

https://modelscope.cn/models/iic/CosyVoice-300M-25Hz/files

2. 安裝依賴

conda create -n streamomni pythnotallow=3.10 -y
conda activate streamomni
pip install -e .
pip install flash-attn --no-build-isolation
pip install -r requirements.txt
pip install -r CosyVoice/requirements.txt

3. 命令交互

運行這些腳本以進行基于視覺的語音交互:

export CUDA_VISIBLE_DEVICES=0
export PYTHONPATH=CosyVoice/third_party/Matcha-TTS
STREAMOMNI_CKPT=path_to_stream-omni-8b
# Replace the path of cosyvoice model in run_stream_omni.py (e.g., cosyvoice = CosyVoiceModel('./CosyVoice-300M-25Hz')) 
# add --load-8bit for VRAM lower than 32GB 
python ./stream_omni/eval/run_stream_omni.py \
--model-path ${STREAMOMNI_CKPT} \
--image-file ./stream_omni/serve/examples/cat.jpg --conv-mode stream_omni_llama_3_1 --model-name stream-omni  \
--query ./stream_omni/serve/examples/cat_color.wav

你應該得到以下輸出:

ASR Outputs:
What is the color of the cat
LLM Outputs:
The cat is gray and black.
Speech Tokens:
<Audio_2164><Audio_2247><Audio_671><Audio_246><Audio_2172><Audio_1406><Audio_119><Audio_203><Audio_2858><Audio_2099><Audio_1716><Audio_22><Audio_1736><Audio_1038><Audio_4082><Audio_1655><Audio_2409><Audio_2104><Audio_571><Audio_2255><Audio_73><Audio_760><Audio_822><Audio_701><Audio_2583><Audio_1038><Audio_2203><Audio_1185><Audio_2103><Audio_1718><Audio_2610><Audio_1883><Audio_16><Audio_792><Audio_8><Audio_8><Audio_535><Audio_67>
Speech Outputs:
Audio saved at ./output_893af1597afe2551d76c37a75c813b16.wav

七、結語

Stream-Omni 是一個強大的多模態交互模型,能夠同時處理文本、圖像和語音等多種模態的輸入,并生成相應的文本和語音輸出。其靈活的交互模式、高效的訓練策略和廣泛的應用場景,使其在智能車載系統、教育輔助工具、智能家居控制、醫療輔助診斷和智能客服服務等多個領域具有廣泛的應用前景。

項目資料

論文地址:https://arxiv.org/pdf/2506.13642

GitHub倉庫:?https://github.com/ictnlp/Stream-Omni

本文轉載自?????小兵的AI視界?????,作者:AGI小兵

收藏
回復
舉報
回復
相關推薦
国产精品国产a级| 视频一区视频二区中文字幕| 日韩免费福利电影在线观看| 尤物av无码色av无码| 欧美女同网站| 激情文学综合丁香| 668精品在线视频| 污污视频网站在线免费观看| 99亚洲乱人伦aⅴ精品| 91成人在线免费观看| 18视频在线观看娇喘| 日本成人一区| 国产福利一区在线| 国产精品久久久久久亚洲影视| 欧美卡一卡二卡三| 久久99青青| 精品国产乱码久久久久久老虎| 九色91popny| 都市激情国产精品| 亚洲欧美日韩国产一区二区三区| 欧美日韩亚洲在线| 丰满岳乱妇国产精品一区| 日韩高清不卡一区二区三区| 午夜精品在线观看| caoporn91| 日韩一区二区三区免费播放| 亚洲精品久久7777777| 手机看片国产精品| 福利一区在线| 色94色欧美sute亚洲13| 国产真人做爰毛片视频直播| av在线导航| 亚洲欧洲日产国产综合网| 精品久久中出| 神马午夜在线观看| 成人妖精视频yjsp地址| 国产日韩欧美夫妻视频在线观看| 99精品人妻国产毛片| 亚洲狠狠婷婷| 久久国产精彩视频| 暗呦丨小u女国产精品| 欧美精选一区二区三区| 国产毛片精品视频| 国产精品亚洲片夜色在线| 国产精品久免费的黄网站| 亚洲九九精品| 91av网站在线播放| 日韩精品手机在线| 中文一区二区| 欧美性一区二区三区| 自拍偷拍欧美亚洲| 国产一区二区三区久久| 欧美一区二区.| 亚洲黄色小说图片| 久久久天天操| 国产精品1234| 伊人久久国产精品| 精品一区二区免费看| 国产欧美婷婷中文| 国产丝袜在线视频| 国产成人在线免费观看| 国产精品污www一区二区三区| 亚洲奶汁xxxx哺乳期| 成人动漫av在线| 久久精品日产第一区二区三区精品版 | 亚洲成aⅴ人片久久青草影院| 亚洲精品98久久久久久中文字幕| 黄色av网址在线观看| 婷婷综合福利| 在线电影欧美日韩一区二区私密| 精品一区二区6| 羞羞色午夜精品一区二区三区| 超碰精品一区二区三区乱码| 超碰手机在线观看| 99精品热视频只有精品10| 日韩免费av片在线观看| 国产精品国产精品国产专区| 国产91综合一区在线观看| 国产一区在线免费| 国产精品毛片一区二区三区四区| 国产精品毛片久久久久久| 一区二区三区av在线| 污片视频在线免费观看| 欧美日韩国产综合新一区| 亚洲精品视频导航| 亚洲国产精品免费视频| 精品无人区乱码1区2区3区在线| 99久久久无码国产精品衣服| 小小影院久久| 日本精品久久电影| 国产熟女精品视频| 久久免费电影网| 国产av不卡一区二区| 日韩伦理精品| 欧美日韩精品一区二区三区蜜桃| 26uuu国产| 精品国产一级毛片| 欧美激情欧美激情| 伊人久久国产精品| 91麻豆精品一区二区三区| 性欧美videosex高清少妇| 欧美性video| 欧美三级电影精品| a天堂视频在线观看| 99精品综合| 日韩av电影在线免费播放| 99久久国产热无码精品免费| 久久精品夜色噜噜亚洲aⅴ| 毛片av在线播放| 久久日本片精品aaaaa国产| 亚洲国产中文字幕久久网| 欧美性生交大片| 免费日韩av片| 国产精华一区二区三区| 免费av毛片在线看| 欧洲视频一区二区| 国产制服丝袜在线| 欧美日韩一区二区国产| 国产欧美最新羞羞视频在线观看| 午夜视频福利在线| 亚洲午夜免费福利视频| 日本高清一区二区视频| 电影一区二区三区| 欧美成人vr18sexvr| 多男操一女视频| 麻豆一区二区在线| 日韩性感在线| 国产v综合v| 亚洲人成在线电影| 一级片视频在线观看| 91在线一区二区| 男人添女人荫蒂免费视频| 99国内精品久久久久| 中文字幕欧美日韩va免费视频| 精产国品一区二区| 久久一区二区视频| 成人观看免费完整观看| 久久悠悠精品综合网| 韩国美女主播一区| 四季av日韩精品一区| 精品国产91久久久久久| 香蕉视频污视频| 一区免费视频| 国产伦精品一区二区三区免| 美足av综合网| 亚洲第一精品电影| 久久精品这里有| jvid福利写真一区二区三区| 3d动漫一区二区三区| 丝袜久久网站| 国产成人在线一区二区| 成人午夜影视| 7777精品久久久大香线蕉| 国产稀缺精品盗摄盗拍| 国产成人在线免费观看| 日韩国产一级片| 欧美大奶一区二区| 欧美在线视频在线播放完整版免费观看| 人妻少妇精品无码专区| 天天色天天爱天天射综合| 中文字幕在线看高清电影| 日韩国产欧美视频| 一本一道久久a久久综合精品 | 麻豆网站视频在线观看| 欧美一区二区三区视频免费 | 在线观看a视频| 欧美久久久久久蜜桃| 国产少妇在线观看| av亚洲精华国产精华| 逼特逼视频在线| 日本久久黄色| yellow视频在线观看一区二区 | av基地在线| 91精选在线观看| 精品无码免费视频| 久久久精品综合| 亚洲理论中文字幕| 亚洲人成在线影院| 日韩亚洲欧美精品| 风间由美一区二区av101| 欧美亚洲午夜视频在线观看| 亚洲s色大片| 亚洲成年网站在线观看| 嫩草影院一区二区三区| 亚洲激情五月婷婷| 欧美bbbbb性bbbbb视频| 精品一区二区三区在线观看| 国产96在线 | 亚洲| 日韩免费久久| 好看的日韩精品视频在线| 成人全视频在线观看在线播放高清 | 国产伦一区二区三区色一情| 日韩免费小视频| 久久国产精彩视频| 高清性色生活片在线观看| 日韩美女一区二区三区四区| 国产精品乱码一区二区视频| 一区二区不卡在线视频 午夜欧美不卡在| 亚洲精品理论片| 国产精品一区免费视频| 男人搞女人网站| 一本色道88久久加勒比精品| 伊人狠狠色丁香综合尤物| 日本蜜桃在线观看视频| 精品国产依人香蕉在线精品| 偷拍自拍在线视频| 日韩一级高清毛片| 亚洲精品一区二区二区| 舔着乳尖日韩一区| 婷婷色中文字幕| 国产精品看片你懂得 | 中文字幕成人av| 精品国产人妻一区二区三区| 狠狠色狠狠色综合日日91app| 97视频在线免费播放| 欧美日韩亚洲一区三区| 天天爱天天做天天操| 91久久夜色精品国产按摩| 欧美一区二区视频17c| 国内毛片久久| av一本久道久久波多野结衣| 成人四虎影院| 国产精品高清免费在线观看| 亚洲性受xxx喷奶水| 国内精品视频一区| 视频在线这里都是精品| 久久久国产视频| av资源在线观看免费高清| 亚洲人成在线观| 精品无吗乱吗av国产爱色| 日韩电影中文字幕| 亚洲三区在线观看无套内射| 亚洲电影在线看| 可以免费看毛片的网站| 欧美成人性福生活免费看| av在线资源观看| 日韩区在线观看| av一级黄色片| 精品区一区二区| 男人天堂网在线视频| 精品久久人人做人人爽| 亚洲第一视频在线| 欧美va日韩va| 婷婷色在线观看| 日韩电影中文字幕一区| 亚洲三级黄色片| 国产一区二区三区在线观看视频 | 色一情一乱一伦一区二区三区日本| 中文在线一区| 免费无码av片在线观看| 视频一区视频二区在线观看| 免费看污污网站| 久久国产精品免费| 男女视频在线观看网站| 成人午夜又粗又硬又大| 亚洲一区二区在线免费| 成人高清av| 国产精品日韩在线播放| a成人v在线| 国产精品一区专区欧美日韩| 九七影院97影院理论片久久| 91精品国产综合久久香蕉922 | 亚洲午夜激情av| 亚洲精品在线观看av| 欧美日韩美女在线观看| 日韩精品一区不卡| 欧美日韩精品欧美日韩精品一 | 99精品视频在线观看| 97人妻精品一区二区免费| 国产女同互慰高潮91漫画| 亚洲少妇xxx| 午夜不卡av在线| 国产在线观看第一页| 91精品国产91热久久久做人人| 亚洲精品国产一区二| 亚洲人成免费电影| 国产在线更新| 97精品视频在线播放| 日韩精品三区| 5566中文字幕一区二区| 台湾佬综合网| 中文字幕色一区二区| 在线播放不卡| 免费看污黄网站| 粉嫩久久99精品久久久久久夜| 女人被狂躁c到高潮| 综合久久综合久久| 久久精品无码av| 5566中文字幕一区二区电影 | 电影中文字幕一区二区| 中文字幕日韩精品在线| 尤物yw193can在线观看| 欧洲成人免费aa| 精品一区二区三区中文字幕在线| 久久天堂国产精品| 亚洲激情中文| 丁香婷婷激情网| 成人综合婷婷国产精品久久| 日韩毛片无码永久免费看| 亚洲午夜日本在线观看| 国产又粗又猛又色又| 亚洲老板91色精品久久| 在线看一级片| 国产精品一区二区三区免费视频| 欧美人体视频| av中文字幕av| 免费成人在线网站| 亚洲国产综合视频| 一区二区三区不卡视频| 亚洲视频在线免费播放| 亚洲欧美日韩中文在线| 9765激情中文在线| 91丨九色丨国产在线| 日韩久久综合| 久草综合在线观看| 91影院在线免费观看| 国产午夜精品无码| 日韩视频在线一区二区| 麻豆91在线| 成人性生交大片免费看视频直播 | 美国十次av导航亚洲入口| 一本色道久久88亚洲精品综合| 久久99精品国产| 五月婷婷婷婷婷| 欧美系列日韩一区| 成人免费在线电影| 国产精品极品美女在线观看免费| 伊人成综合网伊人222| 男人用嘴添女人下身免费视频| 风间由美性色一区二区三区| 久久成人国产精品入口| 欧美一区二区三区日韩视频| 精精国产xxxx视频在线| 国产一区二区丝袜高跟鞋图片| japanese国产精品| 黄色成人免费看| 欧美国产丝袜视频| 精品乱码一区内射人妻无码| 一本大道久久加勒比香蕉| 日韩视频网站在线观看| 亚洲精品二区| 美女诱惑一区二区| 久久久久久久麻豆| 日韩欧美一级在线播放| 手机在线免费看av| 国产精品v欧美精品∨日韩| 亚洲三级影院| 亚洲熟妇一区二区三区| 色成人在线视频| jizz在线观看中文| 91精品久久久久久久久久久久久 | 国产原创精品在线| 国产精品免费久久久久| 97超碰中文字幕| 欧美大秀在线观看| 欧美一级二级三级视频| 成人在线观看a| 国产精品久久久久久久久免费樱桃| 91激情在线观看| 欧美丰满老妇厨房牲生活| 噜噜噜狠狠夜夜躁精品仙踪林| 日韩网址在线观看| 中文字幕免费不卡| www.精品久久| 2019精品视频| 色婷婷热久久| 亚洲国产精品第一页| 欧美性猛xxx| 日本在线免费看| 国产精品久久久久久久免费大片 | 国产日本在线观看| 成人美女av在线直播| 亚洲黄色影片| 欧美熟妇激情一区二区三区| 在线播放中文一区| 678在线观看视频| 亚洲高清在线播放| 福利一区二区在线观看| 国产成人精品777777| 久久夜色精品国产亚洲aⅴ| 欧美日韩直播| 红桃视频 国产| 五月天欧美精品| 幼a在线观看| 久久久久久国产精品mv| 久久国产精品一区二区| 国产无人区码熟妇毛片多| 日韩亚洲在线观看| 香蕉精品久久| 日本中文字幕在线不卡| 色八戒一区二区三区| 免费av不卡在线观看| 亚洲图片欧洲图片日韩av| av资源网一区| 国产精品女人久久久| 日韩av手机在线观看| 在线成人h网| 成人一级黄色大片| 国产一区二区三区欧美| 思热99re视热频这里只精品|