野外做受又硬又粗又大视幕,欧美高清大白屁股xxxxx

阿里巴巴發(fā)布新一代端到端多模態(tài)旗艦?zāi)Ｐ蚎wen2.5-Omni

來源：證券時(shí)報(bào)網(wǎng)作者：李志強(qiáng)2025-03-27 08:44

阿里巴巴發(fā)布了新一代端到端多模態(tài)旗艦?zāi)Ｐ蚎wen2.5-Omni，號(hào)稱具備全方位多模態(tài)感知能力，看聽說寫樣樣精通。

采用全新的Thinker-Talker雙核架構(gòu)，Thinker模塊負(fù)責(zé)處理多模態(tài)輸入并生成語義表征和文本內(nèi)容，Talker模塊則負(fù)責(zé)將這些信息轉(zhuǎn)化為流暢的語音輸出。這種架構(gòu)實(shí)現(xiàn)了端到端的統(tǒng)一，支持實(shí)時(shí)音視頻交互和流暢的語音生成。

能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式，并同時(shí)生成文本和語音輸出。支持分塊輸入和即時(shí)輸出，實(shí)現(xiàn)真正的實(shí)時(shí)交互。

已在Hugging Face、ModelScope、DashScope和GitHub等平臺(tái)開源，方便開發(fā)者體驗(yàn)和使用。

相比現(xiàn)有方案，語音生成的自然度和穩(wěn)定性更高。在音頻能力上優(yōu)于同等規(guī)模的Qwen2-Audio，與Qwen2.5-VL-7B保持同等水平。在語音指令理解方面表現(xiàn)出色，效果可媲美文本輸入。

校對(duì)：蘇煥文

責(zé)任編輯：孫孝熙

阿里巴巴

Qwen2.5-Omni

多模態(tài)模型

聲明：證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險(xiǎn)自擔(dān)

下載“證券時(shí)報(bào)”官方APP，或關(guān)注官方微信公眾號(hào)，即可隨時(shí)了解股市動(dòng)態(tài)，洞察政策信息，把握財(cái)富機(jī)會(huì)。

網(wǎng)友評(píng)論

登錄后可以發(fā)言