Qwen2.5-Omni:看,聽,說,寫,樣樣精通!

Qwen2.5-Omni:看,聽,說,寫,樣樣精通!
2025年03月27日 02:33 市場資訊

  來源:通義千問Qwen

  今天,我們發(fā)布了 Qwen2.5-Omni,Qwen 模型家族中新一代端到端多模態(tài)旗艦?zāi)P?/font>。該模型專為全方位多模態(tài)感知設(shè)計,能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過實(shí)時流式響應(yīng)同時生成文本與自然語音合成輸出。

  該模型現(xiàn)已在 Hugging Face、ModelScope、DashScope 和 GitHub上開源開放,你可以通過我們的Demo體驗(yàn)互動功能,或是通過Qwen Chat 直接發(fā)起語音或視頻聊天,沉浸式體驗(yàn)全新的 Qwen2.5-Omni 模型強(qiáng)大性能。

  主要特點(diǎn)

  • 全能創(chuàng)新架構(gòu):我們提出了一種全新的Thinker-Talker架構(gòu),這是一種端到端的多模態(tài)模型,旨在支持文本/圖像/音頻/視頻的跨模態(tài)理解,同時以流式方式生成文本和自然語音響應(yīng)。我們提出了一種新的位置編碼技術(shù),稱為TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實(shí)現(xiàn)視頻與音頻輸入的精準(zhǔn)同步。

  • 實(shí)時音視頻交互:架構(gòu)旨在支持完全實(shí)時交互,支持分塊輸入和即時輸出。

  • 自然流暢的語音生成:在語音生成的自然性和穩(wěn)定性方面超越了許多現(xiàn)有的流式和非流式替代方案。

  • 全模態(tài)性能優(yōu)勢:在同等規(guī)模的單模態(tài)模型進(jìn)行基準(zhǔn)測試時,表現(xiàn)出卓越的性能。Qwen2.5-Omni在音頻能力上優(yōu)于類似大小的Qwen2-Audio,并與Qwen2.5-VL-7B保持同等水平。

  • 卓越的端到端語音指令跟隨能力:Qwen2.5-Omni在端到端語音指令跟隨方面表現(xiàn)出與文本輸入處理相媲美的效果,在MMLU通用知識理解和GSM8K數(shù)學(xué)推理等基準(zhǔn)測試中表現(xiàn)優(yōu)異。

  Qwen2.5-Omni-7B demo

  模型架構(gòu)

  Qwen2.5-Omni采用Thinker-Talker雙核架構(gòu)。Thinker 模塊如同大腦,負(fù)責(zé)處理文本、音頻、視頻等多模態(tài)輸入,生成高層語義表征及對應(yīng)文本內(nèi)容;Talker 模塊則類似發(fā)聲器官,以流式方式接收 Thinker實(shí)時輸出的語義表征與文本,流暢合成離散語音單元。Thinker 基于 Transformer 解碼器架構(gòu),融合音頻/圖像編碼器進(jìn)行特征提取;Talker則采用雙軌自回歸 Transformer 解碼器設(shè)計,在訓(xùn)練和推理過程中直接接收來自 Thinker 的高維表征,并共享全部歷史上下文信息,形成端到端的統(tǒng)一模型架構(gòu)。

  模型架構(gòu)圖

  模型性能

  Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

  在多模態(tài)任務(wù)OmniBench,Qwen2.5-Omni達(dá)到了SOTA的表現(xiàn)。此外,在單模態(tài)任務(wù)中,Qwen2.5-Omni在多個領(lǐng)域中表現(xiàn)優(yōu)異,包括語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感)。

  模型性能圖

  下一步

  我們期待聽到您的反饋,并看到您使用 Qwen2.5-Omni 開發(fā)的創(chuàng)新應(yīng)用。在不久的將來,我們將著力增強(qiáng)模型對語音指令的遵循能力,并提升音視頻協(xié)同理解能力。更值得期待的是,我們將持續(xù)拓展多模態(tài)能力邊界,以發(fā)展成為一個全面的通用模型!

  體驗(yàn)方式

  • Qwen Chat:https://chat.qwenlm.ai

  • Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

  • DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

  • GitHub:https://github.com/QwenLM/Qwen2.5-Omni

  • Demo體驗(yàn):https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

  ??點(diǎn)擊‘閱讀原文’一鍵體驗(yàn)全模態(tài)實(shí)時互動

海量資訊、精準(zhǔn)解讀,盡在新浪財經(jīng)APP

責(zé)任編輯:李桐

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經(jīng)公眾號
新浪財經(jīng)公眾號

24小時滾動播報最新的財經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 04-08 宏工科技 301662 --
  • 04-07 肯特催化 603120 --
  • 03-31 信凱科技 001335 --
  • 03-31 泰禾股份 301665 --
  • 03-28 泰鴻萬立 603210 8.6