突發!DeepSeek除夕搞炸裂,開源多模態AI模型發布,僅128顆英偉達A100訓練1周,性能碾壓美國企業

突發!DeepSeek除夕搞炸裂,開源多模態AI模型發布,僅128顆英偉達A100訓練1周,性能碾壓美國企業
2025年01月28日 02:03 鈦媒體網

專題:DeepSeek為何能震動全球AI圈

  剛剛,DeepSeek除夕放大招,這絕對是 AI 行業最難眠的一夜了。

  1月28日凌晨,人工智能社區Hugging Face顯示,DeepSeek剛剛發布了開源多模態人工智能模型Janus-Pro,擁有10億和70億參數規模。其中Janus-Pro-7B在GenEval和DPG-Bench基準測試中擊敗了OpenAI的DALL-E 3和Stable Diffusion。

  簡單來說,這個模型既能讓AI讀圖(基于SigLIP-L),又能讓AI生圖(借鑒LlamaGen),分1.5B和7B兩個大小。要知道,GPT-4o的圖片生成多模態模型至今沒開放。

  它到底有多么厲害?給你看看DeepSeek給的案例。

  它能解答圖片在杭州西湖,也能根據提示詞生成惟妙惟肖的圖片。

  事實上,DeepSeek一直在研發多模態生成式AI模型。

  2024年前后,該公司推出Janus,這是一種統一理解和生成的開源多模態模型(MLLM),它將視覺編碼解耦,以實現多模態理解和生成。

  Janus 基于 DeepSeek-LLM-1.3b-base 構建,該庫在大約 500B 個文本標記的語料庫上進行訓練。對于多模態理解,它使用 SigLIP -L作為視覺編碼器,支持 384 x 384 圖像輸入。對于圖像生成,Janus 使用此處的標記器,下采樣率為 16。

  2024年11月13日,JanusFlow 發布,一種用于圖像生成的具有校正流的新型統一模型。

  簡單來說,JanusFlow是一個功能強大的框架,它將圖像理解和生成統一到一個模型中。JanusFlow 引入了一種極簡架構,將自回歸語言模型與最先進的生成模型方法整流流相結合。我們的主要發現表明,整流流可以直接在大型語言模型框架內進行訓練,無需進行復雜的架構修改。

  2025年開年,Janus全面升級到高級版Janus-Pro。

  具體來說,Janus-Pro 是一種新穎的自回歸框架,它將多模態理解和生成統一起來,將視覺編碼解耦,以實現多模態理解和生成。它通過將視覺編碼解耦為單獨的路徑來解決以前方法的局限性,同時仍然使用單一、統一的轉換器架構進行處理。

  這種解耦不僅緩解了視覺編碼器在理解和生成中的角色沖突,還增強了框架的靈活性。

  不過,Janus-Pro架構與Janus相同。總體體系結構的核心設計原理是將視覺編碼解析,以進行多模式的理解和生成。我們應用獨立的編碼方法將原始輸入轉換為功能,然后由統一自回歸Transformer處理。為了進行多模式理解,我們使用siglip 編碼器從圖像中提取高維語義特征。將這些特征從2-D網格平坦為1-D序列,并使用理解適配將這些圖像特征映射到LLM的輸入空間中。對于視覺生成任務,我們使用的VQ令牌將圖像轉換為離散ID。將ID序列平坦為1-D之后,我們使用一代適配器將與每個ID相對應的代碼簿嵌入到LLM的輸入空間中。然后,我們將這些特征序列加和形成多模式特征序列,然后將其送入LLM進行處理。除了LLM中的內置預測頭外,我們還利用一個隨機初始化的預測頭來進行視覺生成任務中的圖像預測。整個模型遵循自回歸框架。

  Janus-Pro 超越了之前的統一模型,并且達到或超過了特定任務模型的性能。Janus-Pro 的簡單性、高靈活性和有效性使其成為下一代統一多模態模型的有力候選者。

  Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 構建。

  最重要的是訓練:我們在單個訓練步驟中根據指定的比率混合所有數據類型。我們的 Janus 使用 HAI-LLM [15] 進行訓練和評估,這是一個構建在 PyTorch 之上的輕量級且高效的分布式訓練框架。整個訓練過程在 1.5B/7B 模型的 16/32 個節點的集群上花費了大約 7/14 天,每個節點配備 8 個 Nvidia A100 (40GB) GPU。

  對外展示的多個基準測試顯示,Janus-Pro 卓越的多模態理解能力,并顯著提高了文本到圖像的指令跟蹤性能。具體來說,Janus-Pro-7B在多模態理解基準MMBench 上取得了79.2的分數,超越了Janus (69.4)、TokenFlow (68.9)等最先進的統一多模態模型,和MetaMorph (75.2)。此外,在文本到圖像指令跟蹤排行榜 GenEval中,Janus-Pro-7B 得分為 0.80,優于 Janus (0.61)、DALL-E 3 (0.67) 和 Stable Diffusion 3 Medium(0.74)。

  Janus-Pro-7B 在 GenEval 上獲得了 80% 的總體準確率,這優于所有其他統一或僅生成的方法,例如 Transfusion (63%) SD3-Medium (74%) 和DELLE-E 3 (67%)。這表明我們的方法具有更好的指令跟蹤能力。另外,Janus-Pro 在 DPG-Bench 上獲得了 84.19 的分數,超過了所有其他方法。這表明 Janus-Pro 擅長遵循密集的指令來生成文本到圖像。

  目前,相關代碼已經放在了GitHub當中。

  https://github.com/deepseek-ai/Janus?tab=readme-ov-file

  我們非常期待接下來DeepSeek能夠帶來優異的多模態(如文生圖、文生視頻)等功能和表現,這可能會讓OpenAI、Meta,甚至是英偉達會更加恐慌。

  最后的最后,還是要提醒,DeepSeek已經限制新用戶注冊了,也就是鎖區了,海外的朋友需要買虛擬號注冊:近期DeepSeek線上服務受到大規模惡意攻擊,為持續提供服務,暫時限制了+86手機號以外的注冊方式,已注冊用戶可以正常登錄,感謝理解和支持。

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:李桐

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經公眾號
新浪財經公眾號

24小時滾動播報最新的財經資訊和視頻,更多粉絲福利掃描二維碼關注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 01-17 宏海科技 920108 5.57
  • 01-16 亞聯機械 001395 19.08
  • 01-16 海博思創 688411 19.38
  • 01-14 富嶺股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 新浪首頁 語音播報 相關新聞 返回頂部