Sora如何降維打擊其他文生視頻大模型?記者實測對比

Sora如何降維打擊其他文生視頻大模型?記者實測對比
2024年02月18日 19:45 新京報

安裝新浪財經(jīng)客戶端第一時間接收最全面的市場資訊→【下載地址

  OpenAI的文生視頻大模型Sora已經(jīng)發(fā)布兩天,其沖擊力依然不減。

  2月18日,新京報貝殼財經(jīng)記者進行了Sora與其他文生視頻大模型的對比測試,發(fā)現(xiàn)Sora在時間和視頻生成質(zhì)量上均對“同行”產(chǎn)生了“降維打擊”:其他文生視頻大模型僅能生成3至4秒的視頻,而Sora生成的視頻時間最多可達1分鐘,且景物也更加清晰穩(wěn)定、符合描述。

  不過,隨著越來越多使用Sora制作的視頻出現(xiàn)以及部分技術(shù)細節(jié)的公開,業(yè)界開始對其進行全方位審視,其中,贊揚和驚嘆聲不少,但Sora生成的視頻也被發(fā)現(xiàn)存在諸多不合理之處。

  文生視頻對比實測:Sora從“動圖”升級到“短片”

  “一個時髦的女人走在東京的街道上,街道上充滿了溫暖發(fā)光的霓虹燈和生動的城市標志。她穿著一件黑色的皮夾克,一件紅色的長裙,一雙黑色的靴子,還帶著一個黑色的錢包。她戴著太陽鏡,涂著紅色的口紅。她自信而隨意地走著。街道是潮濕和反光的,創(chuàng)造了一個五顏六色的燈的鏡面效果。許多行人走來走去。”這是OpenAI官網(wǎng)介紹Sora時,出現(xiàn)的第一組提示詞。

  在OpenAI推出Sora之前,文生視頻領(lǐng)域的創(chuàng)業(yè)公司主要包括Pika、Runway等,為了驗證Sora的能力,新京報貝殼財經(jīng)記者將上述同樣的提示詞輸入Pika文生視頻模型,以及Runway旗下的Gen-2video文生視頻模型進行了實測。

在相同提示詞下,新京報貝殼財經(jīng)記者使用Pika生成的視頻截圖。在相同提示詞下,新京報貝殼財經(jīng)記者使用Pika生成的視頻截圖。
在相同提示詞下,新京報貝殼財經(jīng)記者使用runway旗下Gen-2video生成的視頻截圖。在相同提示詞下,新京報貝殼財經(jīng)記者使用runway旗下Gen-2video生成的視頻截圖。

  OpenAI官網(wǎng)上Sora生成的視頻。

  貝殼財經(jīng)記者發(fā)現(xiàn),在相同的提示詞下,Pika僅能生成3秒的視頻,Gen-2video則可以生成4秒的視頻。其中,Pika的視頻為“時髦女人”的背影,無法體現(xiàn)她“戴著太陽鏡,涂著紅色的口紅”的描述,不過對于提示詞中“潮濕反光的街道和五顏六色燈的鏡面效果”體現(xiàn)得較好,但整體上視頻較為模糊。

  Gen-2video則跳出了“無法輸入這么多提示詞”的彈窗,并根據(jù)能夠輸入的部分生成了一個4秒的視頻,該視頻相比Pika顯然精細很多,也符合提示詞描述的人物形象,包括“街道、人群、黑錢包”等。

  但可以發(fā)現(xiàn),無論是Pika還是Gen-2video,都忽略了“一件紅色的長裙”這個細節(jié),且貝殼財經(jīng)記者通過觀看視頻發(fā)現(xiàn),這兩段視頻仍能看出AI生成的影子,特別是Gen-2video的人物臉部,有細微的形變,這正是AI生成視頻的特點之一:難以始終保持同一人物的連貫性。

  而Sora不僅體現(xiàn)了提示詞中的全部細節(jié),而且還很好地保持了人物的連貫性,使得該視頻幾乎可以“以假亂真”。當然,如果仔細觀察,可以發(fā)現(xiàn)該視頻中人物的腳步在某幾個幀會出現(xiàn)不自然的扭曲,以及該視頻中的背景廣告牌雖然酷似日文,但由于目前AI還無法直接在視頻中“認識”文字,其只能生成似是而非的“日文”,這都是AI生成視頻的特點之一。

  但即便如此,Sora還是用事實顯現(xiàn)出了同其他文生視頻大模型的代差。

  在谷歌和推特都有從業(yè)經(jīng)歷的AI創(chuàng)業(yè)者Gabor Cselle也發(fā)布了使用相同提示詞,在其他四個文生視頻模型中“復(fù)現(xiàn)”Sora“穿過下雪、櫻花飛舞的東京街道……”的場景,并表示“其他模型達不到能和Sora比較的效果”。

Gabor Cselle社交賬號截圖。Gabor Cselle社交賬號截圖。

  在國內(nèi),也有不少AI從業(yè)者直觀地感受到了Sora帶來的沖擊。

  清華大學沈陽教授團隊一直聚焦AI在各個領(lǐng)域的應(yīng)用,并也一直在使用AI模型進行文生視頻的操作。2月17日,他在朋友圈發(fā)布了一條團隊成員花兩天制作的“半失敗”AI視頻,并表示“從這里可以看出和Sora的差距,我讓她暫時放棄這個作品,等算法升級再重做一下。”

  對于Sora出現(xiàn)后,使用AI制作視頻的工作能否繼續(xù),沈陽回復(fù)貝殼財經(jīng)記者“慢慢弄,往前挪唄”。

  理解物理世界 顛覆影視、游戲行業(yè) Sora是“通用世界模型”嗎?

  為何Sora能夠在視頻生成的質(zhì)量上明顯領(lǐng)先同業(yè)產(chǎn)品?OpenAI在官方網(wǎng)站上表示,Sora是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ),相信這一能力將是實現(xiàn)通用人工智能的重要里程碑。不過,Sora還存在很多不完善之處,仍然處于世界模型研究應(yīng)用的初期階段。

  什么是世界模型?貝殼財經(jīng)了解到,實際上runway公司在去年12月就提出過要開發(fā)通用世界模型(General World Model),用其旗下的Gen-2模型來模擬整個世界,“我們相信,人工智能的下一個重大進步將來自理解視覺世界及其動態(tài)的系統(tǒng),這就是為什么我們要圍繞通用世界模型開始一項新的長期研究工作。”

  從效果上看,目前OpenAI已經(jīng)通過Sora部分做到了這一點,因為只有理解物理世界的運行法則,文生視頻模型才能創(chuàng)造出更加逼真的視頻。英偉達高級科學家Jim Fan就對此表示,Sora是一個數(shù)據(jù)驅(qū)動的物理引擎,“它是對許多世界的模擬,無論是真實的,還是虛構(gòu)的。該模擬器通過去噪和梯度學習方式,學習了復(fù)雜的渲染、直觀的物理、長期推理和語義理解。”

  而理解現(xiàn)實世界的物理法則,也正是通往通用人工智能這一“終極目標”的必經(jīng)之路。

  對此,不少科技圈名人都發(fā)出了驚嘆,馬斯克直接在社交平臺上發(fā)布短評“GG世界”(GG是網(wǎng)絡(luò)游戲的用語之一,原指游戲結(jié)束時玩家互相致意,后引申為“游戲結(jié)束”)。

  360公司董事長周鴻祎則直接在朋友圈發(fā)文稱,一旦AI能夠接上攝像頭,觀看并理解世界上所有的電影,它對世界的理解能力將遠遠超過僅僅通過文字學習所能達到的水平。在這種情況下,實現(xiàn)通用人工智能不再是遙不可及的夢想。周鴻祎甚至預(yù)測,這一天可能在一兩年內(nèi)就會到來,而不是十年或二十年。

  在現(xiàn)實層面,有更多人擔心文生視頻大模型可能直接沖擊影視和游戲行業(yè)。美國舊金山早期投資人Zak Kukoff預(yù)測,在5年內(nèi),一個不到5人的團隊將可能用文生視頻模型制作出一部票房收入超過5000萬美元的電影。

  值得注意的是,日前大火的游戲《幻獸帕魯》的開發(fā)團隊就僅有4人,有許多人質(zhì)疑該團隊使用了AI生成技術(shù)制作游戲角色,以節(jié)省成本。而根據(jù)OpenAI 發(fā)布的最新Sora技術(shù)報告,Sora能夠模擬視頻游戲的數(shù)字化過程,Sora能在控制 Minecraft 游戲角色進行基本操作的同時,高質(zhì)量動態(tài)渲染游戲世界。這意味著,個人開發(fā)制作游戲的門檻可能會被進一步降低。

  前阿里巴巴副總裁,Lepton AI公司創(chuàng)始人賈揚清則直接評價Sora“真的非常牛”,他表示Sora的問世可能會給對作OpenAI的公司帶來一波被大廠FOMO(害怕錯過機會而導(dǎo)致的收購)收購的機會。賈揚清預(yù)測,大模型市場長期仍將呈現(xiàn)閉源寡頭的格局,開源大模型仍然需要一段時間才能追趕上,而從算法小廠的角度來看,要么在算法上與OpenAI媲美,要么深耕垂直領(lǐng)域的應(yīng)用,要么選擇開源道路;最后,基礎(chǔ)設(shè)施的需求將繼續(xù)猛增。

股市回暖,抄底炒股先開戶!智能定投、條件單、個股雷達……送給你>>
海量資訊、精準解讀,盡在新浪財經(jīng)APP

責任編輯:歐陽名軍

AI 貝殼財經(jīng) 降維

VIP課程推薦

加載中...

APP專享直播

1/10

熱門推薦

收起
新浪財經(jīng)公眾號
新浪財經(jīng)公眾號

24小時滾動播報最新的財經(jīng)資訊和視頻,更多粉絲福利掃描二維碼關(guān)注(sinafinance)

股市直播

  • 圖文直播間
  • 視頻直播間

7X24小時

  • 02-21 龍旗科技 603341 --
  • 02-08 肯特股份 301591 19.43
  • 01-30 諾瓦星云 301589 126.89
  • 01-30 上海合晶 688584 22.66
  • 01-29 成都華微 688709 15.69
  • 新浪首頁 語音播報 相關(guān)新聞 返回頂部