在公開預覽過去10個月后,在OpenAI的12天連更計劃的第3天,視頻生成大模型Sora終于正式登場。12月10日,OpenAI宣布正式向用戶開放Sora,該系統(tǒng)可以根據(jù)文本提示生成逼真的視頻。應用落地也來得很快。作為“視頻版GPT”,OpenAI已開始向電影制片廠、媒體高管以及經(jīng)紀公司示好,還允許一些藝術家、知名演員和導演試用該服務。
巨強巨貴
今年2月,OpenAI首次向外界展示了Sora的存在。據(jù)其介紹,Sora可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。OpenAI在官網(wǎng)上公布了數(shù)十個視頻demo,并不斷在社交平臺X上放出由Sora生成的視頻。這些內容被集合推送至OpenAI的TikTok賬號上,短短5天內便獲得了51.3萬次贊,粉絲數(shù)也漲至10.6萬。
Sora不僅為OpenAI帶來了大量粉絲,也讓其估值進一步提升。不過,當時這家公司表示,Sora在短期內不會向大眾開放,因為其“技術仍存在一些缺陷,包括一些空間問題”。
在將近10個月之后,萬眾矚目下,Sora終于在此次系列發(fā)布中重磅登場。OpenAI表示,2月發(fā)布Sora之后,團隊開發(fā)了其新版本Sora Turbo,其性能有了顯著進步,即日起該版本將作為獨立產(chǎn)品提供給ChatGPT Plus和Pro用戶。
相比初次亮相的Sora,Sora Turbo生成效率顯著提升,能夠通過文本直接生成最多20秒或最高分辨率1080P的視頻,成為目前全球生成時長最長的視頻模型之一。該模型支持文本加圖片或視頻的輸入,可生成特定視頻內容,并能夠編輯生成視頻,使生成效果更加可控。
此外,Sora Turbo還有多種視頻編輯工具,包括替換、刪除或重新構想視頻中的元素;找到并隔離最佳幀,然后向任一方向延伸它們以完成場景;使用Loop剪輯并創(chuàng)建無縫重復的視頻以及一個名為Storyboard的選項,用戶可以通過它詳細描述希望視頻在不同時間點發(fā)生的內容,從而更好地指導一系列片段的生成。
定價方面,Sora Turbo將免費提供給ChatGPT Plus和Pro用戶,月租20美元(約合人民幣145元)的Plus用戶,每月最多可以生成50個480P分辨率的優(yōu)先視頻;Pro訂閱者則最多可生成500個優(yōu)先視頻,普通視頻無限量生成,可下載無水印版視頻,對應每月費用為200美元(約合1450元)。
這一定價也引發(fā)了不同的聲音,有用戶直呼“太貴”,有用戶卻認為“一分錢一分貨”。雖然當前價格仍被部分用戶認為偏高,但這已是OpenAI努力降低成本的結果。OpenAI還透露,他們計劃針對不同用戶類型開發(fā)新的定價模式,并將于明年初推出。
視頻版GPT
目前,美國及其他市場的ChatGPT付費用戶可以通過該網(wǎng)站開始使用Sora,但在歐洲大部分地區(qū)和英國還需要一段時間才能使用,中國用戶依然受限。
不過,由于實在是太火爆,Sora網(wǎng)站一度被擠到崩潰,OpenAI CEO山姆·奧特曼(Sam Altman)表示:“由于需求超出預期,我們將不得不間歇性地關閉新用戶注冊,并且生成內容的速度會在一段時間內減慢。”
在技術路線上,目前,業(yè)界普遍猜測Sora的成功延續(xù)了OpenAI的Scaling law法則,即通過海量的數(shù)據(jù)、大量的算力,再加上大參數(shù)模型,最終“大力出奇跡”。OpenAI研究科學家Noam Brown在Sora Turbo發(fā)布后表示,Sora是scale(規(guī)模)力量最直觀的展示。山姆·奧特曼則表示,“大家可以將 Sora看作視頻版的GPT-1”。OpenAI還表示,Sora是一項理解和模擬現(xiàn)實的基礎性AI技術,是開發(fā)能夠與物理世界互動模型的重要一步。
中國銀河證券研究院的報告也顯示,Sora對算力需求呈指數(shù)級增長。其根據(jù)Sora參數(shù)規(guī)模推演出的訓練單次算力需求或可達到2.6×10^24Flops,相當于GPT-3175B的8.2倍。目前Sora還在初級階段,伴隨不斷迭代調優(yōu),其訓練數(shù)據(jù)集規(guī)模將進一步增大,未來算力需求也會大幅增加。
在國內,互聯(lián)網(wǎng)大廠和大模型公司也在紛紛跟進視頻大模型這一賽道,包括字節(jié)跳動、快手,今年發(fā)布視頻生成模型的公司還包括阿里云、Minimax、生數(shù)科技、智譜AI等公司。就在最近,騰訊混元大模型也宣布上線視頻生成能力,正式加入競爭激烈的視頻生成賽道。
不過,視頻生成模型領域雖然看起來火熱,也面臨著非常嚴峻的挑戰(zhàn)。近日,百度CEO李彥宏稱“百度不做Sora”的演講被媒體曝光,李彥宏在內部講話中稱,Sora這種視頻生成模型的投入周期太長,10年、20年都可能拿不到業(yè)務收益,無論多火爆,百度都不去做。
商業(yè)化空間打開
自今年2月首次預告Sora以來,OpenAI便開始與電影制片廠、媒體高管以及經(jīng)紀公司展開會談。OpenAI還允許一些藝術家、知名演員和導演試用該服務。市場預計,Sora的發(fā)布會對視頻制作領域帶來革命性的變化,無論是電影制作、廣告、游戲開發(fā)還是社交媒體,都可以借助視頻生成大模型降低視頻創(chuàng)作的門檻,產(chǎn)生新的機遇。
對于企業(yè)和內容創(chuàng)作者而言,視頻制作往往是一項繁瑣且耗時的任務。借助視頻生成大模型,用戶只需提供簡短的文本描述,即可自動生成高質量視頻。“這不僅節(jié)省了大量時間,也大幅降低了對專業(yè)技能的要求,即使沒有視頻制作經(jīng)驗的用戶也能輕松創(chuàng)建專業(yè)級內容。視頻生成大模型的廣泛應用有望改變廣告營銷、產(chǎn)品推廣和教育輔導等多個行業(yè)的內容創(chuàng)作流程,推動生產(chǎn)力的升級。”一位視頻后期制作人員對北京商報記者表示。
“國產(chǎn)多模態(tài)視頻大模型歷經(jīng)一年多迭代,已逐步提升對內容制作的賦能效果,拓寬了創(chuàng)作邊界,預計后續(xù)AI影視領域商業(yè)化空間將打開。”開源證券表示。不過,業(yè)內人士也向北京商報記者表示,視頻生成大模型擁有樂觀的商業(yè)化前景的同時,從可用度而言,還未到大規(guī)模商用的階段,仍有很多技術難點需要克服,比如對物理世界規(guī)律的理解、高分辨率、鏡頭動作連貫性以及時長等,都是行業(yè)激戰(zhàn)且有待提升的重要維度。
此外,從AI誕生之初,對于版權的問題就爭論不休。有從事設計行業(yè)的人士對北京商報記者直言:“Sora確實厲害,但AI生成視頻內容質量和版權問題怎么解決?會員免費用,那創(chuàng)作者收益呢?這些問題不解決,技術再牛也難長久。”
北京商報記者 趙天舒
本網(wǎng)站所有內容屬北京商報社有限公司,未經(jīng)許可不得轉載。 商報總機:010-64101978 媒體合作:010-64101871
商報地址:北京市朝陽區(qū)和平里西街21號 郵編:100013 法律顧問:北京市中同律師事務所(010-82011988)
網(wǎng)上有害信息舉報 違法和不良信息舉報電話:010-84276691 舉報郵箱:bjsb@bbtnews.com.cn
ICP備案編號:京ICP備08003726號-1 京公網(wǎng)安備11010502045556號 互聯(lián)網(wǎng)新聞信息服務許可證11120220001號