快轉到主要內容

[新聞] OpenAI 公布 Sora -- 文字生成影片

OpenAI 在 2024 二月 15 日公布了可以從文字生成影片的 AI 模型: Sora, 請一定去 https://openai.com/sora 看 OpenAI 的介紹,他們在網頁上放了許多影片,品質非常驚人

驚人之處

  • 影片 1080p
  • 很多影片看起來非常像實拍:人物、遠景、特寫、攝影機視角的移動…
  • 大部分的手跟手指沒有很奇怪
  • 雖然示範影片風格大部分是以「現實」為主,但也有稍微不同的藝術風格,例如動畫等等。看起來風格是可以 prompt, 像是 cinematic, animation, warm 等等
  • 影片流暢度與風格一致,不會感受到拍的人「精神分裂」
  • 光影、反射折射,雖然一時之間不知道正不正確,但是「感覺很真」很搶眼(我覺得 OpenAI 有特地把這當賣點,一些影片的 prompt 有 reflection 之類的)

不足之處

  • 影片裡的文字依然虛假,例如招牌、路標等等
  • 有些手/腳/手指還是不對,尤其是貓貓跟人睡覺的那一片有點驚悚… 太真實的下場
  • 有些 “collision” 跟「無中生有」也很驚悚,像是冬天東京那一片
  • 有些影片雖然想要實景,看起來卻很像… 小模型,例如工地那一片(我其實在猜這可能反而是大多數,示範影片是 cherry pick)

當然示範影片都可以精心挑選,而 OpenAI 也有特地挑出他們的「弱點」影片,最主要是「合理性」、「物理特性」跟「物件互動/因果」還有很大的進步空間

根據文字生圖的經驗,未來有幾點可以關注

  • 產生成本
  • 產生時間
  • 產生影片的「命中率」,要產生多少影片才會是你想要的
  • prompt engineering, again

目前模型還沒有開放給普羅大眾,只是先公布進度。他們還在評估風險、安全性,以及跟影片業界專業人士合作看怎麼樣幫助他們

OpenAI 也特別開一段 Safety, 提到像是避免用在造謠、仇恨暴力、歧視、侵犯名人或智財權等等,也會做分類器來偵測某影片是否為 Sora 生成的影片

關於技術,他們之後會把論文放上去,目前提到是用 diffusion + transformer

(Update: 技術相關的他們放在 https://openai.com/research/video-generation-models-as-world-simulators )


總之從 Gen-2 到 Sora,這種生成影片能夠幫助到很多領域像是廣告公司、影片創作 B-cut (甚至可能是主角),不過對於從業人員例如攝影師、素材庫、模特兒等等也有一些影響吧

若您覺得有趣, 請 追蹤我的Facebook 或  Linkedin, 讓你獲得更多資訊!