“Sora的出现让AI创业者和投资人彻夜难眠”

多年以后,当我们再回看“AI视频生成”这件事时,或许都直接可以用“Sora前时代”和“Sora后时代”来描述它。

20240502140118785

GPT中文站认为在Sora前时代,诸如Runway、Pika、Stable Video Diffusion等大量创业公司还在百家争鸣、平分秋色,而在Sora横空出世后,这些公司都瞬间黯然失色,遭到降维打击后不得不重新审视未来的发展道路。毕竟,大家如今都可以随意生成60秒的高清大片了,谁还会为你那4秒的动图拍手称赞呢?

当所有人都在为Sora惊叹狂欢时,在无人在意的角落,是大量AI视频创业者和投资人的一夜无眠。

首先,让我们简要回顾一下相比于此前行业内的同类型产品,此次OpenAI发布的Sora有哪些颠覆之处。

20240502140141595
  1. 生成视频的时间长度。在昨天之前,受制于AI文本到视频生成的物理和时空推理局限,目前整个行业中所公布的单个连贯性视频的最大长度是16秒,行业的普遍水平是2-4秒之间。但此次Sora的最大支持长度是60秒,直接跨越式升级15倍。
  2. 镜头切换与画面流畅度。此前AI生成视频产品都是单镜头单生成,在效果层面更像是让一张图片动起来。但由Sora所生成的视频,能够在保持主体一致性的前提下实现多角度镜头无缝切换,整个画面干净流畅,从而实现真正的视频大片效果。
  3. 使用的基础模型架构。此前的AI生成视频大部分都是基于“大模型+大数据”架构,因此难以突破AI幻觉问题,Runway也在去年12月正式提出要打造通用世界模型。但此次Sora则已经具有了世界模型的雏形,其生成的视频是基于对真实物理世界的理解,因此内容更加符合逻辑也更加令人信服。

那么,关于这些突破性的进展,很多人可能也好奇,落实到产品效果层面,Sora真的有如此大的优势吗?

虽然目前Sora只仅对一小部分用户开放还未开启公测,但因为它们昨天所发布的视频都配有详细的Prompt文本,所以很多人也用这些同样的文本对其他工具进行了测试。下面,让我们来看看一些效果对比的例子。