一句话生成60秒短片!生成式AI新星Sora厉害在哪?

OpenAI的生成式人工智能已经展示了许多能力,从与人进行无碍对话、编写代码,到通过Google的工程师面试。如今,他们又掌握了一项新技能:拍摄影片。新亮相的AI模型「Sora」让用户只需一句话的描述,便能生成长达1分钟的逼真影片。

在OpenAI的官网上介绍中称:“让我们向您介绍Sora,我们的文字转视频模型。Sora可以在保证画面质量和遵守用户提示词的前提下,生成长达1分钟的影片。”

Sora的独特之处何在?真实与虚幻让人难以分辨

生成影片的人工智能并非新鲜事物,从Google、Meta等科技巨头,到不到一年的新创公司Pika Labs等,都推出过生成影片的AI技术。

然而,Sora最引人注目的地方在于其极其逼真的表现。外媒《Wired》声称,这种真实感在其他影片生成AI模型中并不常见,并且生成的影片长度也超过其他模型。

根据OpenAI在官网上的介绍,Sora能够生成包含多个角色、特定动作类型以及大量细节的复杂场景。AI不仅了解用户在提示词中提到的各种物体,还知道这些物体在现实世界中的存在方式,从而创造出令人惊叹的逼真感受。

精准理解用户需求

此外,Sora对语言有着深入的理解,能够准确呈现提示词所描述的内容,生成引人注目的角色,并在影片中建立多种不同的镜头,精确保留角色和视觉风格。

OpenAI在官网上还展示了大量演示影片,比如一名女子在东京街头行走的短片,提示词为:

“一名穿着时尚的女子走在充满温暖霓虹灯和招牌的东京街头。她身着黑色皮夹克、红色长裙和黑色靴子,拎着一个黑色包包,戴着太阳眼镜,擦着红色口红,走路自信又随性。潮湿的街道反射出七彩灯光,行人来来往往。”

尽管这段1分钟的短片存在一些瑕疵,比如招牌文字、道路布局以及行人过于平滑的移动等,但乍看之下仍然极为逼真。如果将焦点放在时尚女子身上,也许一时半会儿难以察觉这是完全由AI生成的影片。

不仅仅是现代感十足的影片,在提示词:“淘金热时的加州历史镜头。”中,Sora为影片添加了充满年代感的滤镜,尽管建筑布局等方面仍有一些不合理之处,仔细观察便能发现。