谷歌向GPT-4o发起挑战!60秒视频生成模型华丽登场,上下文窗口升级至200万

谷歌向GPT-4o发起挑战!60秒视频生成模型华丽登场,上下文窗口升级至200万

OpenAI再次惊艳全球,谷歌显然也不甘示弱。

GPT-4o引发“AGI已至”的呼声中,Google DeepMind首席执行官哈萨比斯亲自带着谷歌的版本《Her》亮相:

这个名为Project Astra的AI助手不仅能够和人类流畅地交流,而且通过摄像头几乎零延迟地阅读代码。

谷歌凭借自身的硬件优势,带来了AR和大型模型的梦幻结合。

同时处理着狗狗和大型模型,已成为现实。

这一波操作下来,战果如何尚未可知,网友们反正是兴奋了起来:

尽管勇敢挑战GPT-4o,在I/O大会上谷歌只是展示了冰山一角。

在为期两小时的主题演讲中,AI被提及了121次,CEO劈柴哥还觉得这还不够。

因此,为了与能生成一分钟长视频的视频生成模型Sora竞争,Veo横空出世:

Gemini 1.5 Pro不仅对所有人开放,而且上下文窗口从100万token一下子扩展到200万,一次性能够阅读1500页的PDF。

就连Android也紧密结合谷歌大型模型Gemini,转变为以人工智能为核心的操作系统。

总之,信息量多到爆炸

,相比之下,OpenAI不到半个小时的发布真的很随性了

谷歌版《Her》亮相

引发最广泛讨论的当属谷歌版《Her》——Project Astra。

Project Astra是基于Gemini系列模型打造的,谷歌表示,他们的研究人员希望这样的智能助手能够真正在人们的日常生活中提供帮助。

有趣的是,OpenAI总裁哥Brockman昨天在现场外提供了关于GPT-4o多模态能力的更详细视频,而谷歌方面,哈萨比斯也第一时间在X上更新了与这样一个智能助手的互动。

看起来,Ta不仅能够完成像帮忙找眼镜这样的基础任务。

在Google DeepMind的工作人员与Project Astra一同观看I/O大会直播的情景中:

许多网友认为,这是谷歌对OpenAI的GPT-4o做出的积极回应。

然而,网友们也纷纷关注到一些问题,比如,Project Astra似乎仍存在比GPT-4o更长的延迟,而谷歌的演示中也没有展示是否可以打断智能助手说话。

值得一提的是,Project Astra背后是Gemini系列模型的进一步升级和迭代。

举例来说,Gemini 1.5 Pro的上下文窗口已经达到惊人的200万token。

谷歌还推出了最新的Gemini 1.5 Flash轻量级模型,并开源了27B的Gemma 2和视觉语言模型PailGemma。

或许你已经在心中比较了Project Astra和GPT-4o的优劣。

然而,谷歌在OpenAI突然发起的攻击中并非只有这一次。

还记得在春节期间风头被Sora抢走的情景吗?

谷歌的回应虽然稍显迟缓,但却强劲——

谷歌最强视频生成模型Veo隆重登场。

Veo能够生成分辨率为1080p的高质量视频,而且生成视频的长度也与Sora不相上下:最长可超过1分钟。

谷歌强调,Veo生成的画面一致性出色,能够轻松应对各种风格。无论是“延时拍摄”还是“航拍”等术语,Veo都能准确理解。

目前,谷歌已经与电影制作人展开合作,在电影项目中探索Veo的应用。

与此同时,谷歌的图片生成模型Imagen也迎来更新,Imagen 3发布。

官方提到,与此前的模型相比,Imagen 3的视觉伪影更少,生成的图像细节拉满,并且在生成文字方面效果也很好。

一个庄严的图书馆入口的照片出现在屏幕上,上面刻有“中央图书馆”字样。

此外,谷歌还推出了音乐生成模型Lyria。

Gemini系列产品全面登场

除了展示出与OpenAI竞争的“肌肉”之外,谷歌在I/O大会上对大型模型应用的重视也显而易见。

英伟达科学家Jim Fan在他的I/O观后感中表示:

谷歌做对了一件事:他们终于开始努力将人工智能整合到搜索框中。