OpenAI抢在Google I/O大会之前,推出了一个名为GPT-4o的新颖模型,它并非GPT-5,而是GPT-4系列的一个重要扩展。GPT-4o被赋予了”omni”(全能)的称号,意味着它具备了前所未有的多模态能力,能够处理文本、音频和图像的混合输入与输出,实现了更为全面的信息交流。
OpenAI的首席技术官米拉·穆拉蒂强调了GPT-4o在响应速度、处理效率上的提升,这显著改善了人机交互体验。发布会现场,最引人注目的并非模型本身,而是GPT-4o支持下的ChatGPT交互体验升级。它的人机语音对话更加流畅,接近真实人类对话,同时视觉识别能力的增强让AI能在理解和回应时更好地融入现实情境。
总之,GPT-4o带来的是一种更为自然的人机交互方式,让人不禁联想到电影《她》中智能化的虚拟助手。OpenAI首席执行官山姆·奥尔特曼甚至亲自参与了文章的重写,显示了这一新模型对提升AI技术应用的重视。这次发布无疑预示着人工智能
但对于许多人来说,更加重要的消息可能是GPT-4o将对免费用户开放(尽管不包括新的语音模式),这一官方承诺将在接下来的几周内正式实现。当然,ChatGPT Plus付费用户显然会享有一定的特权,他们从今天开始就能提前体验GPT-4o模型。
然而,尽管在OpenAI的演示中展示了桌面应用,但它尚未正式上线,而ChatGPT移动端应用(包括Android和iOS版本)也还未更新到发布会演示的那个版本。因此,当前ChatGPT Plus用户还无法体验到GPT-4o的新语音模式。
因此,在某种程度上,当前ChatGPT Plus用户所体验到的GPT-4o基本上可以视作未来几周内ChatGPT免费版用户将享有的体验。
然而,关于GPT-4o模型的实际表现如何,以及是否值得免费版用户重新开始使用ChatGPT,这需要实际的上手体验来评判。通过目前基于文本和图像的对话,我们或许可以初步窥见新版ChatGPT(GPT-4o)的潜力。
GPT-4o模型的所有升级主要集中在原生的多模态能力全面提升上,它不仅能处理文本、音频和图像任意组合的输入输出,而且在各自领域的理解能力也有显著提升,特别是在图像理解方面。
举例来说,当分析一张图片时,即使其中有部分被遮挡的书本和一部正在运行游戏的手机,GPT-4o能准确识别书本上的文字,根据其知识库或在线资源正确地辨识出完整的书名。更令人惊叹的是,它还能直接识别手机屏幕上运行的游戏——例如《原神》。
这些功能的提升表明了GPT-4o在图像理解和多模态处理方面的巨大进步,使得它成为一款值得期待和尝试的新模型。
坦白而言,对于熟悉《原神》这款游戏的玩家来说,他们或许能够一眼就辨认出游戏本身。然而,仅凭这张图片,许多未曾接触过游戏或不熟悉游戏角色的用户可能难以识别出《原神》。
当被问及如何辨认出是《原神》时,GPT-4o给出的回答是基于画面内容、游戏界面以及视觉风格等逻辑推理。这表明GPT-4o在图像识别和内容理解方面展现出了不俗的能力,能够根据视觉元素进行合理的推断。
然而,如果用同样的图片和问题询问通义千问(阿里旗下的智能问答系统)或者GPT-4,它们的回答可能难以令人满意。
举例来说,当看了马斯克最新发布的梗图后,GPT-4o能够相对准确地理解其中的笑点和讽刺之处。在移动端的ChatGPT应用程序中,即便面对一张局部模糊的照片,GPT-4o仍能提供相对精确的场景描述,并能大致推测出是住宅区还是办公环境这类地点。这显示出GPT-4o在处理有限信息和空间
然而,GPT-4o也存在一些缺点,有些可能在正式推出时很难有显著改善,比如一直存在的“幻觉”问题,并未感受到明显的改善。不过,其他问题可能会在推出时发生质的改变,比如对话延迟。
从当前版本的体验来看,即使在聊天模式下网络连接正常,启动语音模式时会花费相当长的时间,甚至可能连接失败。即使连接成功,对话延迟仍然很高,经常需要等待几秒才能得到语音回应。
实际上,旧的语音模式先将用户的语音通过OpenAI的Whisper模型转录为文本,然后再由GPT-3.5/GPT-4处理和输出,最后再通过文本转语音模型将文本转换为语音。这一过程解释了之前ChatGPT语音回应缓慢和语音交互体验差的原因。
因此,新的语音模式是人们期待的关键原因。根据OpenAI的说法,GPT-4o是一个端到端训练的新模型,能够跨文本、视觉和音频处理所有输入和输出。新的语音模式甚至能基于手机摄像头实时画面进行对话。
简而言之,过去的ChatGPT在回应语音时需要经过三个不同的模型处理和输出。而在即将推出的新模式中,ChatGPT只需通过一个统一支持文本、语音甚至图像处理的大型模型,这将显著提升效率。
关于能否实现OpenAI演示中超低延迟回应的目标,需要等待未来几周新模式实装后的实际体验。届时,小雷也将第一时间进行测试。
总结
尽管在过去一年里,全球涌现了许多新的大模型,与GPT-4之间的差距正在不断缩小甚至有时超越(例如Claude 3 Opus),但从权威基准测试、PK排行榜以及广泛用户反馈来看,GPT-4仍然是全球顶级的大模型之一。
更重要的是,技术影响着产品体验。GPT-4o再次展示了OpenAI在技术和产品上的强大实力,特别是在语音交互体验方面的持续改进,可能会对AI语聊和语音助手领域的初创公司产生重大影响。
然而,我们也看到了人机语音交互迈向质变的希望。