GPT-4o体验报告：AI终于达到了前所未有的“人性化”水平 - GPT中文站: 免费ChatGPT中文版

OpenAI抢在Google I/O大会之前，推出了一个名为GPT-4o的新颖模型，它并非GPT-5，而是GPT-4系列的一个重要扩展。GPT-4o被赋予了”omni”（全能）的称号，意味着它具备了前所未有的多模态能力，能够处理文本、音频和图像的混合输入与输出，实现了更为全面的信息交流。

OpenAI的首席技术官米拉·穆拉蒂强调了GPT-4o在响应速度、处理效率上的提升，这显著改善了人机交互体验。发布会现场，最引人注目的并非模型本身，而是GPT-4o支持下的ChatGPT交互体验升级。它的人机语音对话更加流畅，接近真实人类对话，同时视觉识别能力的增强让AI能在理解和回应时更好地融入现实情境。

总之，GPT-4o带来的是一种更为自然的人机交互方式，让人不禁联想到电影《她》中智能化的虚拟助手。OpenAI首席执行官山姆·奥尔特曼甚至亲自参与了文章的重写，显示了这一新模型对提升AI技术应用的重视。这次发布无疑预示着人工智能

但对于许多人来说，更加重要的消息可能是GPT-4o将对免费用户开放（尽管不包括新的语音模式），这一官方承诺将在接下来的几周内正式实现。当然，ChatGPT Plus付费用户显然会享有一定的特权，他们从今天开始就能提前体验GPT-4o模型。

然而，尽管在OpenAI的演示中展示了桌面应用，但它尚未正式上线，而ChatGPT移动端应用（包括Android和iOS版本）也还未更新到发布会演示的那个版本。因此，当前ChatGPT Plus用户还无法体验到GPT-4o的新语音模式。

因此，在某种程度上，当前ChatGPT Plus用户所体验到的GPT-4o基本上可以视作未来几周内ChatGPT免费版用户将享有的体验。

然而，关于GPT-4o模型的实际表现如何，以及是否值得免费版用户重新开始使用ChatGPT，这需要实际的上手体验来评判。通过目前基于文本和图像的对话，我们或许可以初步窥见新版ChatGPT（GPT-4o）的潜力。

GPT-4o模型的所有升级主要集中在原生的多模态能力全面提升上，它不仅能处理文本、音频和图像任意组合的输入输出，而且在各自领域的理解能力也有显著提升，特别是在图像理解方面。

举例来说，当分析一张图片时，即使其中有部分被遮挡的书本和一部正在运行游戏的手机，GPT-4o能准确识别书本上的文字，根据其知识库或在线资源正确地辨识出完整的书名。更令人惊叹的是，它还能直接识别手机屏幕上运行的游戏——例如《原神》。

这些功能的提升表明了GPT-4o在图像理解和多模态处理方面的巨大进步，使得它成为一款值得期待和尝试的新模型。

坦白而言，对于熟悉《原神》这款游戏的玩家来说，他们或许能够一眼就辨认出游戏本身。然而，仅凭这张图片，许多未曾接触过游戏或不熟悉游戏角色的用户可能难以识别出《原神》。

当被问及如何辨认出是《原神》时，GPT-4o给出的回答是基于画面内容、游戏界面以及视觉风格等逻辑推理。这表明GPT-4o在图像识别和内容理解方面展现出了不俗的能力，能够根据视觉元素进行合理的推断。

然而，如果用同样的图片和问题询问通义千问（阿里旗下的智能问答系统）或者GPT-4，它们的回答可能难以令人满意。

举例来说，当看了马斯克最新发布的梗图后，GPT-4o能够相对准确地理解其中的笑点和讽刺之处。在移动端的ChatGPT应用程序中，即便面对一张局部模糊的照片，GPT-4o仍能提供相对精确的场景描述，并能大致推测出是住宅区还是办公环境这类地点。这显示出GPT-4o在处理有限信息和空间

然而，GPT-4o也存在一些缺点，有些可能在正式推出时很难有显著改善，比如一直存在的“幻觉”问题，并未感受到明显的改善。不过，其他问题可能会在推出时发生质的改变，比如对话延迟。

从当前版本的体验来看，即使在聊天模式下网络连接正常，启动语音模式时会花费相当长的时间，甚至可能连接失败。即使连接成功，对话延迟仍然很高，经常需要等待几秒才能得到语音回应。

实际上，旧的语音模式先将用户的语音通过OpenAI的Whisper模型转录为文本，然后再由GPT-3.5/GPT-4处理和输出，最后再通过文本转语音模型将文本转换为语音。这一过程解释了之前ChatGPT语音回应缓慢和语音交互体验差的原因。

因此，新的语音模式是人们期待的关键原因。根据OpenAI的说法，GPT-4o是一个端到端训练的新模型，能够跨文本、视觉和音频处理所有输入和输出。新的语音模式甚至能基于手机摄像头实时画面进行对话。

简而言之，过去的ChatGPT在回应语音时需要经过三个不同的模型处理和输出。而在即将推出的新模式中，ChatGPT只需通过一个统一支持文本、语音甚至图像处理的大型模型，这将显著提升效率。

关于能否实现OpenAI演示中超低延迟回应的目标，需要等待未来几周新模式实装后的实际体验。届时，小雷也将第一时间进行测试。

总结

尽管在过去一年里，全球涌现了许多新的大模型，与GPT-4之间的差距正在不断缩小甚至有时超越（例如Claude 3 Opus），但从权威基准测试、PK排行榜以及广泛用户反馈来看，GPT-4仍然是全球顶级的大模型之一。

更重要的是，技术影响着产品体验。GPT-4o再次展示了OpenAI在技术和产品上的强大实力，特别是在语音交互体验方面的持续改进，可能会对AI语聊和语音助手领域的初创公司产生重大影响。

然而，我们也看到了人机语音交互迈向质变的希望。