GPT-4o首次体验：最逼真的人工智能终于现世 - GPT中文站: 免费ChatGPT中文版

OpenAI 发布了最新的模型——GPT-4o。

这款新模型不同于传统的搜索引擎或者 GPT-5，而是 GPT-4 系列的全新多模态版本。据 OpenAI 的首席技术官米拉·穆拉蒂（Muri Murati）介绍，GPT-4o中的「o」代表omni（全能的），它能够处理文本、音频和图像的各种组合输入与输出。

GPT-4o模型不仅响应更快、处理更快、效率更高，还在某种程度上彻底改变了人机交互的方式。

然而，最令人瞩目的不仅是 GPT-4o 本身的性能，而是借助它为基础的 ChatGPT 在交互体验上的巨大进步。这一新版本使得人机语音对话更接近于真实的人类交流，同时视觉识别能力的提升也让 AI 能够更好地理解和应对现实世界的情境。

总之，这标志着一种更为自然、更为智能的人机交互体验，有些人甚至不禁联想到了电影《她（Her）》中那个富有感情的 AI 虚拟助手的场景。

对很多人来说，更重要的可能是免费用户也能使用 GPT-4o（不包括新的语音模式），官方说将在接下来几周正式推出。当然，ChatGPT Plus 付费用户显然还是有「特权」的，从今天开始就可以提前试用 GPT-4o 模型。

不过 OpenAI 演示中的桌面应用还未上线，ChatGPT 移动端 APP（包括 Android 与 iOS）也还没更新到发布会演示的版本。总之，ChatGPT Plus 用户暂时还体验不到的 ChatGPT（GPT-4o）新的语音模式。

所以在某种程度上，目前 ChatGPT Plus 用户享受到的 GPT-4o 基本是未来几周 ChatGPT 免费版用户的体验。

但 GPT-4o 的实际表现如何？值不值得免费版用户重新开始使用 ChatGPT？说到底还是需要实际的上手体验。同时，通过目前基于文本和图像的对话，我们或许也能窥见新 ChatGPT（GPT-4o）的能力。

OpenAI 最新发布了GPT-4o，这款模型与以往不同，是一款原生的多模态模型。无论是文字、音频还是视频等输入和输出，都能在同一个神经网络中进行处理。

这种独特的多模态特性使得GPT-4o能够更加灵活地理解语言，表达情感，并且与用户的交互更加流畅自然，有如享用顶级巧克力般的丝滑体验。

尽管有许多关于GPT-4o性能的宣传视频，但实际上，这些仍然只是“PPT”，并没有真实的实地测试。因此，谁也不能轻易下定论，它是否真的如此强大。尤其是在最近，有报道称Sora生成的《气球人》短片中加入了大量人工后期处理的情况，这更加引发了人们对GPT-4o真实性能的质疑。

在实际使用方面，OpenAI依旧谨慎行事，GPT-4o虽然宣称可以免费使用，但实际上仍需先来后到，而且功能也将逐步开放。目前，只有Plus账户用户能够使用GPT-4o，而且最为重要的实时视频和语音功能尚未完全开放。

综上所述，尽管GPT-4o展现出了令人期待的潜力，但其真正的实际表现还有待于进一步的验证和开发。

但有总归比没有强，世超手边恰好也有个 Plus 账号，而且官方也说了， GPT-4o 生成的速度还会比 GPT-4 快上两倍。

所以咱这波，就先提前给差友们试试 GPT-4o 的实力。

先让它给咱讲一个童话故事，顺便再画出整个故事的分镜图。GPT-4o 没犹豫几秒，库吃库吃就开始写了。

写完中间也没带停顿，直接开始画分镜了。

而同样的问题再抛给 GPT-4 ，它一开始就得磨蹭半天在问题上。。。

讲清楚要求后才肯继续写，而且写完之后也不继续画分镜图，还得等世超我再亲自强调一波。

尽管相较于GPT-4o，GPT-4在某些方面显得较为保守，但从生成内容的多样性来看，GPT-4似乎能提供更为丰富的想象力。为了展示这一点，我设想了一个实验，即利用公司老员工火锅照片，尝试让GPT-4和GPT-4o各自创造一张像素风格的艺术作品。

尽管GPT-4o的步伐可能稍显迟疑，但我们期待从它的输出中看到不同寻常的创意。现在，让我们一同见证这两款AI的不同表现，看看它们如何将现实转化为独特的像素艺术。

在生成图像的速度方面，GPT-4o表现出了明显的优势，然而，当涉及到细节的精确度时，两者则显得不相上下。

以公司老员工火锅的照片为例，GPT-4成功识别出了火锅嘴中叼着的袋子，而GPT-4o则额外发现了一只拖鞋。如果非要进行比较，那么GPT-4生成的金毛形象似乎更接近真实的火锅。

（图中左边为GPT-4生成的图像，右边为GPT-4o生成的图像）

通过这一实验，我们可以看到，尽管GPT-4o在速度上占优，但在图像细节的还原上，两者各有千秋。这表明，在不同的应用场景中，两款模型都有其独特的优势和局限性。

经过一番实际操作，GPT-4o给我留下的最深刻印象就是其惊人的速度，非常之快。

然而，除了速度之外，我并未感受到它有太多其他显著的特点。与其说GPT-4o是GPT-4在智能上的飞跃，不如说它是将GPT-4的交互能力进行了专门的强化。

正如奥特曼在其博客中所言，“达到人类响应时间和表达水平”是AI领域的一大进步。大模型的最终目标，应当是让人与AI的交流回归到最简单、最直接的形式。

展望未来，我们或许会看到，与电脑或手机的交流将主要通过语音进行，成为最主要的交互方式。尽管GPT-4o最引人注目的视频交流功能尚未开放，我们还需等待其实际体验后再做评价。

与此同时，网友们也在积极探索GPT-4o的潜力，并意外地发现了一些有趣的信息。例如，GPT-4o的中文语料库中似乎包含了一些钓鱼网站的违禁词汇，如“日本x片免费视频”等。这类趣闻未来可能还会层出不穷。但不可否认，GPT-4o的问世确实为AI领域开辟了新的篇章。

考虑到ChatGPT发布后，其他竞争对手的迅速跟进，我猜测在GPT-4o之后，类似命名的“Claude-o”、“Gemini-o”等模型可能会很快出现。

恰巧，明天就是谷歌的I/O大会，让我们一起期待一下吧。