OpenAI 发布了最新的模型——GPT-4o。
这款新模型不同于传统的搜索引擎或者 GPT-5,而是 GPT-4 系列的全新多模态版本。据 OpenAI 的首席技术官米拉·穆拉蒂(Muri Murati)介绍,GPT-4o中的「o」代表omni(全能的),它能够处理文本、音频和图像的各种组合输入与输出。
GPT-4o模型不仅响应更快、处理更快、效率更高,还在某种程度上彻底改变了人机交互的方式。
然而,最令人瞩目的不仅是 GPT-4o 本身的性能,而是借助它为基础的 ChatGPT 在交互体验上的巨大进步。这一新版本使得人机语音对话更接近于真实的人类交流,同时视觉识别能力的提升也让 AI 能够更好地理解和应对现实世界的情境。
总之,这标志着一种更为自然、更为智能的人机交互体验,有些人甚至不禁联想到了电影《她(Her)》中那个富有感情的 AI 虚拟助手的场景。
对很多人来说,更重要的可能是免费用户也能使用 GPT-4o(不包括新的语音模式),官方说将在接下来几周正式推出。当然,ChatGPT Plus 付费用户显然还是有「特权」的,从今天开始就可以提前试用 GPT-4o 模型。
不过 OpenAI 演示中的桌面应用还未上线,ChatGPT 移动端 APP(包括 Android 与 iOS)也还没更新到发布会演示的版本。总之,ChatGPT Plus 用户暂时还体验不到的 ChatGPT(GPT-4o)新的语音模式。
所以在某种程度上,目前 ChatGPT Plus 用户享受到的 GPT-4o 基本是未来几周 ChatGPT 免费版用户的体验。
但 GPT-4o 的实际表现如何?值不值得免费版用户重新开始使用 ChatGPT?说到底还是需要实际的上手体验。同时,通过目前基于文本和图像的对话,我们或许也能窥见新 ChatGPT(GPT-4o)的能力。
OpenAI 最新发布了GPT-4o,这款模型与以往不同,是一款原生的多模态模型。无论是文字、音频还是视频等输入和输出,都能在同一个神经网络中进行处理。
这种独特的多模态特性使得GPT-4o能够更加灵活地理解语言,表达情感,并且与用户的交互更加流畅自然,有如享用顶级巧克力般的丝滑体验。
尽管有许多关于GPT-4o性能的宣传视频,但实际上,这些仍然只是“PPT”,并没有真实的实地测试。因此,谁也不能轻易下定论,它是否真的如此强大。尤其是在最近,有报道称Sora生成的《气球人》短片中加入了大量人工后期处理的情况,这更加引发了人们对GPT-4o真实性能的质疑。
在实际使用方面,OpenAI依旧谨慎行事,GPT-4o虽然宣称可以免费使用,但实际上仍需先来后到,而且功能也将逐步开放。目前,只有Plus账户用户能够使用GPT-4o,而且最为重要的实时视频和语音功能尚未完全开放。
综上所述,尽管GPT-4o展现出了令人期待的潜力,但其真正的实际表现还有待于进一步的验证和开发。
但有总归比没有强,世超手边恰好也有个 Plus 账号,而且官方也说了, GPT-4o 生成的速度还会比 GPT-4 快上两倍。
所以咱这波,就先提前给差友们试试 GPT-4o 的实力。
先让它给咱讲一个童话故事,顺便再画出整个故事的分镜图。GPT-4o 没犹豫几秒,库吃库吃就开始写了。
写完中间也没带停顿,直接开始画分镜了。
而同样的问题再抛给 GPT-4 ,它一开始就得磨蹭半天在问题上。。。
讲清楚要求后才肯继续写,而且写完之后也不继续画分镜图,还得等世超我再亲自强调一波。
尽管相较于GPT-4o,GPT-4在某些方面显得较为保守,但从生成内容的多样性来看,GPT-4似乎能提供更为丰富的想象力。为了展示这一点,我设想了一个实验,即利用公司老员工火锅照片,尝试让GPT-4和GPT-4o各自创造一张像素风格的艺术作品。
尽管GPT-4o的步伐可能稍显迟疑,但我们期待从它的输出中看到不同寻常的创意。现在,让我们一同见证这两款AI的不同表现,看看它们如何将现实转化为独特的像素艺术。
在生成图像的速度方面,GPT-4o表现出了明显的优势,然而,当涉及到细节的精确度时,两者则显得不相上下。
以公司老员工火锅的照片为例,GPT-4成功识别出了火锅嘴中叼着的袋子,而GPT-4o则额外发现了一只拖鞋。如果非要进行比较,那么GPT-4生成的金毛形象似乎更接近真实的火锅。
(图中左边为GPT-4生成的图像,右边为GPT-4o生成的图像)
通过这一实验,我们可以看到,尽管GPT-4o在速度上占优,但在图像细节的还原上,两者各有千秋。这表明,在不同的应用场景中,两款模型都有其独特的优势和局限性。
经过一番实际操作,GPT-4o给我留下的最深刻印象就是其惊人的速度,非常之快。
然而,除了速度之外,我并未感受到它有太多其他显著的特点。与其说GPT-4o是GPT-4在智能上的飞跃,不如说它是将GPT-4的交互能力进行了专门的强化。
正如奥特曼在其博客中所言,“达到人类响应时间和表达水平”是AI领域的一大进步。大模型的最终目标,应当是让人与AI的交流回归到最简单、最直接的形式。
展望未来,我们或许会看到,与电脑或手机的交流将主要通过语音进行,成为最主要的交互方式。尽管GPT-4o最引人注目的视频交流功能尚未开放,我们还需等待其实际体验后再做评价。
与此同时,网友们也在积极探索GPT-4o的潜力,并意外地发现了一些有趣的信息。例如,GPT-4o的中文语料库中似乎包含了一些钓鱼网站的违禁词汇,如“日本x片免费视频”等。这类趣闻未来可能还会层出不穷。但不可否认,GPT-4o的问世确实为AI领域开辟了新的篇章。
考虑到ChatGPT发布后,其他竞争对手的迅速跟进,我猜测在GPT-4o之后,类似命名的“Claude-o”、“Gemini-o”等模型可能会很快出现。
恰巧,明天就是谷歌的I/O大会,让我们一起期待一下吧。