GPT-4o:实现你所期望的一切

距离GPT-4的发布已经过去了一年,OpenAI终于在当地时间5月13日上午10点揭开了春季发布会的神秘面纱。这次发布并非之前盛传的搜索引擎或GPT-5,而是GPT-4的迭代版本——GPT-4o。未来几周内,用户将逐步自动升级到这一新版本。

GPT-4o作为新一代旗舰模型,显著降低了AI工具的使用门槛。它不仅比前代速度快两倍,实现无延迟实时对话,而且用户无需注册,所有功能均免费开放。此外,ChatGPT现在推出了桌面版本,提供轻量化的使用体验,无缝融入用户的工作流程,告别了繁琐的网页操作。

OpenAI的首席技术官米拉·穆拉蒂(Mira Murati)在发布会上强调,这是OpenAI首次在易用性上进行改进。她指出,OpenAI的目标是进一步减少人们使用AI的障碍,让AI工具普及到每个人的工作、学习和创造中。

为了实现这一目标,OpenAI采取了三项措施:发布更强大的模型GPT-4o,更新用户界面以提升使用体验,并免费向所有用户开放。穆拉蒂还提到,付费用户将享有五倍的使用容量限制。

OpenAI宣布,GPT-4o是一个“原生多模态”模型,其命名灵感来自“omni”,意指包罗万象。与之前的GPT-4相比,GPT-4o在处理图文或语音模式时更加灵活,能够接受文字、音频和图像的任意组合输入,并以无缝衔接的方式输出图文音频等多种形式。

GPT-4o的回答速度也得到了显著提升。OpenAI解释说,GPT-4要实现与人类的对话,需要经过语音转文字、生成回复文本、再转成语音的三个步骤。根据用户选择的模型不同,这一过程的平均延迟高达2.8秒(GPT-3.5)和5.4秒(GPT-4)。而在语音转文字再转语音的过程中,许多信息会丢失,GPT无法捕捉说话人的音调或背景音,多人同时说话时更是如此。

为了解决这些问题,OpenAI训练了一个新的端到端模型,能够处理文本、视觉和音频的所有输入和输出。现在的GPT-4o在最短232毫秒内即可响应对话,平均响应时间为320毫秒,几乎与人类的反应速度相当。

此外,GPT-4o还带来了更友好的用户界面。新的桌面版GPT可以无缝融入任何工作流程,用户可以随时通过图像、文字和语音与GPT-4o进行交流,提升了工作体验的便捷性和愉悦感。

在发布会上,萨姆·奥尔特曼在社交媒体上进一步说明,GPT-4o的升级不仅限于GPT模型本身,开发者也可以通过API同步使用GPT-4o,其价格仅为GPT-4 Turbo的一半,而速度则是其两倍。此外,GPT-4o在50多种非英语语言的能力上也得到了显著提升。

发布会的压轴环节是实机演示,OpenAI的研究员Marc Chen和Barret Zoph展示了新模型的强大功能。在一段对话中,Chen向GPT表达了自己的紧张情绪,并开始急促呼吸。GPT不仅识别到了他的呼吸声,还幽默地回应说:“别紧张,你的呼吸声像吸尘器一样,深呼吸,慢慢吐气。”随后,GPT开始指导Chen如何通过深呼吸和慢吐来平复心情。这一演示生动展示了GPT-4o在多模态交互和情感支持方面的能力。

这个演示环节巧妙地展示了GPT-4o的两个关键新能力:环境音识别和即时反馈。GPT-4o不再需要按轮次进行对话,而是能够同时处理听到的声音并提供实时指导,实现输入和输出的同步进行。

在第二个演示中,Chen要求GPT给Zoph讲一个睡前故事,并在过程中多次打断GPT,要求故事更加刺激。最终,GPT以歌唱的形式完成了故事,仿佛一位迪士尼公主。这一环节展示了GPT-4o在用户互动中的灵活性和适应性。

在后续的演示中,GPT-4o展示了更多功能,如教授Zoph数学题(要求GPT启发而非直接给出答案),解释代码,读取图表,甚至进行面相分析(“你看起来很开心,又有点激动。”),以及在Chen和穆拉蒂之间担任同声传译。这些演示生动地展示了GPT-4o在多模态交互、即时反馈和适应性方面的显著进步,使其更接近于真实生活中的自然交流。

我个人的感受是,这个新版本的GPT看起来更像一个具有人类特征的对话伙伴,会开更多的玩笑并使用更多语气词。然而,这似乎与OpenAI声称提高GPT实用性的目标有些矛盾。在使用过程中,我可能会希望它少一些废话,否则会感受到情感上的压力。

然而,并不是所有人都对这次发布会感到满意。有些网友认为OpenAI在这一过程中推进缓慢,一年多过去了仍然停留在GPT-4阶段。另外,对于OpenAI免费开放GPT的决定,也有人提出了质疑:“当服务免费时,用户就是产品。”他们担心OpenAI通过免费提供的ChatGPT获得大量用户数据,进而影响个人隐私。

这些反馈反映了人们对于AI发展和数据隐私问题的关注,同时也突显了在技术进步与伦理平衡之间需要找到的良好平衡点。

对一般用户来说,不用注册即可使用已经是个天大的惊喜了,再也不用找国外手机号了,懂的都懂。