OpenAI推出免费新品GPT-4o

GPT-4o:全能AI模型的诞生与应用

引言

OpenAI推出免费新品GPT-4o:实现音频、视觉和文本实时推理,自然对话秒杀Siri。OpenAI推出了全新的旗舰模型GPT-4o。与之前的模型相比,GPT-4o在视觉和音频理解方面表现尤为出色。本文将详细介绍GPT-4o的功能、性能以及其潜在影响。

GPT-4o的特点与创新

GPT-4o中的“o”代表“omni”,意为全能。这一模型可以在文本、视觉和音频中进行实时推理,能够接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像作为输出。GPT-4o能够在最短232毫秒内响应音频输入,平均响应时间为320毫秒,与人类对话的响应时间相似。

实时推理能力

在GPT-4o之前,用户使用Voice Mode与ChatGPT通话时,平均延迟为2.8秒(GPT-3.5)和5.4秒(GPT-4)。这种延迟是因为Voice Mode需要三个独立的模型协同工作:一个模型将音频转录为文本,另一个模型生成响应文本,最后一个模型将响应文本转换回音频。然而,这个过程会丢失大量信息,如音调、多说话者、背景噪音等情感表达。

利用GPT-4o,OpenAI训练了一个端到端的新模型,能够同时处理所有输入和输出。这是OpenAI第一个将文本、视觉和音频三种模式结合的模型,显著提升了交互的自然性和实时性。

新的语音模式

GPT-4o的新语音模式是一种语音聊天助手,能够与用户进行自然的对话,并带有情感表达。根据《商业内幕》报道,该语音模式能够表现出兴奋、友好甚至讽刺等情感,而无需像使用苹果手机的Siri那样使用唤醒词“嘿Siri!”或精确命令。

OpenAI首席执行官山姆·奥特曼表示,新的语音和视频模式是他用过的最好的电脑界面,感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个重大突破。他认为,随着个性化、信息访问和代表用户行动等能力的增加,未来计算机的使用将变得更加令人兴奋和多样化。

性能与安全性

在传统基准测试中,GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能,并在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的表现与GPT-4 Turbo相当,但在非英文文本上的表现显著提升。

为了确保跨模式的安全性,OpenAI在设计中内置了多种安全机制,并创建了新的安全系统,为语音输出提供保护。OpenAI还与来自社会心理学、偏见和公平、错误信息等领域的70多名专家合作,以识别和减轻新模式可能带来的风险。

由于音频模式存在各种新的风险,当前公开的功能仅包括文本和图像输入以及文本输出。未来的音频输出将仅限于选定的预设声音,并遵守现有的安全政策。

展望与应用

目前,GPT-4o的文本和图像功能已在ChatGPT中免费推出,Plus用户可以享受5倍的调用额度。未来几周内,OpenAI将在ChatGPT Plus中推出带有GPT-4o的新版本Voice Mode。随着技术基础设施的完善和安全性措施的到位,更多模式的应用指日可待。

GPT-4o的推出不仅代表了AI技术的新高度,也为用户带来了更自然、更高效的互动体验。它将有望在多个领域中发挥重要作用,从日常对话到专业应用,都将带来深远影响。