OpenAI推出免费新品GPT-4o - GPT中文站: 免费ChatGPT中文版

GPT-4o：全能AI模型的诞生与应用

引言

OpenAI推出免费新品GPT-4o：实现音频、视觉和文本实时推理，自然对话秒杀Siri。OpenAI推出了全新的旗舰模型GPT-4o。与之前的模型相比，GPT-4o在视觉和音频理解方面表现尤为出色。本文将详细介绍GPT-4o的功能、性能以及其潜在影响。

GPT-4o的特点与创新

GPT-4o中的“o”代表“omni”，意为全能。这一模型可以在文本、视觉和音频中进行实时推理，能够接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像作为输出。GPT-4o能够在最短232毫秒内响应音频输入，平均响应时间为320毫秒，与人类对话的响应时间相似。

实时推理能力

在GPT-4o之前，用户使用Voice Mode与ChatGPT通话时，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。这种延迟是因为Voice Mode需要三个独立的模型协同工作：一个模型将音频转录为文本，另一个模型生成响应文本，最后一个模型将响应文本转换回音频。然而，这个过程会丢失大量信息，如音调、多说话者、背景噪音等情感表达。

利用GPT-4o，OpenAI训练了一个端到端的新模型，能够同时处理所有输入和输出。这是OpenAI第一个将文本、视觉和音频三种模式结合的模型，显著提升了交互的自然性和实时性。

新的语音模式

GPT-4o的新语音模式是一种语音聊天助手，能够与用户进行自然的对话，并带有情感表达。根据《商业内幕》报道，该语音模式能够表现出兴奋、友好甚至讽刺等情感，而无需像使用苹果手机的Siri那样使用唤醒词“嘿Siri!”或精确命令。

OpenAI首席执行官山姆·奥特曼表示，新的语音和视频模式是他用过的最好的电脑界面，感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个重大突破。他认为，随着个性化、信息访问和代表用户行动等能力的增加，未来计算机的使用将变得更加令人兴奋和多样化。

性能与安全性

在传统基准测试中，GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能，并在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的表现与GPT-4 Turbo相当，但在非英文文本上的表现显著提升。

为了确保跨模式的安全性，OpenAI在设计中内置了多种安全机制，并创建了新的安全系统，为语音输出提供保护。OpenAI还与来自社会心理学、偏见和公平、错误信息等领域的70多名专家合作，以识别和减轻新模式可能带来的风险。

由于音频模式存在各种新的风险，当前公开的功能仅包括文本和图像输入以及文本输出。未来的音频输出将仅限于选定的预设声音，并遵守现有的安全政策。

展望与应用

目前，GPT-4o的文本和图像功能已在ChatGPT中免费推出，Plus用户可以享受5倍的调用额度。未来几周内，OpenAI将在ChatGPT Plus中推出带有GPT-4o的新版本Voice Mode。随着技术基础设施的完善和安全性措施的到位，更多模式的应用指日可待。

GPT-4o的推出不仅代表了AI技术的新高度，也为用户带来了更自然、更高效的互动体验。它将有望在多个领域中发挥重要作用，从日常对话到专业应用，都将带来深远影响。