"OpenAI推出GPT-4o：具备人类水平对话能力，实时解决初中数学题" - GPT中文站: 免费ChatGPT中文版

“OpenAI推出GPT-4o：具备人类水平对话能力，实时解决初中数学题”在全球备受关注的Google I/O开发者大会前夕，OpenAI急先锋地发布了其新一代AI模型GPT-4o，同时还有一个对PC桌面版ChatGPT的计划。

GPT-4o，被OpenAI视为新旗舰模型，能够对音频、视觉和文本进行实时推理。从今天起，它可以在API和ChatGPT中处理文本和图像，而在未来的几周内，还将支持语音和视频。在名字中的“o”代表Omni，意指此模型接受任意组合的文本、音频和图像输入，并生成任意组合的文本、音频和图像输出。
GPT-4o能在仅232毫秒的时间内响应音频输入，平均时间为320毫秒。与GPT-4 Turbo相比，GPT-4o在英语文本及编码上的性能一脉相承，但在非英语文本上的性能及API的响应速度有了显著提升，成本下降了50%。特别注意的是，GPT-4o在视觉和音频理解方面显得出类拔萃。
在GPT-4o发布之前，虽然用户可以使用语音模式与ChatGPT对话，但是平均延迟时间却达到2.8秒（GPT-3.5）和5.4秒 (GPT-4)。原因在于，语音模式需要经过三个独立模型的串联处理：一个模型将音频转录为文本，一个处理文本并输出文本，另一个将文本转化回音频。但是，这一过程使得主要的智能来源GPT-4无法直接获取并处理音调、多个说话者或背景噪音等信息，也无法输出例如笑声、唱歌或表达情绪等声音。

OpenAI解释道，GPT-4o让用户能够用同一个神经网络模型进行文本、视觉和音频的处理。
OpenAI表示，目前GPT-4o处于阶段性的性能标准，但在文本、推理和编码智能方面，它的性能已经与GPT-4 Turbo相匹敌，并在多语言、音频和视觉功能上达到了新的水平。
最后，OpenAI宣布GPT-4o的文本和图像功能已经在ChatGPT中开放，而语音模式将在未来的几周内推出。现在，GPT-4o可以进行实时语音对话，进行多语言现场翻译，模拟人类聊天，还可以根据用户需求识别和模拟不同的情绪、语调进行输出，甚至可以解答数学题目，为家长解决了一大疑难杂症。