“OpenAI推出GPT-4o:具备人类水平对话能力,实时解决初中数学题”

“OpenAI推出GPT-4o:具备人类水平对话能力,实时解决初中数学题”在全球备受关注的Google I/O开发者大会前夕,OpenAI急先锋地发布了其新一代AI模型GPT-4o,同时还有一个对PC桌面版ChatGPT的计划。

20240515103304541


GPT-4o,被OpenAI视为新旗舰模型,能够对音频、视觉和文本进行实时推理。从今天起,它可以在API和ChatGPT中处理文本和图像,而在未来的几周内,还将支持语音和视频。在名字中的“o”代表Omni,意指此模型接受任意组合的文本、音频和图像输入,并生成任意组合的文本、音频和图像输出。
GPT-4o能在仅232毫秒的时间内响应音频输入,平均时间为320毫秒。与GPT-4 Turbo相比,GPT-4o在英语文本及编码上的性能一脉相承,但在非英语文本上的性能及API的响应速度有了显著提升,成本下降了50%。特别注意的是,GPT-4o在视觉和音频理解方面显得出类拔萃。
在GPT-4o发布之前,虽然用户可以使用语音模式与ChatGPT对话,但是平均延迟时间却达到2.8秒(GPT-3.5)和5.4秒 (GPT-4)。原因在于,语音模式需要经过三个独立模型的串联处理:一个模型将音频转录为文本,一个处理文本并输出文本,另一个将文本转化回音频。但是,这一过程使得主要的智能来源GPT-4无法直接获取并处理音调、多个说话者或背景噪音等信息,也无法输出例如笑声、唱歌或表达情绪等声音。

20240515103312582


OpenAI解释道,GPT-4o让用户能够用同一个神经网络模型进行文本、视觉和音频的处理。
OpenAI表示,目前GPT-4o处于阶段性的性能标准,但在文本、推理和编码智能方面,它的性能已经与GPT-4 Turbo相匹敌,并在多语言、音频和视觉功能上达到了新的水平。
最后,OpenAI宣布GPT-4o的文本和图像功能已经在ChatGPT中开放,而语音模式将在未来的几周内推出。现在,GPT-4o可以进行实时语音对话,进行多语言现场翻译,模拟人类聊天,还可以根据用户需求识别和模拟不同的情绪、语调进行输出,甚至可以解答数学题目,为家长解决了一大疑难杂症。

20240515103318271