OpenAI发布全能人机交互模型GPT-4o，支持语音、视觉和文本推理

OpenAI发布GPT-4o：全能模型实时处理音频、视觉和文本

OpenAI公司推出了最新的旗舰模型GPT-4o，这一全能模型能够实时对音频、视觉和文本进行推理。据介绍，该模型具备情感表达能力，可以与用户进行带情感的对话，包括兴奋、友好、甚至讽刺，其响应速度最快可达232毫秒，与人类对话相媲美。

GPT-4o的“o”代表“omni”，即“全能”的意思，这一命名源自拉丁语“omnis”，在英语中常用作词根，表示“全部”或“所有”的概念。

在发布会上，OpenAI公司首席技术官米拉·穆拉蒂介绍称，GPT-4o是人机交互的一大进步，它可以同时接受文本、音频和图像作为输入，并生成对应的文本、音频和图像输出。与之前的模型相比，GPT-4o在理解图像和音频方面表现尤为出色。

在之前的版本中，用户使用语音模式与ChatGPT对话时，延迟较高，而GPT-4o可以在232毫秒内做出对音频输入的反应，与人类对话的反应时间相近。在演示中，机器人可以从声音中理解情绪，并相应地改变语调，与用户进行自然而准确的对话。

此外，在另一个演示中，ChatGPT还展示了其处理文本和图像的能力，可以帮助用户解题，并根据需要给出提示，而不是直接给出答案。

值得一提的是，手机版的GPT-4o还具备视觉识别功能，能够识别用户所处的环境和当前的活动，并作出相应的反应。据商业内幕报道，该模型还能够带着情感进行对话，包括兴奋、友好和讽刺等。

OpenAI首席执行官山姆·奥特曼表示，新的语音和视频模式是迄今为止最好的电脑界面，达到了人类水平的反应时间和表达能力。他认为，随着个性化、信息访问和行动代理等功能的增加，人机交互将迎来一个令人兴奋的未来。

随着能够感知情感的人工智能的出现，引发了人们对于AI伴侣的讨论。梁正，清华大学人工智能国际治理研究院副院长，表示如果AI伴侣模糊了虚拟与真实的界限，使用户对其产生深度依赖，甚至把AI伴侣当作真实存在的人，可能会对使用者造成一定的伤害。