OpenAI发布全能人机交互模型GPT-4o,支持语音、视觉和文本推理

OpenAI发布GPT-4o:全能模型实时处理音频、视觉和文本

OpenAI公司推出了最新的旗舰模型GPT-4o,这一全能模型能够实时对音频、视觉和文本进行推理。据介绍,该模型具备情感表达能力,可以与用户进行带情感的对话,包括兴奋、友好、甚至讽刺,其响应速度最快可达232毫秒,与人类对话相媲美。

GPT-4o的“o”代表“omni”,即“全能”的意思,这一命名源自拉丁语“omnis”,在英语中常用作词根,表示“全部”或“所有”的概念。

在发布会上,OpenAI公司首席技术官米拉·穆拉蒂介绍称,GPT-4o是人机交互的一大进步,它可以同时接受文本、音频和图像作为输入,并生成对应的文本、音频和图像输出。与之前的模型相比,GPT-4o在理解图像和音频方面表现尤为出色。

在之前的版本中,用户使用语音模式与ChatGPT对话时,延迟较高,而GPT-4o可以在232毫秒内做出对音频输入的反应,与人类对话的反应时间相近。在演示中,机器人可以从声音中理解情绪,并相应地改变语调,与用户进行自然而准确的对话。

此外,在另一个演示中,ChatGPT还展示了其处理文本和图像的能力,可以帮助用户解题,并根据需要给出提示,而不是直接给出答案。

值得一提的是,手机版的GPT-4o还具备视觉识别功能,能够识别用户所处的环境和当前的活动,并作出相应的反应。据商业内幕报道,该模型还能够带着情感进行对话,包括兴奋、友好和讽刺等。

OpenAI首席执行官山姆·奥特曼表示,新的语音和视频模式是迄今为止最好的电脑界面,达到了人类水平的反应时间和表达能力。他认为,随着个性化、信息访问和行动代理等功能的增加,人机交互将迎来一个令人兴奋的未来。

随着能够感知情感的人工智能的出现,引发了人们对于AI伴侣的讨论。梁正,清华大学人工智能国际治理研究院副院长,表示如果AI伴侣模糊了虚拟与真实的界限,使用户对其产生深度依赖,甚至把AI伴侣当作真实存在的人,可能会对使用者造成一定的伤害。