OpenAI的GPT-4o上场，科幻电影《Her》有了现实版

图片来源：范剑磊图片来源：范剑磊(photo:JieMian)

界面新闻记者 | 伍洋宇界面新闻编辑 | 文姝琪

在OpenAI这场全球瞩目的发布会结束后，Sam Altman的表态是发在Twitter上简短的一个词：“her”。

北京时间5月14日，OpenAI举行春季发布会，在CTO Mira Murati的介绍下，这家公司正式推出最新旗舰模型GPT-4o（o代表Omni，全能）。

GPT-4o是一个多模态大模型，支持文本、音频和图像的任意组合输入，并能生成文本、音频和图像的任意组合输出。其文本、推理和编码智能等方面能力媲美GPT-4 Turbo，同时在多语言、音频和视觉能力方面也有所提升。

相较于GPT-4 Turbo，GPT-4o的API价格便宜了50%，但速度比它快了两倍、速率限制提高了5倍，最高可达每分钟1000万token。至此，GPT-4o的响应速度已经接近于人类之间的正常对话，据悉音频输入平均反应时间为320毫秒。

几乎无延迟的反应速度，支撑起了这场发布会的核心重点——OpenAI研发负责人Mark Chen演示了基于GPT-4o的实时对话能力。

他挑选的第一个场景是告知ChatGPT自己正在做演示，但非常紧张应该怎么办，ChatGPT的提示是“深呼吸一下吧，记得你是个专家！”随后，Mark Chen用非常急促的几声喘息回应，ChatGPT则用吃惊语气下的“慢点呼吸，你可不是个吸尘器！”来回答他。

不仅是对人类语气和状态的感知，以及代表人类“情商”的幽默表达，ChatGPT还展示出了对话可被随时打断并即时跟进的能力。总之，在与Mark Chen的对话中，它已经近乎于一个真实人类，对话没有尴尬的停顿点，也没有理解障碍的地方。

除了实时对话，Mark Chen也引导ChatGPT表现了在讲故事情境下渲染音色的能力。他要求ChatGPT讲述一个主题为“恋爱中的机器人”的睡前故事，并连续两次要求其用更加“drama”（戏剧化）的方式朗读，用户可以明显感受到有递进感的音色，这背后是明显的情感表达能力。

这也是Sam Altman发送那个简短推文的含义，科幻电影《Her》中那位女性语音智能机器人，已经由OpenAI接近于完成。

情感表现之外，另一位研发负责人Barret负责演示了GPT-4o基于多模态的智力表现。

Barret写下一个“3x+1=4”的简单线性方程，并打开了ChatGPT的摄像头，要求它实时引导自己一步步解开这个方程式。过程中Barret有意给出了错误的反应，但均被ChatGPT以耐心自然的语气予以回应。

随后，Barret还给出了一堆代码，展示了ChatGPT理解代码、描述任务、对应函数名及其功能等能够完全理解代码内在逻辑的能力。此外，ChatGPT面对图表理解任务（任意抽取坐标轴解读等）也能够顺畅完成。

作为彩蛋，ChatGPT还解读了Barret自拍中的表情，以及简短演绎了实时语音翻译（意大利语和英语）的角色。只是解读自拍时，ChatGPT似乎出现一点“故障”，反馈说“好像在看一个木质表面的东西”，但这被Barret用“那是我之前发给你的的东西”一句话迅速翻篇。

OpenAI将自己再度大力推向C端市场的一个杀手锏是，此次GPT-4o的能力免费开放给所有ChatGPT用户，这将让他们直接体验GPT-4级别的智能，只不过ChatGPT Plus用户的容量限制是免费用户的5倍。此外，OpenAI还发布了ChatGPT的桌面应用程序并全面更新了UI，使其用起来更简单自然。

“我们使命中一个非常重要的部分，就是让我们的高级AI工具可以免费向所有人提供。”Mira Murati表示，“我们认为人们对技术功能有直观感受非常重要。”这些功能都将在接下来几周时间中迭代推出。