OpenAI的GPT-4o上场,科幻电影《Her》有了现实版

  • 发表时间:
    , 文章来源:JieMian, 新闻取自各大新闻媒体,新闻内容并不代表本网立场

    图片来源:范剑磊图片来源:范剑磊(photo:JieMian)
    图片来源:范剑磊图片来源:范剑磊(photo:JieMian)

    界面新闻记者 | 伍洋宇界面新闻编辑 | 文姝琪

    在OpenAI这场全球瞩目的发布会结束后,Sam Altman的表态是发在Twitter上简短的一个词:“her”。

    北京时间5月14日,OpenAI举行春季发布会,在CTO Mira Murati的介绍下,这家公司正式推出最新旗舰模型GPT-4o(o代表Omni,全能)。

    GPT-4o是一个多模态大模型,支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出。其文本、推理和编码智能等方面能力媲美GPT-4 Turbo,同时在多语言、音频和视觉能力方面也有所提升。

    相较于GPT-4 Turbo,GPT-4o的API价格便宜了50%,但速度比它快了两倍、速率限制提高了5倍,最高可达每分钟1000万token。至此,GPT-4o的响应速度已经接近于人类之间的正常对话,据悉音频输入平均反应时间为320毫秒。

    几乎无延迟的反应速度,支撑起了这场发布会的核心重点——OpenAI研发负责人Mark Chen演示了基于GPT-4o的实时对话能力。

    他挑选的第一个场景是告知ChatGPT自己正在做演示,但非常紧张应该怎么办,ChatGPT的提示是“深呼吸一下吧,记得你是个专家!”随后,Mark Chen用非常急促的几声喘息回应,ChatGPT则用吃惊语气下的“慢点呼吸,你可不是个吸尘器!”来回答他。

    不仅是对人类语气和状态的感知,以及代表人类“情商”的幽默表达,ChatGPT还展示出了对话可被随时打断并即时跟进的能力。总之,在与Mark Chen的对话中,它已经近乎于一个真实人类,对话没有尴尬的停顿点,也没有理解障碍的地方。

    除了实时对话,Mark Chen也引导ChatGPT表现了在讲故事情境下渲染音色的能力。他要求ChatGPT讲述一个主题为“恋爱中的机器人”的睡前故事,并连续两次要求其用更加“drama”(戏剧化)的方式朗读,用户可以明显感受到有递进感的音色,这背后是明显的情感表达能力。

    这也是Sam Altman发送那个简短推文的含义,科幻电影《Her》中那位女性语音智能机器人,已经由OpenAI接近于完成。

    情感表现之外,另一位研发负责人Barret负责演示了GPT-4o基于多模态的智力表现。

    Barret写下一个“3x+1=4”的简单线性方程,并打开了ChatGPT的摄像头,要求它实时引导自己一步步解开这个方程式。过程中Barret有意给出了错误的反应,但均被ChatGPT以耐心自然的语气予以回应。

    随后,Barret还给出了一堆代码,展示了ChatGPT理解代码、描述任务、对应函数名及其功能等能够完全理解代码内在逻辑的能力。此外,ChatGPT面对图表理解任务(任意抽取坐标轴解读等)也能够顺畅完成。

    作为彩蛋,ChatGPT还解读了Barret自拍中的表情,以及简短演绎了实时语音翻译(意大利语和英语)的角色。只是解读自拍时,ChatGPT似乎出现一点“故障”,反馈说“好像在看一个木质表面的东西”,但这被Barret用“那是我之前发给你的的东西”一句话迅速翻篇。

    OpenAI将自己再度大力推向C端市场的一个杀手锏是,此次GPT-4o的能力免费开放给所有ChatGPT用户,这将让他们直接体验GPT-4级别的智能,只不过ChatGPT Plus用户的容量限制是免费用户的5倍。此外,OpenAI还发布了ChatGPT的桌面应用程序并全面更新了UI,使其用起来更简单自然。

    “我们使命中一个非常重要的部分,就是让我们的高级AI工具可以免费向所有人提供。”Mira Murati表示,“我们认为人们对技术功能有直观感受非常重要。”这些功能都将在接下来几周时间中迭代推出。

    界面新闻记者 | 伍洋宇界面新闻编辑 | 文姝琪

    在OpenAI这场全球瞩目的发布会结束后,Sam Altman的表态是发在Twitter上简短的一个词:“her”。

    北京时间5月14日,OpenAI举行春季发布会,在CTO Mira Murati的介绍下,这家公司正式推出最新旗舰模型GPT-4o(o代表Omni,全能)。

    GPT-4o是一个多模态大模型,支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出。其文本、推理和编码智能等方面能力媲美GPT-4 Turbo,同时在多语言、音频和视觉能力方面也有所提升。

    相较于GPT-4 Turbo,GPT-4o的API价格便宜了50%,但速度比它快了两倍、速率限制提高了5倍,最高可达每分钟1000万token。至此,GPT-4o的响应速度已经接近于人类之间的正常对话,据悉音频输入平均反应时间为320毫秒。

    几乎无延迟的反应速度,支撑起了这场发布会的核心重点——OpenAI研发负责人Mark Chen演示了基于GPT-4o的实时对话能力。

    他挑选的第一个场景是告知ChatGPT自己正在做演示,但非常紧张应该怎么办,ChatGPT的提示是“深呼吸一下吧,记得你是个专家!”随后,Mark Chen用非常急促的几声喘息回应,ChatGPT则用吃惊语气下的“慢点呼吸,你可不是个吸尘器!”来回答他。

    不仅是对人类语气和状态的感知,以及代表人类“情商”的幽默表达,ChatGPT还展示出了对话可被随时打断并即时跟进的能力。总之,在与Mark Chen的对话中,它已经近乎于一个真实人类,对话没有尴尬的停顿点,也没有理解障碍的地方。

    除了实时对话,Mark Chen也引导ChatGPT表现了在讲故事情境下渲染音色的能力。他要求ChatGPT讲述一个主题为“恋爱中的机器人”的睡前故事,并连续两次要求其用更加“drama”(戏剧化)的方式朗读,用户可以明显感受到有递进感的音色,这背后是明显的情感表达能力。

    这也是Sam Altman发送那个简短推文的含义,科幻电影《Her》中那位女性语音智能机器人,已经由OpenAI接近于完成。

    情感表现之外,另一位研发负责人Barret负责演示了GPT-4o基于多模态的智力表现。

    Barret写下一个“3x+1=4”的简单线性方程,并打开了ChatGPT的摄像头,要求它实时引导自己一步步解开这个方程式。过程中Barret有意给出了错误的反应,但均被ChatGPT以耐心自然的语气予以回应。

    随后,Barret还给出了一堆代码,展示了ChatGPT理解代码、描述任务、对应函数名及其功能等能够完全理解代码内在逻辑的能力。此外,ChatGPT面对图表理解任务(任意抽取坐标轴解读等)也能够顺畅完成。

    作为彩蛋,ChatGPT还解读了Barret自拍中的表情,以及简短演绎了实时语音翻译(意大利语和英语)的角色。只是解读自拍时,ChatGPT似乎出现一点“故障”,反馈说“好像在看一个木质表面的东西”,但这被Barret用“那是我之前发给你的的东西”一句话迅速翻篇。

    OpenAI将自己再度大力推向C端市场的一个杀手锏是,此次GPT-4o的能力免费开放给所有ChatGPT用户,这将让他们直接体验GPT-4级别的智能,只不过ChatGPT Plus用户的容量限制是免费用户的5倍。此外,OpenAI还发布了ChatGPT的桌面应用程序并全面更新了UI,使其用起来更简单自然。

    “我们使命中一个非常重要的部分,就是让我们的高级AI工具可以免费向所有人提供。”Mira Murati表示,“我们认为人们对技术功能有直观感受非常重要。”这些功能都将在接下来几周时间中迭代推出。