Gemini 第一波用户反馈出来了:不太好!

  • 发表时间:
    , 文章来源:MyZaker, 新闻取自各大新闻媒体,新闻内容并不代表本网立场

    隔夜,在号称碾压 GPT-4 的多模态新模型 Gemini 带动下,谷歌隔夜股价大涨 5%。至少谷歌自己对 Gemini 的能力是非常自信的,在各种宣传文案里把 Gemini 吹上了天,放出的演示视频效果也非常惊艳。

    目前,Gemini 的 " 精简版 "Gemini Pro 已经登陆谷歌 AI 聊天机器人 Bard(仅限英文版)。但根据测试过的用户在 X 上的反馈,效果似乎没有那么理想,在基本事实、数学问题、生成新闻摘要等方面的表现可以说得上拉胯,甚至不如已经发布一年多的 GPT-3.5.

    比如,一位用户向 Gemini 询问,谁是 2023 年的奥斯卡最佳男主角,得到的是布兰登 · 格里森(Brendan Gleeson)这个错误的回答,不是真正的获奖者布兰登 · 弗雷泽(Brendan Fraser)。

    *(photo:MyZaker)

    明明完全具备访问互联网的能力,但 Gemini 连奥斯卡得主这一随手谷歌一下就知道的基本事实都出错,着实耐人寻味。

    更离谱的是,Techcrunch 记者向 Gemini 提出了同样的问题,它给出了不同的错误答案:奥斯汀 · 巴特勒(Austin Butler)。

    *(photo:MyZaker)

    而且,如上图所示,Gemini 在其他奖项上也是一通胡编乱造。

    获得 95 届奥斯卡最佳纪录片奖的电影是《纳瓦尔尼》,而非《所有的美丽与血泪》,获得最佳国际影片奖的是《西线无战事》,但 Gemini 给出的答案也是《所有的美丽与血泪》......

    此外,科幻小说作家 Charlie Stross 也在最近发布的一篇博文中发现了更多的谬误,Gemini Pro 还会编造其他信息,比如说称 Stross 本人为开发 Linux 内核做出了贡献,但实际上他从未参与过和 Linux 内核有关的项目。

    Techcrunch 记者又要求 Gemini 给出一个 6 个字母的法语单词,但 Gemini 的回答有 7 个字母。

    *(photo:MyZaker)

    不过,需要指出的是,华尔街见闻

    强调过,涉及控制字符数量的场景一向是 AI 的弱项,这是由于生成式 AI 背后的技术是上下文预测,基础是 token 而非字符。

    华尔街见闻给 ChatGPT 下达了同样的任务,后者也给出了一个包含 7 个字母的错误答案。

    *(photo:MyZaker)

    在总结新闻方面,Gemini 的表现似乎过度谨慎了——谨慎到影响了基本的使用体验。

    如下图,一位 X 用户仅仅是要求它列出巴以冲突的最新情况,并没有要求 Gemini 做出评判,但 Gemini 却告诉用户:

    要不你自己家上谷歌搜一下吧。

    *(photo:MyZaker)

    华尔街见闻尝试了同样的问题,也得到了一样的建议:自己去搜吧!

    *(photo:MyZaker)

    相比之下,ChatGPT 则给出了一个附有引文的列表式新闻摘要:

    *(photo:MyZaker)

    不过,有趣的是,当记者提问 Gemini 关于俄乌冲突的最新消息时,Gemini 却没有回避,而是生成了一份新闻摘要。但这些信息已经过时一个多月了。

    *(photo:MyZaker)

    那么,写代码的能力呢?这可是 AI 对人类生产力提升最大的关键应用领域之一。

    但 X 用户的反馈表明,虽然 Gemini 在写代码方面比之前版本的 Bard 有所改进,但 Gemini 的基础代码能力非常一般,甚至不如比它早得多的 ChatGPT.

    另一位 X 用户测试用 AI 生成一个小游戏的代码,结果 ChatGPT 第一次尝试就写出了代码,而 Gemini 需要 3 次。

    总结一下,网友测试的反馈大概就是——不如 GPT。

    当然,目前能上手使用的 Gemini Pro 并不是 Gemini 性能最强的版本。最强的 Gemini Ultra 要等到明年某个时候才会在谷歌 Bard 和其他产品中推出。谷歌 Gemini Pro 对标的是比它早一代的 GPT-3.5。

    显然,Gemini Pro 还有很大的进步空间。而最强的 Ultra 是不是像谷歌演示的那样神乎其神?要等到明年才能见分晓了。