Gemini 第一波用户反馈出来了：不太好！

隔夜，在号称碾压 GPT-4 的多模态新模型 Gemini 带动下，谷歌隔夜股价大涨 5%。至少谷歌自己对 Gemini 的能力是非常自信的，在各种宣传文案里把 Gemini 吹上了天，放出的演示视频效果也非常惊艳。

目前，Gemini 的 " 精简版 "Gemini Pro 已经登陆谷歌 AI 聊天机器人 Bard（仅限英文版）。但根据测试过的用户在 X 上的反馈，效果似乎没有那么理想，在基本事实、数学问题、生成新闻摘要等方面的表现可以说得上拉胯，甚至不如已经发布一年多的 GPT-3.5.

比如，一位用户向 Gemini 询问，谁是 2023 年的奥斯卡最佳男主角，得到的是布兰登 · 格里森（Brendan Gleeson）这个错误的回答，不是真正的获奖者布兰登 · 弗雷泽（Brendan Fraser）。

*(photo:MyZaker)

明明完全具备访问互联网的能力，但 Gemini 连奥斯卡得主这一随手谷歌一下就知道的基本事实都出错，着实耐人寻味。

更离谱的是，Techcrunch 记者向 Gemini 提出了同样的问题，它给出了不同的错误答案：奥斯汀 · 巴特勒（Austin Butler）。

*(photo:MyZaker)

而且，如上图所示，Gemini 在其他奖项上也是一通胡编乱造。

获得 95 届奥斯卡最佳纪录片奖的电影是《纳瓦尔尼》，而非《所有的美丽与血泪》，获得最佳国际影片奖的是《西线无战事》，但 Gemini 给出的答案也是《所有的美丽与血泪》......

此外，科幻小说作家 Charlie Stross 也在最近发布的一篇博文中发现了更多的谬误，Gemini Pro 还会编造其他信息，比如说称 Stross 本人为开发 Linux 内核做出了贡献，但实际上他从未参与过和 Linux 内核有关的项目。

Techcrunch 记者又要求 Gemini 给出一个 6 个字母的法语单词，但 Gemini 的回答有 7 个字母。

*(photo:MyZaker)

不过，需要指出的是，华尔街见闻

强调过，涉及控制字符数量的场景一向是 AI 的弱项，这是由于生成式 AI 背后的技术是上下文预测，基础是 token 而非字符。

华尔街见闻给 ChatGPT 下达了同样的任务，后者也给出了一个包含 7 个字母的错误答案。

*(photo:MyZaker)

在总结新闻方面，Gemini 的表现似乎过度谨慎了——谨慎到影响了基本的使用体验。

如下图，一位 X 用户仅仅是要求它列出巴以冲突的最新情况，并没有要求 Gemini 做出评判，但 Gemini 却告诉用户：

要不你自己家上谷歌搜一下吧。

*(photo:MyZaker)

华尔街见闻尝试了同样的问题，也得到了一样的建议：自己去搜吧！

*(photo:MyZaker)

相比之下，ChatGPT 则给出了一个附有引文的列表式新闻摘要：

*(photo:MyZaker)

不过，有趣的是，当记者提问 Gemini 关于俄乌冲突的最新消息时，Gemini 却没有回避，而是生成了一份新闻摘要。但这些信息已经过时一个多月了。

*(photo:MyZaker)

那么，写代码的能力呢？这可是 AI 对人类生产力提升最大的关键应用领域之一。

但 X 用户的反馈表明，虽然 Gemini 在写代码方面比之前版本的 Bard 有所改进，但 Gemini 的基础代码能力非常一般，甚至不如比它早得多的 ChatGPT.

另一位 X 用户测试用 AI 生成一个小游戏的代码，结果 ChatGPT 第一次尝试就写出了代码，而 Gemini 需要 3 次。

总结一下，网友测试的反馈大概就是——不如 GPT。

当然，目前能上手使用的 Gemini Pro 并不是 Gemini 性能最强的版本。最强的 Gemini Ultra 要等到明年某个时候才会在谷歌 Bard 和其他产品中推出。谷歌 Gemini Pro 对标的是比它早一代的 GPT-3.5。

显然，Gemini Pro 还有很大的进步空间。而最强的 Ultra 是不是像谷歌演示的那样神乎其神？要等到明年才能见分晓了。

Gemini 第一波用户反馈出来了：不太好！

要不你自己家上谷歌搜一下吧。

相关内容

事实查核｜根据美国新法案，用VPN上TikTok最重判20年？
全球新闻 • 美国新闻 互联网 • • WendyWu(-37)

南韩首创以皮肤细胞基因编辑复制犬　将解决纯种犬基因缺陷问题
全球新闻 • 科技创新 • • WendyWu(-51)

官方出手！对网游每日登录等诱导性奖励说“不”
全球新闻 • 科技创新 互联网 • • CathyHuang(-43)

减少充电器让苹果节省了55万吨矿石，但仍有消费者为此维权
全球新闻 • 科技创新 • • XiuWenTang(-56)

【视频】即将探索木星卫星的欧洲太空探测器：Juice
全球新闻 • 科技创新 • • CathyHuang(-43)

Gemini 第一波用户反馈出来了：不太好！

要不你自己家上谷歌搜一下吧。

相关内容

事实查核｜根据美国新法案，用VPN上TikTok最重判20年？ 全球新闻 • 美国新闻 互联网 • • WendyWu(-37)

南韩首创以皮肤细胞基因编辑复制犬 将解决纯种犬基因缺陷问题 全球新闻 • 科技创新 • • WendyWu(-51)

官方出手！对网游每日登录等诱导性奖励说“不” 全球新闻 • 科技创新 互联网 • • CathyHuang(-43)

减少充电器让苹果节省了55万吨矿石，但仍有消费者为此维权 全球新闻 • 科技创新 • • XiuWenTang(-56)

【视频】即将探索木星卫星的欧洲太空探测器：Juice 全球新闻 • 科技创新 • • CathyHuang(-43)

事实查核｜根据美国新法案，用VPN上TikTok最重判20年？
全球新闻 • 美国新闻互联网 • • WendyWu(-37)

南韩首创以皮肤细胞基因编辑复制犬　将解决纯种犬基因缺陷问题
全球新闻 • 科技创新 • • WendyWu(-51)

官方出手！对网游每日登录等诱导性奖励说“不”
全球新闻 • 科技创新互联网 • • CathyHuang(-43)

减少充电器让苹果节省了55万吨矿石，但仍有消费者为此维权
全球新闻 • 科技创新 • • XiuWenTang(-56)

【视频】即将探索木星卫星的欧洲太空探测器：Juice
全球新闻 • 科技创新 • • CathyHuang(-43)