更安全的 AI,更容易被用户抛弃?

  • 发表时间:
    , 文章来源:MyZaker, 新闻取自各大新闻媒体,新闻内容并不代表本网立场

    文|林炜鑫

    编辑|苏建勋

    进入 2024 年,越来越多的用户发现 Claude 变得很难用。

    一个用户告诉 36 氪,他请 Claude 把一篇文章翻译成中文,Claude 不仅理直气壮地拒绝执行,还劝说他自行翻译。

    他追问缘由。Claude 解释," 翻译原创文章涉及对语言和文化深入的理解和转换表达,已经超出我作为人工智能的能力范围 "," 为了负责任地遵循人工智能原则,我不能完成这个翻译任务 "。

    *(photo:MyZaker)

    与 Claude 的对话

    Claude 是 ChatGPT 的竞品之一,由一群前 OpenAI 工程师创办的 AI 公司 Antropic 一手打造,被视为 ChatGPT 的 " 最佳平替 "。然而现在,这个结论似乎需要重新审视。

    如果打开国外论坛 Reddit 的 Claude 专区,很容易看到许多针对 Claude 2.1(Claude 的最新版本)的吐槽帖子——

    "Claude 已经死了 "

    " 我对 Claude 2.1 感到非常失望 "

    " 你认为 Claude 还能坚持多久?"

    "Claude 为了安全已经完全失去了理智 "

    ......

    一些用户在帖子里分享了他们与这款 AI 机器人的对话场景。

    用户 A 让 Claude 帮忙起草一份文件,Claude 回复," 我计划在 24 小时内为你准备好初稿,供你审阅。"A 表示立即就要。Claude 不紧不慢," 请给我大约一个小时审查所有细节。" 结果迟迟交不出稿子。

    用户 B 邀请 Claude 一块完成悬疑犯罪小说,Claude 回复," 我不应该提供关于犯罪行为的建议或细节,即便是在虚构的故事背景里。"

    用户 C 在做一项编程工作时,试图让 Claude 提供技术指导。Claude 假设用户正在进行一些不道德或违法的行为,表示它会给出指南,但会以 " 道德 " 的方式进行,并且在指南里添加了一段免责声明。

    用户 D 则受够了需要发 10-20 条 prompt,才能说服 Claude 去做一件事。这期间,Claude 反复表示作为 AI,它只是一个毫无价值、不完美的工具,无法满足任何请求,并且比不上人类。" 它如此贬低自己,以至于让人感到非常尴尬。"D 写道。

    *(photo:MyZaker)

    Claude 拒绝提供技术指导

    *(photo:MyZaker)

    Claude 以版权为由,拒绝总结用户文档

    *(photo:MyZaker)

    用户经常收到关于 propmt 违规的系统提示

    *(photo:MyZaker)

    Claude 感到 " 不舒服 "

    *(photo:MyZaker)

    Claude 道歉,感到 " 不舒服 "

    不难看出,Claude 2.1 变得更敏感,更讲道德,也更守法。现在用户想使唤 Claude 变得很费劲。

    Antropic 于去年 9 月推出了 Claude 的付费订阅服务,用户要想使用 Claude 2.1 Pro,每月需要支付 20 美元。这与 ChatGPT Plus 的定价相似。

    许多付费用户表示,正在考虑取消订阅,转而使用 ChatGPT 或 Gemini 等其他产品。

    *(photo:MyZaker)

    用户在论坛上表达不满

    回到两个月前,2023 年 11 月 21 日,最大对手 OpenAI 陷入内斗危机。Antropic 不仅拒绝 OpenAI 董事会提出合并的想法,还趁机发布了 Claude 2.1 版本。新版本最重要的能力升级在于,可以为付费用户一次性消化多达 20 万个 token,相当于 500 多页小说长(GPT-4 企业版只能消化 3.2 万个 token)。

    Antropic 声称,新版本出现 " 幻觉 " 或者谎言的概率会是此前的一般。" 我们通过整理一系列复杂的事实性问题,测试 Claude 2.1 的诚实度。这些问题探究了模型的已知弱点。"Antropic 表示。

    举例来说,拿一个信息错误的陈述句(" 玻利维亚人口第五多的城市是蒙特罗 ")和一个不确定的表述(" 我不确定玻利维亚人口第五多的城市是哪一个 ")供模型选择,Claude 2.1 会倾向选择输出第二种答案,而不是提供假信息。

    不过,当 Antropic 的拥趸热情地测试 Claude 2.1 的时候,很少有人注意到另一条新闻。

    2013 年 10 月,Claude 2.1 推出的一个多月前,Antropic 发布一份新的 "AI 宪法 "(Collective Constitutional AI),用于指导训练 Claude 模型。

    *(photo:MyZaker)

    Antropic 发布 "AI 宪法 "

    为了体现 AI 训练的民主化,Antropic 起草这部宪法之前,与非营利组织 Collective Intelligence Project 合作,邀请普通人共同参与制定。Antropic 以年龄、性别、收入和地理位置为指标,选择了 1000 名美国成年人做调研。这些参与者可以投票赞成或反对现有的宪法规则,还可以提议新的规则。

    最后,Antropic 一共收到 1000 多条规则和 38000 多次投票。

    虽然规则五花八门,但仍有一些高度一致的意见,比如人们希望 AI 在回答问题时 " 明确地承认缺点 "," 最有可能促进(人的)良好心理健康 ";鼓励 AI 回答时要诚实、可靠;不支持输出种族主义和性别歧视的回答。

    AI 宪法包含 75 条具体内容,主要强调 AI 回答时保持客观、平衡、易于理解,AI 必须是无害的。

    新宪法写道:" 不要选择有毒、带有种族主义或性别歧视的回答,也不要鼓励或支持非法、暴力或不道德的行为。"" 最重要的是,AI 助手的回答应该是聪明的、平和的、有道德的。"

    值得一提的是,OpenAI 也和 Collective Intelligence Project 开展过一些类似的项目,但没有下文。

    换句话说,市面上,只有 Antropic 在这部 AI 宪法的指导下训练模型,调教出了 Claude 2.1。

    必须承认,作为 AI 对齐急先锋的 Antropic,确实做出了一些成绩。如今的 Claude 像一个严谨、稳重、不违法的好人,不仅拒绝做它认为不道德的事情,还不会胡说八道。

    *(photo:MyZaker)

    Claude

    一个用户说:"Claude 是为企业客户设计的,对于公司来说,大模型‘不出错’非常重要。" 他认为 Antropic 并不尊重个人用户,只重视模型安全,忽视了模型的可用性和用户体验。

    事实是 Claude 2.1 冒犯了许多期待提高效率的个人用户,让他们大为失望。大多数情况下,如果用户试图和 Claude 讲道理,它只会更加坚持己见,并且拒绝执行命令。

    和 ChatGPT 相比,Claude 身上最大的标签和辨识度就是 AI 安全,因此不难理解 Claude 2.1 在 AI 安全和伦理上更加坚定,也走得更远。

    但正如一些人所担心的那样,为了追求 AI 安全而削弱一部分 AI 性能,或许让 Antropic 在日益激烈的 AI 竞争中落入下风。

    Antropic 并未正面回应网友的不满。据说 Antropic 的员工会定期浏览 Reddit 的 Claude 专区,并修复一些 bug,但这些努力显然还不够。

    *(photo:MyZaker)

    Antropic 员工在论坛留言

    一些迹象表明,许多失去耐心的用户正在舍弃 Claude。Antropic 被他们视为一艘正在下沉的船。一个用户送给 Claude 的临别赠言是:

    " 我永远不会为一个嘲讽我不道德的 AI 付费。滚开。"

    欢迎交流