正在强烈冲击 AI Agent 的“准 Agent ” GPTs,真的会杀死 AI 智能体吗?

  • 发表时间:
    , 文章来源:MyZaker, 新闻取自各大新闻媒体,新闻内容并不代表本网立场

    *(photo:MyZaker)

    图片来源 @视觉中国

    文 | 王吉伟

    OpenAI 推出的 GPTs 是不是 Agent?为何能让很多 AI 智能体项目半年白干?

    很多人说 GPTs 不是真正意义上的 AI Agent,为何却被称作 Agent 杀手 ?

    OpenAI 宫斗 100+ 小时期间数量超两万的 GPTs,真会成为 AI Agent 杀手吗?

    GPTs 到底是什么?与 AI Agent 有什么区别?为什么说它会杀死 AI Agent?

    为何 " 准 Agent"GPTs 对真 AI Agent 造成那么大冲击?真的会杀死 AI 智能体吗?

    说 GPTs 会杀死 AI Agent 有些危言耸听,Agent 未来生态注定百花齐放

    OpenAI 的宫斗大戏已经告一段落,精彩剧情的余韵仍在久久回荡。

    波澜起伏的剧情,精湛的演技,硅谷大佬的客串,100 多个小时的演绎,缔造了这部足以载入史册的 AGI 成长大戏。剧中角色则被赋予更多传奇色彩,比如 Sam Altman 一度被视作当年被董事会罢免的乔布斯,而 Ilya Sutskever 也被贴上了 "AGI 卫道者 " 的标签。

    这场宫斗的真正根源,到现在还在市里坊间被人猜测。其中最有可能的一个原因是,GPT 已经发展成为能够威胁人类的 AI,所以卫道者 Ilya 要出来干预,不惜使用各种手段阻止 OpenAI 带有重大危险因素的超高速成长。

    Sam 要通过商业手段推动 OpenAI 疾驰,Ilya 则要确保 AI 在监管之下可控发展。

    两人都是 AGI 的笃信者,发展理念却在 OpenAI 的第一个开发者大会之后产生了强烈冲突。Sam 相当激进,Ilya 过于谨慎,于是矛盾一触即发,而导火索可能恰恰就在于 GPTs。

    从 Sam 被开除开始,大家都在关注 OpenAI 宫斗这几天,GPTs 仍旧以超高的速度发展,目前 GPTs 的数量已超过 2 万。超低的创建门槛和 APP Store 一样的商业模型,必会让 OpenAI 快速构建 GPTs 生态。

    但另一方面,目前这些 GPTs 还存在不少问题。就以安全可言,99% 的 GPTs 都在裸奔,几句话就能套取知识库文件。如果这些 GPTs 都在对人类存在潜在威胁的大语言模型之上运行,后果可想而知。

    当然,这些仍然还是猜测,也不是本文讨论的重点。

    事实上,GPTs 推出后在创投领域引起更多不满的,是 OpenAI 为何既要做底层技术又要做上层应用。这直接杀死了相当数量的基于 GPT 的 Agent 相关项目,当然大量项目都是 Sam 所说的 " 简单模仿、套壳 OpenAI" 公司的项目。

    不管这些项目是不是在套壳 OpenAI,GPTs 以及 Assitant API 的推出,确实对第三方 Agent 构建框架及工具造成了不小的冲击,就连 Langchain、LlamaIndex 等都已被看作一无是处了。

    有意思的是,一些人并不认为 GPTs 算是真正的 Agent,因为现在的大多数 GPTs 仅是实现特定功能的聊天机器人。这样的东西,又怎能取代或者杀死结构完整功能强大的独立 Agent 呢?

    那么,GPTs 到底算不算 Agent?GPTs 的推出是否真的意味着开发者几个月来构建的 Agent 产品和开源项目都会死亡?GPTs 是否真的有能力杀死所有 AI Agent?

    本文,王吉伟频道就跟大家聊聊这些。

    从 GPTs 说起

    OpenAI 官方对 GPTs 的定义是,用户为特定目的创建的 ChatGPT 版本。

    任何人都可以创建量身定制的 GPTs,用于日常生活、特定任务、工作或家庭中获得更多便利以及提升效率,也可以制作仅供公司内部使用的 GPTs,比如帮教孩子数学或者设计贴纸、学习棋盘游戏、搜索资源、数据分析等。

    此外,用户还可以分享创建的 GPTs,以让更多人使用它们提升各种场景的使用效率。想要详细了解 GPTs,大家可以到 OpenAI 官方博客查看《Introducing GPTs》这篇博文。

    要构建一个 GPTs 也非常简单,不用代码,只需与 GPT Builder(OpenAI 推出的 GPTs 创建器)进行对话,并为其提供说明和其他知识,再选择 GPTs 能够执行的搜索网络、制作图像、分析数据等操作,一个 GPTs 就创建完成了。

    GPTs 可以做很多事情,比如学习棋盘游戏的规则、帮孩子学习或者设计贴纸。还可以把 GPT 和外部服务连接起来,让它们访问更多的信息和功能。例如,通过连接翻译 API,GPT 就可以通过访问数据库获取实时数据进行分析,实现用多种语言交流。

    为了让用户感受 GPTs 的魅力,OpenAI 官方推出了 16 个 GPTs,用户可以直接使用这些 GPTs。在构建 GPTs 时,用户也可以选择是否使用 DALL-E 图片生成或者代码解释器。

    *(photo:MyZaker)

    这 16 个 GPTs 如下:

    DALL · E GPT:

    让你的想象变成图像。

    Data Analysis:

    放入任何文件,帮助分析和可视化您的数据。

    ChatGPT Classic:

    最新版本的 GPT-4,没有附加功能。"

    Game Time:

    快速向任何年龄的玩家解释棋盘游戏或纸牌游戏。

    The Negotiator:

    帮助你为自己辩护并获得更好的结果,成为一名出色的谈判者。

    Creative Writing Coach:

    渴望阅读您的作品并为您提供反馈以提高您的技能。

    Cosmic Dream:

    有远见的数字奇迹画家。

    Tech Support Advisor:

    从设置打印机到对设备进行故障排除,逐步为您提供帮助。

    Coloring Book Hero:

    把任何想法变成异想天开的图画书页。

    Laundry Buddy:

    回答任何关于污渍、设置、分类和一切洗衣的事情。

    Sous Chef:

    根据你喜欢的食物和拥有的食材给你食谱。

    Sticker Whiz:

    把你最疯狂的梦想变成模切贴纸,直接送到你家门口。

    Math Mentor:

    帮助父母帮助他们的孩子学习数学。

    Hot Mods:

    把你的形象修改成真正狂野的东西。

    Mocktail Mixologist:

    用你手头的任何食材制作无酒精鸡尾酒食谱,让任何派对都大放异彩。

    genz 4 meme:

    帮你理解行话和最新的表情包。

    *(photo:MyZaker)

    OpenAI 推出这些不同的 GPTs,不仅对外展示了 GPT 模型的技术实力,也意味着个性化 AI 助手将成为我们日常生活中不可或缺的一部分,在未来满足我们独特的需求和兴趣。

    从现在已经推出的各种 GPTs 来看,有的比如使用 Zapier 插件的 GPTs 已经能够处理稍微复杂一些的业务流程,但大部分 GPTs 仅是聊天机器人,还无法实现复杂任务的执行。

    所以,GPTs 到底算不算 Agent 呢?

    从 Agent 定义及架构看 GPTs

    OpenAI 开发者大会以后,比尔盖茨(Bill Gates)在其博客发表了一篇名为《AI is about to completely change how you use computers》的文章,并很快刷屏国内外。

    在这篇文章中,他提到了 Agent 与机器人(如 Clippy 等)的区别,主要有以下三点:

    积极主动地根据用户需求提出解决方案;

    能够跨应用程序完成任务;

    随着时间的推移而改进。

    按照这几点,现在除了部分能够参与企业业务流程的 GPTs(如通过 Zapier 等插件以 API 调用 CRM、HR 等相关企业应用),大部分 GPTS 都是跟 ChatGPT 一样的对话机器人。

    这一点也无可厚非,毕竟 GPTs 要做的就是为用户定制各自专属的 ChatGPT,而更多人的需求可能就是通过对话生成一些内容。

    但创建 GPTs 过程中 Action 的加入,让部分 GPTs 具备了执行能力,比一般机器人强大得多,足以连接部分现实世界。

    我们还可以把 GPTs 带入现在业界公认最理想的由 OpenAI 提出的 "LLM+ 规划 + 记忆 + 工具 " 四件套 Agent 框架。

    *(photo:MyZaker)

    可以发现,大部分 GPTs 在工具使用方面还未达到 AI Agent 的标准,因为它们仅在 "knowledge" 中上传了一个知识文档,仅是一个通过对话来获取文档相关知识的对话机器人,并没有涉及工具使用这个部分。

    这类 GPTs 只能根据输入的指令进行思考并给予用户文字、图片等内容的反馈,而无法去执行某些目标比如操作一些软件去完成相关任务。

    事实上,用于构建 GPTs 的 GPT Builder 正是一个标准的 Agent。用户提交需求指令之后,GPT Builder 会通过设定目标和任务分解,通过互动一步引导用户去完成 GPTs 的构建,就连 logo 都可以根据指令自动生成。

    GPTs 对外展示了 Agent 的相关功能,并证实了 Agent 连接真实世界的可行性。这些 GPTs 能够连接到其他产品和服务,从电子邮件到购物网站,使 AI 可以执行更广泛的任务。

    OpenAI 通过 GPTs 让更多人知道了什么是 AI Agent,以至于有人将 GPTs 称之为下一波人工智能浪潮的先驱。

    到现在为止,大多数 GPTs 缺乏用户所期望的自主程度,还达不到自主智能体(Autonomous Agent)的级别。其实就连 Sam Altman 也没有说 GPTs 就是真正意义上 Agent,他在开发者大会上用了 "Precursors" 一词,用以表明 GPTs 属于 Agent 的 " 初期形态 "。

    所以在一些探讨 GPTs 与 AI Agent 的观点中我们可以发现,GPTs 被看作是 " 几乎成为 Agent" 或者 " 准 AI Agent"。

    " 几乎 " 与 " 就是 ",还是存在一些差距的。

    那 GPTs 与 Agent 尤其是自主 Agent 相比,有什么区别呢?

    GPTs 与 AI Agent 的区别

    在大家所说的 GPTs 会杀死的 Agent 项目中,有些项目比如 Baby AGI 、MetaGPT 及 Aiagent 等在运行过程中,可以明显体现合格 Agent 应该具备的特性。换句话说,它们的表现要比 GPTs 强很多。

    OpenAI 开发者大会之后,LangChain 曾在 X 发推文强调了其与 GPTs 的区别以及自身优势,并在 11 月 10 日推出了一个名为 Opengpts 的开源项目。

    该项目通过整合 LangServe 和 LangSmith,旨在为用户提供与 OpenAI GPTs 相似体验的平台。相对于 OpenAI 只能用 GPT 模型构建 GPTs,在 Opengpts 用户可以通过选择不同的语言模型、自定义工具以及控制提示,实现对聊天机器人更灵活的控制。

    从目前 GPTs 的表现与 " 独立 "AI Agent 所具备的功能来看,两者存在以下几点区别:

    1、GPTs 仍旧处于试用阶段。

    虽然 GPT Shunter(一个第三方 GPT Store 项目)收集的 GPTS 数量已经超过 2.1 万,但大部分 GPTs 产品形态仍旧比较初级。

    *(photo:MyZaker)

    目前 GPTs 所表现的属性更易于分享,但在功能上仍旧差强人意,属于个人娱乐及应用产品的试用阶段,并不适合大量企业去使用。

    2、技术栈存在一定限制。

    GPTs 基于大语言模型 GPT-4 构建并与 OpenAI 的生态系统紧密关联,这也意味着开发者所能用的整体技术栈存在一定局限性。

    GPT 并不开源,所以构建 GPTs 在 LLM 的选择上只能基于 GPT,而不能选择更多的 LLM。同时当前版本在使用上也有一些限制,比如最多只能上传 10 个数据文件。

    3、GPTs 构建者技能水平不同。

    " 独立 "AI Agent 的构建者主要是开发人员,GPTs 的构建者大多是不会代码的业务人员。目前大部分 GPTs 都是用简单指令提示来构建的,这让 GPTs 的数量快速暴涨,这也使得 GPTs 在专业程度上要差很多,更适合自娱自乐或者解决简单业务流程。

    程序人员还可以用 Assistant API 构建功能更多更专业的 GPTs,这些才有可能成为企业级 Agent 应用。

    4、能处理的任务和 GPTs 的能力。

    现在 AI Agent 正在成为各种类型的智能助理,可以用于订餐、买机票以及编程等相对复杂的业务流程。GPTs 也有很多不同用途像私人教练、老师、咨询师等,但大多数仍然是聊天机器人。

    它更像各种角色扮演类 AI,人们可以自定义各种角色来娱乐或者处理简单事务,比如用来生成各种文本以及用 DALL-E 生成图像等。

    当然,GPTs 已能够参与部分企业运营的业务流程,比如使用 Zapier GPT 访问日历或者 Slack 等。但目前它还无法深入到企业运营中的比如 SAP、用友、金蝶等的复杂流程中去。

    主要在于,一方面很多企业管理软件缺少 API,另一方面有些 API 授权费用太高,此外 API 也不绝对稳定。

    5、技术和安全挑战

    目前的 AI Agent 经常被批评不可靠,因此还没有实现量级的企业级应用。GPTs 也面临着同样的问题,会出现幻觉、在同一提示下提供不同的结果以及不能真正理解潜在过程,会产生随机结果。

    除了大模型本身问题,目前 GPTs 更大的问题是数据安全,据说目前 99% 的 GPTs 都在裸奔,几句话就能套走 GPTs 的数据库。这些问题,会让企业在 GPTs 的选择上更加谨慎。

    理论上,可以通过更高级的模型或围绕 Agent 构建产品以弥补可靠性的不足。比如实在智能推出的 RPA Agent,就在数据安全上下了很大的功夫,在大语言模型和 RPA 工具包上都设置的多重安全机制,以保证用户更安全的使用 AI 智能体。

    6、初级阶段的 GPTs 缺乏产品属性

    到目前为止,GPTs 缺乏具体的产品特性,或者说缺乏一种利用 GPTs 开展业务的方法。不具备产品级应用的试用性产品,在安全、应用、数据、扩展性及解决方案方面很难达到企业要求,不容易在企业推广。

    此外 GPTs 仅供 ChatGPT 付费用户及企业用户使用,限制了更多人的使用,且没有定价策略或产品等级差异化的选项。或许这些,都要等到 GPT Store 的正式上线。眼下 OpenAI 宫斗大戏刚刚落幕,GPT Store 何时上线还是个谜。

    GPTs 会不会杀死 AI Agent?

    尽管 OpenAI 推出的 GPTs 还不算成熟的 AI Agent,或者说处于 Agent 早期阶段,但无疑它响应了一种趋势,即 Agent 将会无处不在。GPTs 这种形态的大语言模型产品会让人人都能用上 Agent,这是它的伟大之处。

    接下来随着 GPT Store 的推出,GPTs 将会成为现在 APPs 一样存在于每个人的手机、平板抑或其他形式(比如最近的风头正盛的 AIpin)的通讯、娱乐及办公产品之上。

    目前的 GPTs 还很原始,大部分都属于定制化的面向某个功能的比如心理咨询、产品说明、文字及图片生成等聊天机器人。

    但从业务流程角度而言,很多企业的一些业务部门比如市场营销、客户支持、新媒体、HR、法务等,某些业务的大部分流程都是文字、语音交互和生成,应用 GPTs 足以完成大部分任务,在安全、合规的情况下这些部门将非常适用 GPTs。

    如果简单的 GPTs 就能胜任企业运营的多种业务场景,是不是就无需再去耗费精力与财力打造所谓的专业单体自主 Agent?

    同时,SaaS 化的 GPTs 开发是不是也比程序员以代码构建专业 Agent 更为便捷与高效?

    目前 GPTs 还无法介入企业运营的复杂流程,但我们也看到了通过 Zapier 等插件实现了与电子邮件、旅游网站及支付软件等的集成,已经能够操作部分企业经营的业务流程。

    关于企业内部应用 GPTs,是另一个需要探索的话题,王吉伟频道在这里跟大家简单聊聊。

    现在已经有一些企业在内部进行 GPTs 的构建与分享,以定制面向不同业务场景的 ChatGPT。比如 Amgen、Bain 和 Square 等企业,已经先一步开始应用自己的专属 GPTs。但这些企业 GPTs 是用在内容生成与理解还是深度的业务运营,目前尚不可知。

    通过 API 调用的各种插件及应用,在 OpenAI 的 Agent 架构中都属于工具应用。这些工具可以是简单的邮件列表读取,也可以是复杂的 CRM、OA、工作流等流程编排与管理。

    *(photo:MyZaker)

    OpenAI 还没有更重量级的工具,但其投资的一家 RPA 公司 Induced AI,"RPA 3.0" 形态的产品正是基于 GPT 的智能体。

    大胆猜测一下,这个产品在以后很有可能会以插件或其他形式成为 OpenAI Agent 架构中诸多工具中的一员,未来或将弥补 GPTs 在业务流程执行层面无法操作非 API 工具的不足。

    如果 Induced AI 能够做这些,其他 RPA 厂商也能做到。随着更多 RPA 厂商推出相应插件,用 GPTs 操作更多组织运营中复杂流程也就不再是梦。尤其是现在借助 Assitant API 将原有产品改造升级成为基于 GPT 的 Agent,前所未有的简单。

    王吉伟频道认为,理论上配合 API 和 RPA,GPTs 能够通达到组织运营各处。就看企业如何衡量它的运行功效,以及在安全方面是否能够经得住考验。

    鉴于以上几点,GPTs 真有可能成为 Agent 杀手,至少它已经让很多基于 GPT-4 的第三方 Agent 的道路不好走了。

    好在,LLM 厂商并非只有 OpenAI 一家。

    AI Agent 生态不只有 OpenAI

    今天我们所说的 Agent,都是基于 LLM 的 Agent,它离不开 LLM 的支撑。

    对于 AI Agent 的未来生态,比尔盖茨认为不会是一家公司主导 AI 智能体业务的局面,而是会出现许多不同的人工智能引擎可用。

    更多的竞争将会让包括 GPTs 在内的智能体变得非常便宜,有利于更多人使用 AI 智能体。

    现在全球有那么多大语言模型,单是国内就有 200 多个。既然 OpenAI 能够造就 GPTs,自然其他 LLM 厂商也能推出同类产品,或者会与第三方平台合作推出类似产品。

    *(photo:MyZaker)

    因此 GPTs 不会只诞生在 OpenAI,像谷歌、Meta 等科技巨头必然更希望其客户基于自有大模型开发类 GPTs 产品及更完善的 Agent 产品。

    就在 OpenAI 宫斗这几天,亚马逊、Meta 等厂商已经收到更多的 AI 相关业务咨询;OpenAI 竞争对手 Cohere 的咨询量也是大幅增加;Writer 的企业客户对其服务的兴趣已经增加了两倍;Habib 则一直在宣传其 AI 系统在某些场景下比 GPT-3.5 模型更好。

    这次宫斗事件确实为 AI 技术采买带来不小的影响,用 AI21 联合创始人 Yoav Shoham 的观点表达就是,OpenAI 发生的事情让更多企业确信,无论如何都不想把所有鸡蛋放在一个篮子里。

    至于国内市场,不只是无法应用 GPT 等海外大模型,还会因为信创等衍生出更加多元化的需求,也将会有更具特点的类 GPTs 产品出现。

    *(photo:MyZaker)

    此外仅有 GPT 一个大语言模型,也无法满足用户对于 GPTs 的广泛需求。

    从这一点而言,以后 LLM 厂商及 Agent 厂商们可能会倾尽所能适配更多大语言模型,甚至不排除 OpenAI 也会将第三方 LLM 加入产品体系的可能,以支持用户对于多类型与功能 GPTs 的构建。

    事实上,AI Agent 想要真正在 B 端实现量级业务场景的落地及更好地商用,需要综合考量其本身的安全性、技术发展周期是否成熟以及 To B 端的场景是否密切贴合,还需要考虑接口成本、隐私、管理、授权等诸多因素。

    这既是很多供应商的技术与产品门槛,也是广大企业选型的重要依据。

    企业在选择用于业务流程自动化的 AI 智能体时,也会优先考虑技术供应商厂商推出的 AI 智能体产品,而不是选择 LLM 厂商推出的尚未成熟的通过 API 连接各种插件的单一智能体解决方案。

    这些,都是眼下 GPTs 这种单一智能体所无法具备的。至于 GPTs 什么时候能够发展成为成熟智能体产品,就要看 OpenAI 如何在企业用户端下功夫了。

    在王吉伟频道看来,GPTs 确实扼杀了一些 Agent 相关的初创公司,但大多是 Sam Altman 所说的 " 套壳与模仿 GPT" 的项目。对于 AI Agent 而言,GPTs 目前远未表现出杀手级实力,并且它也杀不死那些为专有功能而构建的复杂类型 Agent。

    GPTs 的出现反而启发了更多企业的创新,会让 Agent 产品在短期内海量爆发,用最快的速度构建与完善 AI Agent 生态。

    或许,以 GPTs 范式引领 Agent 繁荣生态,早日实现 AGI,才是 OpenAI 最想做的。