字节回应被 OpenAI “拉黑”：服务条例更新前已停止使用 GPT 训练模型

文 | 周鑫雨

编辑 | 邓咏仪

2023 年 12 月 16 日，科技媒体 the Command Line 作者 Alex Health 的一篇文章，将 OpenAI 对字节跳动的控诉摆到了台前。

这篇 " 檄文 " 中，字节被指控在大语言模型开发项目 Project Seed 中，几乎每个阶段都在秘密使用 OpenAI 的模型 API 来训练和评估模型。

" 参与的员工们对此心知肚明。"Alex Health 声称自己在字节的沟通平台飞书上亲眼所见，员工讨论如何通过数据脱敏来粉饰证据，" 滥用非常普遍，以至于 Project Seed 的员工经常达到访问 API 次数的上限。"

这场控诉的结局是，OpenAI 禁止了字节跳动的账户。OpenAI 发言人 Niko Felix 通过 Alex Health 发表了声明：

所有 API 客户都必须遵守我们的使用政策，以确保我们的技术得到良好利用。虽然字节跳动对我们 API 的使用很少，但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不遵守这些政策，我们将要求他们进行必要的更改或终止其帐户。

*(photo:MyZaker)

OpenAI 发言人 Niko Felix 的声明。

所谓的 "Seed"，是字节在 2022 年末就启动的基础大语言模型开发项目。该项目下有两个主要产品，一个是已在国内推出的聊天机器人 " 豆包 "，一个则是正在开发中的、计划通过火山引擎对外提供服务的机器人平台。

一名业内人士对 36 氪表示，国内厂商用国外主流模型的 API 先试水业务、训练模型的情况并不少见：" 先用先进模型把业务跑起来，等自己的模型训练能力达到标准再进行替换。"

而多名知情人士则向 36 氪透露，目前字节跳动的模型业务比距，无论是产品项目 Flow，还是大模型项目 Seed，都有国内海外业务两手抓的打算。由于政策规定，国内业务将采用字节自主研发的模型，而海外业务，将先采用国外厂商的模型 API 服务。

在 OpenAI 的服务条例中，确实存在竞争保护相关的内容。为了防止客户使用 OpenAI 的服务开发竞品，OpenAI 对客户的使用范围做了严格的规定：只允许开发非商用的用于数据治理的 AI 模型，或者用于微调 OpenAI 对外服务的模型。

*(photo:MyZaker)

OpenAI 的服务条例。

" 拉黑 " 风波后，字节跳动发言人 Jodi Seth 在当日也快速做出回应。她表示，GPT 生成的数据在 Project Seed 早期被用于标注模型，并在今年年中左右从字节跳动的训练数据中删除：

字节跳动获得了微软使用 GPT API 的许可。我们使用 GPT 为非中国市场的产品和功能提供动力，但使用我们的自我发展模型为豆包提供动力，豆包仅在中国可用。

这则声明承认了字节存在用 GPT 生成的数据训练模型的行为，但这个行为发生在 OpenAI 设定服务条例之前。可见的是，OpenAI 最早一版服务条例发布于 2023 年 8 月 28 日，而字节声称在年中前已经停止将 GPT 生成的数据应用于训练过程。

*(photo:MyZaker)

OpenAI 的第一版服务条例更新于 2023 年 8 月。

字节回应的另一个重点，则是强调 GPT 的 API 服务是通过微软云服务 Azure，而非从 OpenAI 直接获得。换言之，OpenAI 的 " 拉黑 "，显得越俎代庖。

不过，即便是微软 Azure，也拥有与 OpenAI 类似的竞争保护条款：" 客户不得使用且不允许第三方使用微软生成式人工智能服务创建、培训或改进（直接或间接）类似或具有竞争性的产品或服务。"

*(photo:MyZaker)

微软 Azure 生成式人工智能服务条款

如今，不少人都在等待微软 Azure 的回应。对海外 AI 业务依赖于国外厂商 API 的字节而言，微软的态度将至关重要。

*(photo:MyZaker)

欢迎交流

iPhone用户躺着、坐着「Facebook都知道」　研究员：建议删掉
全球新闻 • 互联网 • • JohnLam(-56)