Stable Diffusion 3 API 发布，号称性能碾压碾压 Midjourney DALL · E，普通用户免费用

文｜李然

编辑｜苏建勋

虽然总裁辞职了，核心团队跳槽了，但是 Stability AI 仍然在发货。

*(photo:MyZaker)

图源：X

昨天夜里，Stability AI 正式发布了 Stable Diffusion 3 API，在 SD3 的技术报告公布几个月之后，用户终于可以上手试用了。

但可惜的是，完全开源的 SD3 模型依然还在路上，不过他们承诺，对于普通用户，SD3 模型不会收费。

*(photo:MyZaker)

现在，用户可以通过 Fireworks AI 访问 SD3 的 API。

*(photo:MyZaker)

根据 SD3 技术报告，SD3 相比 DALL · E 3 和 Midjourney，能够更好地遵循用户提示。

*(photo:MyZaker)

来源：官网

SD 3 新的多模态扩散变压器 ( MMDiT ) 架构对图像和语言表示使用单独的权重集，与之前版本的稳定扩散相比，它提高了文本理解和拼写能力。

*(photo:MyZaker)

可以看到，用户可以非常精准地控制需要出现在图片中地文字内容。

*(photo:MyZaker)

新模型生成的逼真图片，足以以假乱真。

*(photo:MyZaker)

Prompt: Portrait photograph of ananthropomorphic tortoise seated on a New York City subway train. 图源：X

对于完全虚构的图片也能做到美学和细节真实度的统一。

*(photo:MyZaker)

Prompt: Aesthetic pastel magical realism, a manwith a retro TV for a head, standing in the centerof the desert, vintage photo. 图源：X

调用 API，网友用 SD 和 ChatGPT 做了一个小游戏。

*(photo:MyZaker)

在他看来，SD3 能比 DALL · E 有更好的风格一致性，对于生成一个系统工程中的美术素材表现得更好。

网友也分享更多用 SD3 生成的作品。

*(photo:MyZaker)

可以看到，如果对于图片内容中的文字有明确要求，SD3 是为数不多能满足要求的模型。

*(photo:MyZaker)

机器人的手似乎也没有瑕疵了。

*(photo:MyZaker)

人物面部的细节非常真实。

*(photo:MyZaker)

狮头机器人。

*(photo:MyZaker)

机械风的中国龙造型也是细节满满，惟妙惟肖。

*(photo:MyZaker)

很多调用 SD3 API 的 APP 也在 Stability AI 官推下面，用 SD3 生成的图片给自己的 API 打起了广告。

模型核心构架

SD3 的核心技术在于 StabilityAI 开发的 MMDiT 技术。

*(photo:MyZaker)

模型使用三种不同的文本嵌入器（两个 CLIP 模型和 T5）来编码文本表示，并使用改进的自动编码模型来编码图像 token。

而这个构架的核心，采用的是和 Sora 一样的 DiT 技术。

由于文本和图像嵌入在概念上完全不同，因此他们对这两种模式使用两组独立的权重。如上图所示，这相当于每种模态都有两个独立的转换器，但是将两种模态的序列连接起来进行注意力操作，这样两种表征都可以在自己的空间中工作，同时考虑另一种表征。

在这样的特殊安排之下，MMDiT 的性能超越了传统的 UViT 或者 DiT 本身。

通过使用这种方法，信息可以在图像和文本标记之间流动，以提高生成的输出中的整体理解和排版。这种架构还可以轻松扩展到视频等多种模式。

得益于 SD3 改进的提示跟随功能，模型能够创建专注于各种不同主题和质量的图像，同时对图像本身的风格保持高度灵活性。

*(photo:MyZaker)

Stable Diffusion 3 API 发布，号称性能碾压碾压 Midjourney DALL · E，普通用户免费用

文｜李然

编辑｜苏建勋

模型核心构架

相关内容

华为公布中国政企业务成绩单，明年目标是增长30%
全球新闻 • 财经贸易 科技创新 • • XiuWenTang(-43)

那斯达克系统故障波及数千笔股票订单
全球新闻 • 财经贸易 科技创新 • • CathyHuang(-41)

跑酷、后空翻、跨栏样样精通波士顿动力机器人最新视频曝光
全球新闻 • 科技创新 • • CathyHuang(-69)

专栏 | 网络博弈: 微信禁文《站出来，阻击网络文革！》说了什么
全球新闻 • 时事政治 互联网 • • WendyWu(-20)

瑞幸咖啡利好消息不断，已经绝地求生了？
全球新闻 • 财经贸易 互联网 • • CathyHuang(-96)

Stable Diffusion 3 API 发布，号称性能碾压碾压 Midjourney DALL · E，普通用户免费用

文｜李然

编辑｜苏建勋

模型核心构架

相关内容

华为公布中国政企业务成绩单，明年目标是增长30% 全球新闻 • 财经贸易 科技创新 • • XiuWenTang(-43)

那斯达克系统故障 波及数千笔股票订单 全球新闻 • 财经贸易 科技创新 • • CathyHuang(-41)

跑酷、后空翻、跨栏样样精通 波士顿动力机器人最新视频曝光 全球新闻 • 科技创新 • • CathyHuang(-69)

专栏 | 网络博弈: 微信禁文《站出来，阻击网络文革！》说了什么 全球新闻 • 时事政治 互联网 • • WendyWu(-20)

瑞幸咖啡利好消息不断，已经绝地求生了？ 全球新闻 • 财经贸易 互联网 • • CathyHuang(-96)

华为公布中国政企业务成绩单，明年目标是增长30%
全球新闻 • 财经贸易科技创新 • • XiuWenTang(-43)

那斯达克系统故障波及数千笔股票订单
全球新闻 • 财经贸易科技创新 • • CathyHuang(-41)

跑酷、后空翻、跨栏样样精通波士顿动力机器人最新视频曝光
全球新闻 • 科技创新 • • CathyHuang(-69)

专栏 | 网络博弈: 微信禁文《站出来，阻击网络文革！》说了什么
全球新闻 • 时事政治互联网 • • WendyWu(-20)

瑞幸咖啡利好消息不断，已经绝地求生了？
全球新闻 • 财经贸易互联网 • • CathyHuang(-96)