“大模型”激战正酣，“小模型”在开辟新战场

AI 模型军备竞赛风起云涌，各家大模型打得火热的同时，小模型竞争开辟出新战场。

本周多家公司在 " 小模型 " 方面开疆拓土，试图证明其模型可以事半功倍。周一，法国初创公司 MistralAI 公布的开源模型 Mixtral 8x7B 引起轰动，该模型不仅性能比肩 GPT-3.5，另一大优势是规模小到足以在一台电脑上运行。

周二，微软亮出了小模型大招，发布 27 亿参数规模的小语言模型 Phi-2，在部分基准测试中超过谷歌的 Gemini Nano 2，可以在笔记本电脑、手机等移动设备上运行。

毫无疑问，规模较小的模型可以降低了大规模运行人工智能应用的成本，同时极大地拓宽了生成式 AI 技术的应用范围。

此外，事关模型能力强大与否的关键——强化学习（RL）技术最新的优化进展也引起业界的关注。

MistralAI 的小模型 Mixtral 8x7B 为开源模型，其规模参数相对较小，而能力却能达到 GPT-3.5 的水平，迅速引起了业内研究人员的关注。

Mixtral 8x7B 之所以叫 Mixtral 8x7B，是因为它属于稀疏模型，将各种为处理特定任务而训练的较小模型组合在一起，从而提高了运行效率。

性能方面，Mixtral 表现优于 Llama 2 70B，推理速度提高了整整 6 倍；在大多数标准基准测试上与 GPT-3.5 打平，甚至略胜一筹。

成本方面，由于 Mixtral 的参数较小，所以其成本也更低。与 Llama 2 相比，Mixtral 8x7B 表现出自己高能效的优势。

值得一提的是，MistralAI 刚刚完成 4.15 亿美元融资，最新估值已经冲破 20 亿美元，在短短 6 个月中增长了 7 倍多。

本周另一家登场的小模型是微软自制模型 Phi-2，Phi-2 的参数只有 27 亿，小到足以在手机上运行。该模型在精心挑选的数据集上进行了训练，数据集的质量足够高，即使手机的计算能力有限，也能确保模型生成准确的结果。

从性能表现看，Phi-2 在 Big Bench Hard（BBH）、常识推理、语言理解、数学和编码基准测试中，其平均性能得分已经超过 70 亿、130 亿参数规模的 Mistral 和 Llama 2，在部分基准测试中超过谷歌的 Gemini Nano 2。

目前微软正发力小模型的布局，分析指出，微软与 OpenAI 的紧密合作，使得 GPT 模型的表现在大模型市场一骑绝尘，再加上微软参数规模更小的 Phi 系列，能进一步抢占开源模型长尾市场。

AI 领域的另一大进展则是强化学习技术的优化，强化学习是一种基于 " 奖励期望行为 " 和 " 惩罚不期望行为 " 的机器学习训练方法。许多人猜测，OpenAI 的模型之所以表现如此出色，主要是因为它使用了人类来告诉模型哪些结果是好的，哪些结果是坏的，也就是所谓的 " 人类反馈强化学习 "（RLHF）。

根据强化学习初创公司 Adaptive 的联合创始人 Julien Launay 介绍，AI 缺少如何将这些知识整合在一起的规则。例如，一个看似简单的问题 " 我的 iPhone 掉了会怎样？" 需要模型理解 iPhone 是什么？物体掉落时会发生什么？iPhone 很贵，掉了我会很伤心以及所有这些想法之间的关系。强化学习在某种程度上为模型提供了自己的知识图谱，告诉模型某些信息是如何关联的。

不过，强化学习远非完美，执行起来成本也很昂贵，业内期待更便宜、更有效的训练方案。

这一点很重要，因为它意味着小型开发者可能很快就能利用，以前只有大型模型提供商才能使用的训练技术来改进他们的模型。

近期，一家利用私人数据开发定制模型的初创公司 Contextual AI 开发了一种方法，只需要人类发出信号，也许是在聊天机器人上点击，就能知道模型的反应是可取的还是不可取的。这种方法改进了传统的、更加主观的做法，

即要求人类从多个可能的回应中选出他们认为最佳的模型回应。Contextual 将这种新方法命名为 "Kahneman-Tversky Optimization"，以纪念这两位著名的经济学家。

Contextual AI 研究员 Kawin Ethayarajh 指出，研究人员还利用像 OpenAI 的 GPT-4 这样更大、更复杂的模型，对更小、能力更弱的模型进行训练。就目前而言，强化学习仍然是一个复杂而困难的过程，但像这样的新发现有望让处于劣势的开发者在与 OpenAI 的竞争中占得先机。

“大模型”激战正酣，“小模型”在开辟新战场

毫无疑问，规模较小的模型可以降低了大规模运行人工智能应用的成本，同时极大地拓宽了生成式 AI 技术的应用范围。

不过，强化学习远非完美，执行起来成本也很昂贵，业内期待更便宜、更有效的训练方案。

近期，一家利用私人数据开发定制模型的初创公司 Contextual AI 开发了一种方法，只需要人类发出信号，也许是在聊天机器人上点击，就能知道模型的反应是可取的还是不可取的。这种方法改进了传统的、更加主观的做法，

相关内容

美中交恶去年1400华裔科学家出走
全球新闻 • 科技创新 美中关系 • • WendyWu(-100)

特斯拉扮推手第三代半导体材料崛起
全球新闻 • 科技创新 • • WendyWu(-128)

DeepMind 为 AI 打造出一个「元宇宙」，XLand 到底有多牛？
全球新闻 • 科技创新 互联网 • • CathyHuang(-88)

首例！美团队助ICC调查俄战争罪用「区块链」技术加密物证
全球新闻 • 军情动态 科技创新 • • XiuWenTang(-128)

手握“舱行泊一体”王牌的亿咖通，如何全面打造智能化生态？
全球新闻 • 科技创新 • • XiuWenTang(-40)

“大模型”激战正酣，“小模型”在开辟新战场

毫无疑问，规模较小的模型可以降低了大规模运行人工智能应用的成本，同时极大地拓宽了生成式 AI 技术的应用范围。

不过，强化学习远非完美，执行起来成本也很昂贵，业内期待更便宜、更有效的训练方案。

近期，一家利用私人数据开发定制模型的初创公司 Contextual AI 开发了一种方法，只需要人类发出信号，也许是在聊天机器人上点击，就能知道模型的反应是可取的还是不可取的。这种方法改进了传统的、更加主观的做法，

相关内容

美中交恶 去年1400华裔科学家出走 全球新闻 • 科技创新 美中关系 • • WendyWu(-100)

特斯拉扮推手 第三代半导体材料崛起 全球新闻 • 科技创新 • • WendyWu(-128)

DeepMind 为 AI 打造出一个「元宇宙」，XLand 到底有多牛？ 全球新闻 • 科技创新 互联网 • • CathyHuang(-88)

首例！美团队助ICC调查俄战争罪 用「区块链」技术加密物证 全球新闻 • 军情动态 科技创新 • • XiuWenTang(-128)

手握“舱行泊一体”王牌的亿咖通，如何全面打造智能化生态？ 全球新闻 • 科技创新 • • XiuWenTang(-40)

美中交恶去年1400华裔科学家出走
全球新闻 • 科技创新美中关系 • • WendyWu(-100)

特斯拉扮推手第三代半导体材料崛起
全球新闻 • 科技创新 • • WendyWu(-128)

DeepMind 为 AI 打造出一个「元宇宙」，XLand 到底有多牛？
全球新闻 • 科技创新互联网 • • CathyHuang(-88)

首例！美团队助ICC调查俄战争罪用「区块链」技术加密物证
全球新闻 • 军情动态科技创新 • • XiuWenTang(-128)

手握“舱行泊一体”王牌的亿咖通，如何全面打造智能化生态？
全球新闻 • 科技创新 • • XiuWenTang(-40)