“大模型”激战正酣,“小模型”在开辟新战场

  • 发表时间:
    , 文章来源:MyZaker, 新闻取自各大新闻媒体,新闻内容并不代表本网立场

    AI 模型军备竞赛风起云涌,各家大模型打得火热的同时,小模型竞争开辟出新战场。

    本周多家公司在 " 小模型 " 方面开疆拓土,试图证明其模型可以事半功倍。周一,法国初创公司 MistralAI 公布的开源模型 Mixtral 8x7B 引起轰动,该模型不仅性能比肩 GPT-3.5,另一大优势是规模小到足以在一台电脑上运行。

    周二,微软亮出了小模型大招,发布 27 亿参数规模的小语言模型 Phi-2,在部分基准测试中超过谷歌的 Gemini Nano 2,可以在笔记本电脑、手机等移动设备上运行。

    毫无疑问,规模较小的模型可以降低了大规模运行人工智能应用的成本,同时极大地拓宽了生成式 AI 技术的应用范围。

    此外,事关模型能力强大与否的关键——强化学习(RL)技术最新的优化进展也引起业界的关注。

    MistralAI 的小模型 Mixtral 8x7B 为开源模型,其规模参数相对较小,而能力却能达到 GPT-3.5 的水平,迅速引起了业内研究人员的关注。

    Mixtral 8x7B 之所以叫 Mixtral 8x7B,是因为它属于稀疏模型,将各种为处理特定任务而训练的较小模型组合在一起,从而提高了运行效率。

    性能方面,Mixtral 表现优于 Llama 2 70B,推理速度提高了整整 6 倍;在大多数标准基准测试上与 GPT-3.5 打平,甚至略胜一筹。

    成本方面,由于 Mixtral 的参数较小,所以其成本也更低。与 Llama 2 相比,Mixtral 8x7B 表现出自己高能效的优势。

    值得一提的是,MistralAI 刚刚完成 4.15 亿美元融资,最新估值已经冲破 20 亿美元,在短短 6 个月中增长了 7 倍多。

    本周另一家登场的小模型是微软自制模型 Phi-2,Phi-2 的参数只有 27 亿,小到足以在手机上运行。该模型在精心挑选的数据集上进行了训练,数据集的质量足够高,即使手机的计算能力有限,也能确保模型生成准确的结果。

    从性能表现看,Phi-2 在 Big Bench Hard(BBH)、常识推理、语言理解、数学和编码基准测试中,其平均性能得分已经超过 70 亿、130 亿参数规模的 Mistral 和 Llama 2,在部分基准测试中超过谷歌的 Gemini Nano 2。

    目前微软正发力小模型的布局,分析指出,微软与 OpenAI 的紧密合作,使得 GPT 模型的表现在大模型市场一骑绝尘,再加上微软参数规模更小的 Phi 系列,能进一步抢占开源模型长尾市场。

    AI 领域的另一大进展则是强化学习技术的优化,强化学习是一种基于 " 奖励期望行为 " 和 " 惩罚不期望行为 " 的机器学习训练方法。许多人猜测,OpenAI 的模型之所以表现如此出色,主要是因为它使用了人类来告诉模型哪些结果是好的,哪些结果是坏的,也就是所谓的 " 人类反馈强化学习 "(RLHF)。

    根据强化学习初创公司 Adaptive 的联合创始人 Julien Launay 介绍,AI 缺少如何将这些知识整合在一起的规则。例如,一个看似简单的问题 " 我的 iPhone 掉了会怎样?" 需要模型理解 iPhone 是什么?物体掉落时会发生什么?iPhone 很贵,掉了我会很伤心以及所有这些想法之间的关系。强化学习在某种程度上为模型提供了自己的知识图谱,告诉模型某些信息是如何关联的。

    不过,强化学习远非完美,执行起来成本也很昂贵,业内期待更便宜、更有效的训练方案。

    这一点很重要,因为它意味着小型开发者可能很快就能利用,以前只有大型模型提供商才能使用的训练技术来改进他们的模型。

    近期,一家利用私人数据开发定制模型的初创公司 Contextual AI 开发了一种方法,只需要人类发出信号,也许是在聊天机器人上点击,就能知道模型的反应是可取的还是不可取的。这种方法改进了传统的、更加主观的做法,

    即要求人类从多个可能的回应中选出他们认为最佳的模型回应。Contextual 将这种新方法命名为 "Kahneman-Tversky Optimization",以纪念这两位著名的经济学家。

    Contextual AI 研究员 Kawin Ethayarajh 指出,研究人员还利用像 OpenAI 的 GPT-4 这样更大、更复杂的模型,对更小、能力更弱的模型进行训练。就目前而言,强化学习仍然是一个复杂而困难的过程,但像这样的新发现有望让处于劣势的开发者在与 OpenAI 的竞争中占得先机。