被谷歌开除半年后,米切尔加入初创公司 Hugging Face

  • 发表时间:
    , 文章来源:MyZaker, 新闻取自各大新闻媒体,新闻内容并不代表本网立场

    *(photo:MyZaker)

    玛格丽特 · 米切尔 ( Margaret Mitchell ) 于 4 月在华盛顿州西雅图市

    摄影师:Chona Kasinger/ 彭博社

    雷锋网 8 月 25 日消息,谷歌 Ethical AI 人工智能伦理研究小组前负责人玛格丽特 · 米切尔 ( Margaret Mitchell ) 将加入人工智能创业公司 Hugging Face,帮助企业开发确保其算法公平的工具。她因与他人合著的一篇重要论文引起争议而在今年 2 月被谷歌解雇。

    Hugging Face 有何吸引力?

    Hugging Face 是一家总部位于纽约的聊天机器人初创服务商,专注于 NLP 技术,拥有大型的开源社区。尤其是在 github 上开源的自然语言处理,预训练模型库 Transformers,已被下载超过一百万次,github 上超过 24000 个 star。Transformers 提供了 NLP 领域大量 state-of-art 的预训练语言模型结构的模型和调用框架。

    Transformers 最早的名字叫做 pytorch-pretrained-bert,推出于 google BERT 之后。顾名思义,它是基于 pytorch 对 BERT 的一种实现。pytorch 框架上手简单,BERT 模型性能卓越,集合了两者优点的 pytorch-pretrained-bert 吸引了大批的追随者和贡献者。

    其后,在社区的努力下,GPT、GPT-2、Transformer-XL、XLNET、XLM 等一批模型也被相继引入,整个家族愈发壮大,这个库更名为 pytorch-transformers。

    2019 年 6 月 Tensorflow2 的 beta 版发布,Huggingface 实现了 TensorFlow 2.0 和 PyTorch 模型之间的深层互操作性,可以在 TF2.0/PyTorch 框架之间随意迁移模型。之后也发布 2.0 版本 , 并更名为 transformers 。到目前为止,transformers 提供了超过 100+ 种语言的,32 种预训练语言模型。

    Hugging Face 维护着一个存储库,人们可以在储存库中共享 AI 模型并进行合作。这是一个开放源代码平台,目前已经有 5000 多家机构使用,其中包括谷歌、Facebook、和微软。米切尔计划在 10 月份启动,并将首先开发一套工具,以确保用于训练人工智能算法的数据集不存在偏见。目前用于 " 教导 " 模型如何进行预测或确定的数据集,通常因为原始数据的不完整会导致 AI 软件在女性、少数群体成员还有老年人中表现不佳。

    米切尔和 Hugging Face 已经建立了关系,因为为了确保模型的公平性,Hugging Face 建议工程师和科学家在发布项目时使用米切尔在谷歌开发的名为 "Model Cards" 的工具来评估人工智能系统,以揭示优缺点。Hugging Face 首席执行官兼联合创始人克莱门特 · 德兰吉(Clement Delangue)表示,放在 Hugging Face 上的 20000 个项目中,约有四分之一使用了 Model Cards 工具。

    Hugging Face 在其 50 人的员工中还有几位人工智能伦理专家,但 CEO 德兰格(Delangue )计划让所有员工对这项工作负责并努力。

    德兰格表示:" 我们不想建立一个辅助的人工智能伦理团队,而是真正让它成为公司的核心,并确保它真正融入每个人的工作。米切尔不会建立一个由少数人组成,只是偶尔提供咨询的团队。"

    米切尔在一次采访中表示,在用软件评估人工智能系统方面," 要用非常严肃和积极的态度去工作。" 这对我来说是一个非常好的机会,可以帮助模型构建者更好地理解他们正在构建的模型的危害和风险。"

    米切尔在从谷歌离职后表示,她希望在一家规模较小的公司工作,这样可以从一开始就将人工智能伦理纳入在考虑内。她说,在 Hugging Face 中," 已经有很多基本的道德价值观 "。" 很明显,我不必强行插手或改进伦理流程。"

    米切尔究竟为何被解雇?

    米切尔的解雇源于谷歌人工智能伦理研究团队的动荡。去年,谷歌公司就解雇了该团队的另一位联合负责人蒂姆尼特 · 格布鲁 ( Timnit Gebru ) ,原因是她拒绝撤回与米切尔等人共同撰写的一篇论文,这篇文章涉及到对谷歌技术的批评。Gebru 离职后,作为团队剩余负责人的米切尔公开强烈批评谷歌及其管理层,指责谷歌未能认真对待对其人工智能产品的问题,以及解雇 Gebru 的做法,因为 Gebru 是人工智能研究领域为数不多的杰出黑人女性之一。谷歌则表示, Gebru 已辞职,Mitchell 违反了谷歌的行为准则和安全政策。

    谷歌的员工对其处理此事的方式表示愤慨,今年早些时候,对十多名现任和前任员工以及人工智能学术研究人员的采访表明,在两年多的时间里谷歌的人工智能的工作,在处理骚扰、种族主义和性别歧视指控方式上一直陷于争议之中。

    提到这篇论文,大致集中攻击了大规模语言模型(如 BERT)的消极影响,而 BERT 模型是谷歌的王牌 AI 产品之一。

    这篇论文名为《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》。

    据了解,这篇论文基于其他研究人员的工作,参考了 128 篇学术文献,展示了自然语言处理的发展历史与大型语言模型的四大危害,呼吁对语言模型进行更深入的研究。

    这四大危害包括:

    1、训练大型 AI 模型会消耗大量能源;(训练一个 BERT 模型大约会产生 1,438 磅二氧化碳,相当于在纽约与旧金山之间的一次往返航班所产生的碳排放量。)

    2、大型语言模型是基于大量文本进行训练,无法避免偏见的存在,包括那些涉及种族歧视的、具有性别歧视色彩的与其他虐待性的语言;

    3、大型语言模型无法理解语言,但公司由于利益关系会加大这方面的投入,从而带来机会成本;

    4、由于大型语言模型非常擅长模仿真实的人类语言,所以很容易被用来欺骗人类。

    谷歌在许多基础研究上遥遥领先,这带来了大型语言模型的最新爆炸式增长。如果真的如论文所说大规模语言模型 " 危害大于利益 ",而谷歌解雇一系列人员,那对这件事的态度也就不言而喻了。或许从这个角度就能理解米切尔加入 Hugging Face 的原因了。

    (公众号:雷锋网)雷锋网

    参考资料

    https://www.bloomberg.com/news/articles/2021-08-24/fired-at-google-after-critical-work-ai-researcher-mitchell-to-join-hugging-face