Gmail 应用 RETVec 可提高对垃圾邮件分类的正确性

  • 发表时间:
    , 文章来源:MyZaker, 新闻取自各大新闻媒体,新闻内容并不代表本网立场

    Gmail、YouTube、Google Play 等应用系统都依赖文本分类模型来识别有害内容,包括钓鱼攻击、不适当的评论内容和垃圾邮件。机器学习模型很难对此类文本进行精准分类,因此攻击者可以使用对抗文本操纵来主动绕过分类器。比如添加不可见的字符、关键字填充等来绕过防护。

    为使文本分类器更加高效,谷歌研究人员开发一种新型多语言的文本向量化器—— RETVec,以帮助模型实现最佳的分类性能和减少计算成本。此外,研究人员还将 RETVec 应用于 Gmail 实际场景。

    使用 RETVec 增强 Gmail 垃圾邮件分类器

    *(photo:MyZaker)

    图 1 基于 RETVec 的 Gmail 垃圾邮件过滤器改进

    近年来,谷歌将 RETVec 广泛应用于谷歌的安全和反滥用应用中以评估其有用性和有效性。用 RETVec 替换 Gmail 垃圾邮件分类器之前使用的文本向量化器可以将垃圾邮件检测准确率在基准上改进 38%,将假阳性减少 19.4%。此外,使用 RETVec 将模型的 TPU 使用减少 83%。

    RETVec 的优势

    RETVec 提出一种新型架构,融合了高度紧凑的字符编码器、增强驱动的训练和度量学习 ( Metric Learning ) 。RETVec 可以应用于不同语言和所有 UTF-8 字符,无需进行文本处理,使得其适用于设备级、网页级和大型文本分类部署。使用 RETVec 训练的模型具有更快的推理速度。

    模型更小因此计算成本和延迟更低,这对大规模应用和设备级模型至关重要。

    *(photo:MyZaker)

    图 2 RETVec 架构图

    使用 RETVec 训练的模型还可以无缝转化为适用于移动和边缘设备的 TFLite,对于 web 应用模型部署,研究人员还提供了 TensorflowJS 层的实现。

    *(photo:MyZaker)

    图 3 使用不同向量化器训练的文本分类模型

    RETVec 是一种新型的开源文本向量化器,用户可以构建更加弹性和高效的服务器端和设备级文本分类器,Gmail 垃圾邮件过滤器使用该模型可以帮助 Gmail 识别和过滤恶意邮件内容。