OpenAI在美遭遇集体诉讼 被控「窃取私人数据」

  • 发表时间:
    , 文章来源:CnYes, 新闻取自各大新闻媒体,新闻内容并不代表本网立场

    OpenAI在美遭遇集体诉讼 被控「窃取私人数据」(图:shutterstock)(photo:CnYes)
    OpenAI在美遭遇集体诉讼 被控「窃取私人数据」(图:shutterstock)(photo:CnYes)

    一群匿名人士在一项集体诉讼中声称,ChatGPT 的开发商 OpenAI 公司为了训练其大型语言模型,窃取了「大量个人数据」,来让其聊天机器人能够复制人类语言。

    律师们在周三向美国加州北区地方法院提起的长达 157 页的诉状中写道:「尽管制定购买和使用个人讯息的协议,但被告採取了不同的方法:窃盗。」

    这些匿名人士指责 OpenAI 从互联网上秘密抓取 3000 亿字词,窃听了「书籍、文章、网站和贴文,包括未经同意获得的个人讯息」,违反了隐私法。

    克拉克森律师事务所 (Clarkson Law Firm) 在周三向旧金山联邦法院提交的诉状中表示,OpenAI 爬行网路以收集大量数据,其中包括从社群媒体网站获取的大量数据。 诉讼称,OpenAI 的专有人工智慧个人数据语料库 WebText2,从 Reddit 贴文及其连接的网站中抓取了大量数据。

    他们根据受伤害的个人类别估计有数百万人,提出了 30 亿美元的潜在损失。

    原告指控,OpenAI 广受欢迎的聊天机器人程序 ChatGPT 和其他产品,都是在未经原告许可的情况下,从包括儿童在内的数亿互联网用户那里获取私人讯息。

    诉讼寻求暂时冻结 OpenAI 产品的商业访问和商业开发,直到该公司实施更多法规和保障措施,包括允许人们选择退出数据收集,并防止其产品「超越人类智能并伤害他人」为止。

    除了 OpenAI 之外,主要支持者微软 (MSFT-US) 也被列为被告。

    原告的身份仅借由姓名首字母、职业和状态来识别,他们的律师表示,这是为了「避免侵入性审查,以及任何潜在危险的强烈抵制」。

    北京大成律师事务所高级合伙人邓志松表示,ChatGPT 运行的原理借由「阅读」大量现有文本,并学习词语在上下文中的出现方式,来预测可能出现在回应中的最可能的词语。此前,OpenAI 方面声称不会「主动」收集个人资讯用于模型训练,但各管道训练资料可能「偶然」包含个人资讯。

    邓志松分析,未经用户许可擅自抓取并利用其个人资讯,可能涉嫌违反所在司法辖区的个人资讯保护法律法规,并构成民事侵权。

    不过,专家也指出,目前「窃取」暂时仍是原告方的一面之词,还不能据此贸然将 OpenAI 所实施的个人资讯收集活动定性为违法行为。