首页 > 资讯 > > 正文

最新资讯:OpenAI被指控偷窃数据?数据安全成大模型产品“阿克琉斯之踵”

来源:21世纪经济报道 2023-06-30 07:34:28

“尽管制定了购买和使用个人信息的协议,但被告采取了不同的方法:窃取。”近日,一批匿名人士以此为理由,向OpenAI,以及其投资方之一的微软公司发起集体诉讼。

起诉书称,OpenAI从互联网上窃取了3000亿个单词,它们来自“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。


【资料图】

目前这些指控仍是一面之词。不过,这已经不是这家公司第一次陷入数据安全、个人信息泄露相关的指控了。

OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息,以及是否有效识别并剔除其训练数据来源中‘偶然’包含的个人信息。可能是该起诉讼的争议焦点所在。”北京大成律师事务所高级合伙人邓志松表示。

以大模型原理构建的生成式人工智能产品,是算力与数据加持下的“暴力美学”,数据是门槛,语料库海量数据存在高度的数据合规风险。拥有1亿用户、数十亿访问量的ChatGPT因为“树大”其问题首当其冲,但以数据为基石的大模型,数据安全问题正变得越来越重要,甚至可能成为产品的“阿克琉斯之踵”。

AI新秀变“数据小偷”?

根据ChatGPT的开发者OpenAI提供的信息,ChatGPT的三个主要信息来源是互联网上的公开信息、从第三方处通过许可获取的信息以及用户或模型训练者提供的信息(如用户与ChatGPT的聊天记录)。

这份将近160页的起诉书声称,OpenAI 秘密从互联网上窃取了 3000 亿个单词,窃听了“书籍、文章、网站和帖子——包括未经同意获得的个人信息”。

具体而言,该集体诉讼的原告认为,为了赢得“人工智能军备竞赛”,OpenAI从ChatGPT的交互对话以及集成ChatGPT的应用程序中“收集、存储、跟踪、共享和披露”数百万人的个人信息,包括产品详细信息、帐户信息、姓名、联系方式、登录凭据、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、使用数据、分析、cookie、搜索和其他在线活动。

原告认为,此举违反了服务协议条款以及州和联邦的隐私和财产法。起诉书指出,这一数据窃取行为的受害人预计有数百万,潜在损失达 30 亿美元。原告诉求则是,要求法院暂时冻结 OpenAI 产品的商业访问和进一步开发。

邓志松告诉21世纪经济报道记者,ChatGPT运行的原理通过“阅读”大量现有文本并学习词语在上下文中的出现方式来预测可能出现在回应中的最可能的词语。此前,OpenAI方面声称不会“主动”收集个人信息用于模型训练,但各渠道训练数据可能“偶然”包含个人信息,人工智能模型可能会从中了解如何在回应用户时正确使用人名、地址等信息,同时它们坚称这些信息不会被用于建立用户画像、广告推广等商业用途。

“OpenAI是否按照其隐私政策合法合理地收集并利用用户个人信息,以及是否有效识别并剔除其训练数据来源中‘偶然’包含的个人信息。这两个问题可能是该起诉讼的争议焦点所在。”邓志松分析,未经用户许可擅自抓取并利用其个人信息,可能涉嫌违反所在司法辖区的个人信息保护法律法规,并构成民事侵权。

不过,受访专家也指出,目前“窃取”暂时仍是原告方的一面之词,还不能据此贸然将OpenAI所实施的个人信息收集活动定性为违法行为。

如何理解数据“窃取”

综合来看,合规、知情-同意成为这起诉讼的风暴眼。

“第一是信息的来源,尤其是训练用的物料是否能说得清、是否合规;第二,在与用户交互的过程中是否涉及到了用户的隐私信息。”数安信CTO崔维友也指出,“窃取”很可能是在用户没有充分知情的情况下拿到了用户的个人数据。

“尽管 OpenIAI对其数据收集和做法 ‘绝对保密’,但就我们了解,该公司使用(至少)5个不同的数据集来训练ChatGPT。”根据起诉书陈述,OpenAI使用的数据集中有部分数据的抓取并不合规。

以WebTex2这一OpenAI "专有 "人工智能语料库为例。原告指出,为了构建这一语料库,OpenAI抓取了社交媒体网站Reddit上所有获得至少3个 "喜欢"(在Reddit上被称为 "Karma "投票)的帖子所链接的所有网页,以及Reddit帖子和相关评论。而Reddit中受欢迎的内容除了来自其网站本身,还包括大量来自YouTube、Facebook、TikTok和Instagram等社交媒体的链接。这些链接及与之关联的个人信息在没有通知相关方获得同意的情况下被大量抓取。

值得注意的是,公开资料显示,今年4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。

袁立志指出,当前人工智能大模型训练数据主要有应用存量数据、商业和开放数据、公共互联网数据和用户使用数据等几大来源,而不同的数据源的使用则各有不同优劣。“要做到完全合规,并不容易。”他直言。

数据安全——大模型产品的“必答题”

人工智能发展的突破得益于高质量数据的发展。大模型的最新进展依赖于更高质量、更丰富的训练数据集。如何判断数据收集行为以及留存的数据内容是否合规,已成为当前相关技术发展亟待解决的问题,更是大模型产品未来健康发展的关键。

“虽然ChatGPT表示,存储训练和运行模型所需的数据会严格遵守隐私和安全政策,但在未来可能出现网络攻击和数据爬取等现象,仍存在不可忽视的数据安全隐患。特别是涉及国家核心数据、地方和行业重要数据以及个人隐私数据的抓取、处理以及合成使用等过程,需平衡数据安全保护与流动共享。”南开大学法学院副院长、中国新一代人工智能发展战略研究院特约研究员陈兵说。

大成律师事务所高级合伙人肖飒则强调了AI技术“文本数据挖掘功能”潜藏的合规风险。她表示,该功能不仅可以“主动”搜集和存储数据,并且能在不断的数据处理过程中形成自己的处理模式。若其所搜集的数据(含个人信息)并未取得合法授权,相关的处理活动就可能涉嫌违法违规。

这已经不是ChatGPT第一次陷入数据泄露的风波。今年3月,其Redis 开源库中的错误导致本 ChatGPT 服务中暴露了其他用户的个人信息和聊天标题。在ChatGPT被接连发现意外泄露用户聊天记录后,意大利数据保护局(Garante per la Protezione dei Dati Personali)于3月底宣布将暂时禁用ChatGPT并对该工具涉嫌违反隐私规则展开调查。 加拿大也对OpenAI“未经同意收集、使用和披露个人信息”的投诉进行调查。

但这并不是OpenAI这家公司、ChatGPT这个产品的个例,其暴露出的隐私泄露、存储敏感信息、未授权访问等数据安全问题是大模型产品落地应用后可能普遍面临的问题。

CCIA数据安全工作委员会指出,大模型使用来自互联网的公开文本数据作为预训练数据,这些数据可能包含一些用户的个人信息,这些信息可能被LLM无意中学习和记忆,并在后续的应用中泄露出来。预训练和微调过程中需要对数据进行收集、存储、分析和处理,这些操作可能会侵犯用户的个人信息权利,如知情权、选择权、删除权等。用户可能没有充分的意识和能力来保护自己的个人信息,也没有足够的透明度和监督机制来确保数据处理方遵守相关的法律法规和伦理规范。

并且,由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,这就增加了数据被窃取、篡改、滥用或泄露的风险。

自ChatGPT发布后,中国企业目前已经发布了超70个基础大模型。雨后春笋般的大模型,在接下来商用过程中如何做到数据合规,已经成为每一个产品需要面对的“必答题”。

在袁立志看来,未来,针对不同的数据来源,企业应采取不同手段保证训练数据合规。原有业务的存量数据,如果用以大模型训练,属于变更使用,需要再次得到用户同意;如果爬取互联网公开数据,则需做好数据清理、匿名化等处理,同时注意爬虫技术本身的法律风险;如果购买商用数据或者使用开源数据,则需要企业内做好相关合规审查,保障安全。至于用户使用过程中产生的数据,如与大模型对话的聊天记录,C端数据在事前告知用户获得同意后使用;接入API使用的B端数据,由于与企业高度相关,模型默认不会收集和使用。

合规确实是后发的大模型训练者需要面对的棘手问题。”袁立志坦言,从业者只能参照自身现实情况,选择尽可能安全透明、成本可控的方法。

AI的浪潮不会停歇,如何掌好前行的船舵,在企业生存与合规生产间找到平衡向前,或许已经成为第四次工业革命下的时代命题。

(文章来源:21世纪经济报道)

x
推荐阅读

最新资讯:OpenAI被指控偷窃数据?数据安全成大模型产品“阿克琉斯之踵”

2023-06-30 07:34:28

恒立液压(601100):6月29日北向资金减持104.28万股

2023-06-30 06:19:43

热讯:辽宁港口集团7条内外贸航线集中上线 携多家国际航运巨头拓市场新机遇

2023-06-30 05:44:56

众志成城,赋能外贸企业出海新动力 今日关注

2023-06-30 04:02:51

黎平公安交警关爱“一老一小” 守护平安出行 焦点日报

2023-06-30 03:10:03

华为手机热点资讯怎么关闭_手机热点资讯怎么关闭

2023-06-30 01:00:54

干挂铝板施工图节点_干挂铝板节点图-每日播报

2023-06-29 23:05:25

二级建造师考哪个专业好(二级建造师考哪个专业比较好)|即时

2023-06-29 21:57:22

天天消息!福建社保查询个人账户查询系统_福建社保查询个人账户查询官网

2023-06-29 21:02:20

(高质量发展调研行)每秒有24件快递从这里发出 江苏宿迁打造电商“新高地”

2023-06-29 20:16:13
相关新闻

最新资讯:OpenAI被指控偷窃数据?数据安全成大模型产品“阿克琉斯之踵”

2023-06-30 07:34:28

恒立液压(601100):6月29日北向资金减持104.28万股

2023-06-30 06:19:43

热讯:辽宁港口集团7条内外贸航线集中上线 携多家国际航运巨头拓市场新机遇

2023-06-30 05:44:56

众志成城,赋能外贸企业出海新动力 今日关注

2023-06-30 04:02:51

黎平公安交警关爱“一老一小” 守护平安出行 焦点日报

2023-06-30 03:10:03

华为手机热点资讯怎么关闭_手机热点资讯怎么关闭

2023-06-30 01:00:54

干挂铝板施工图节点_干挂铝板节点图-每日播报

2023-06-29 23:05:25

二级建造师考哪个专业好(二级建造师考哪个专业比较好)|即时

2023-06-29 21:57:22

天天消息!福建社保查询个人账户查询系统_福建社保查询个人账户查询官网

2023-06-29 21:02:20

(高质量发展调研行)每秒有24件快递从这里发出 江苏宿迁打造电商“新高地”

2023-06-29 20:16:13

焦点简讯:韩国停用虚岁引发热议,它从何而来?

2023-06-29 19:32:49

年年卡(03773)委任大华马施云为新核数师 每日时讯

2023-06-29 18:12:31

环球资讯:金融知识融入非遗文化 擦出消保宣教“新火花”——华夏银行长沙分行开展非遗文化专场金融知识普及活动

2023-06-29 17:57:41

【环球速看料】央行:二季度企业家宏观经济热度指数为30.9% 比上季下降3.0个百分点

2023-06-29 17:04:46

天天速递!长线运营能力提升,多家券商看好三七互娱研运AI应用远期优势

2023-06-29 16:52:45

世界焦点!用户名怎么填写才能成功_用户名怎么填写例如

2023-06-29 16:00:35

汽车行业半年度策略:行业景气度回升 新能源主旋律明确|全球今亮点

2023-06-29 15:42:34

天天快资讯丨30个试点!哈市启动“数字赋能打造智慧一刻钟便民生活圈”活动

2023-06-29 15:15:55

机构:预估中国汽车品牌2023年在西欧新能源车市场渗透率为9%

2023-06-29 14:43:56

新西兰元对人民币汇率今日最新价格(2023年6月29日)

2023-06-29 15:01:06

三通一达“大逃杀”

2023-06-29 14:12:56

fgo七周年活动内容有哪些 fgo七周年活动奖励介绍 世界最新

2023-06-29 13:52:55

詹姆斯·古恩改造超级英雄电影 将增加体裁多样性

2023-06-29 12:56:39

每日速讯:中国式相亲2什么时候上线

2023-06-29 12:30:57

联想集团携3S全栈产品与方案亮相2023 MWC

2023-06-29 11:59:40

留给雷军“造车”的时间,还有多少?.mp4 全球快看点

2023-06-29 11:19:22

结婚三年男女离婚财产怎样分割

2023-06-29 11:03:50

这份见面礼,狠狠心动了!

2023-06-29 10:57:35

广西壮族自治区南宁市发布高温黄色预警

2023-06-29 10:07:46

每日热议!青岛市民正做午饭,油烟机突然爆炸!还是苏泊尔!

2023-06-29 09:52:38

央视曝光:直播间虚构价格、虚标成交量 法院判决:三倍赔偿-天天时讯

2023-06-29 09:52:36

荆轲新传攻略山洞_荆轲新传攻略

2023-06-29 09:02:54

思享无限美股跌8.69%

2023-06-29 08:55:32

讲好统战故事 画出最大同心圆_简讯

2023-06-29 08:41:02

(受权发布)全国人民代表大会常务委员会关于设立全国人民代表大会常务委员会代表工作委员会的决定|当前快看

2023-06-29 07:57:31

赛尔号迪恩和贾斯汀_赛尔号迪恩的故事

2023-06-29 07:16:16

在宇宙中一共有多少个星系(宇宙中有多少个星系呢)|环球百事通

2023-06-29 06:09:13

云盘影视月光 云盘影视

2023-06-29 05:32:45

文娱用品板块6月28日跌0.71%,华立科技领跌,主力资金净流出6083.05万元 每日聚焦

2023-06-29 04:09:31

有创意的wifi名字字母_有创意的wifi名字 世界今头条

2023-06-29 01:57:01

大科切片试镜——里白茎横切 热消息

2023-06-28 23:17:51

美官员称“苏罗维金可能提前知道瓦格纳兵变”,克宫回应

2023-06-28 22:18:55

世界最新:摩根3 wheeler用了什么发动机

2023-06-28 21:46:45

消息!扎根海岛二十年 青年科学家寻虫踪迹保障粮食安全

2023-06-28 21:04:52

动态:二次元美图分享第191期

2023-06-28 20:20:42

内蒙古银行:取消发行“23内蒙古银行CD029” 热消息

2023-06-28 19:50:30

每日聚焦:《寂静岭2re》肯定牛!爆料哥自信满满相当乐观

2023-06-28 19:21:22

中国女篮去年狂胜韩国队63分!如今加时逆转仅赢6分

2023-06-28 18:46:06

合合信息携手浪潮信息助金融机构降本增效

2023-06-28 18:54:05

热门看点:中汽协:今年前5个月汽车制造业利润同比增加超24%

2023-06-28 18:12:40

动态:创立泛亚洲制片公司,陈可辛要拍全世界都爱看的华语剧

2023-06-28 17:44:56

再下一城!沃尔沃接入特斯拉超充网络,马斯克将“统一”北美? 环球信息

2023-06-28 17:05:05

Firefox Daylight应用评测|环球资讯

2023-06-28 17:02:30

凤形股份(002760)6月28日主力资金净卖出817.84万元

2023-06-28 16:23:10

世界观速讯丨大连劳动社会保障局网_大连劳动社会保障网官网

2023-06-28 15:58:06

世界球精选!湖南首条“跨城”地铁开通运营

2023-06-28 15:32:32

环球动态:火线精英厉害的号真号(火线精英真号好号大全)

2023-06-28 14:53:48

奥海科技:公司户外电源产品的开发、生产、销售等均在有序推进当中

2023-06-28 14:36:35

环球快播:南通海门区2023高校毕业生招聘会网上预定入口

2023-06-28 13:56:56

乐乐茶成立餐饮管理新公司-世界通讯

2023-06-28 13:04:30

投资近2000亿元,现代汽车加码电动化|今日快讯

2023-06-28 12:36:37

为什么说金力永磁(06680)大涨超50%仅是“昙花一现”?

2023-06-28 11:52:38

全球即时:Kindle中国电子书店月底停运!电子书市场,谁来填空?

2023-06-28 11:33:10

2023-06-28 08:41甘肃高速公路最新路况实时播报

2023-06-28 10:43:27

完美家饰布艺

2023-06-28 09:57:16

新浪基金网首页_新浪基金首页

2023-06-28 10:02:44

热门:从两部电话起步到新大楼配备停机坪 深圳市急救中心搬家升级

2023-06-28 09:15:33

天天观速讯丨淘宝大赢家今日答案6月28

2023-06-28 08:42:20

中央网信办:重点整治7方面网上涉未成年人突出问题

2023-06-28 08:12:43

世界观点:海宁皮城06月27日获深股通增持77.76万股

2023-06-28 07:35:01

单式记账法与复式记账法的区别与联系_掌握单式记账法和复式记账法之间的区别与联系

2023-06-28 06:51:37

iPhone 15量产加速 富士康每天招聘千人 当前快报

2023-06-28 05:50:46

核电板块6月27日涨1.77%,国瑞科技领涨,主力资金净流入4366.4万元 环球简讯

2023-06-28 04:10:31

环球视讯!英媒:美国后罗伊时代,非裔女性在面对妊娠致死率激增的情况下无可奈何

2023-06-28 01:58:11

视频丨习近平会见越南总理 焦点热文

2023-06-28 00:46:31

临夏州妇幼保健院在全省技能大赛中获佳绩

2023-06-27 22:36:30

最新资讯:长久物流:目前市场上滚装船运力持续紧俏 车位依然一仓难求 因此价格比较坚挺

2023-06-27 21:45:03

世界快报:科目三示廓灯怎么开启(后位灯和示廓灯的区别)

2023-06-27 20:58:57

四川发布山洪灾害蓝色预警 21个县 (市、区)可能发生山洪灾害_今热点

2023-06-27 20:23:18

23甘国投SCP005今日发布发行公告-环球最资讯

2023-06-27 19:50:26

IPO定价19.99元,锂离子电池电解液溶剂生产商,海科新源申购解读

2023-06-27 19:01:23

每日头条!银行停息挂账申请方法是什么?停息挂账银行会同意吗?|全球视点

2023-06-27 18:41:45

kvl定律是什么_kvl定律

2023-06-27 18:14:10

世界新动态:我市2023年初中学业水平考试昨日开考

2023-06-27 17:38:31

“出差”近一个月 神十六乘组做了哪些工作?

2023-06-27 17:11:21

FF91 交付再“跳票”,贾跃亭的FF仍需融资3亿美元_快消息

2023-06-27 16:56:41

内蒙古自治区发布冰雹橙色预警|每日热闻

2023-06-27 16:32:25

TCL推出第二代Tab 10平板电脑:自带10.36英寸屏幕,支持4G网络

2023-06-27 15:42:07

看点:如此生活 | 晒出你的幸福:淄博守艺人的幸福

2023-06-27 15:20:23

中华烟3字头和2字头有什么区别图片_中华烟3字头和2字头有什么区别

2023-06-27 14:58:06

海南自贸港女性创新创业大赛喊你报名了|要闻

2023-06-27 14:30:07

都在跌,这个板块却涨疯了

2023-06-27 14:07:33

热头条丨【中国网评】诿过他人当不了“解毒药”,只会让美国病入膏肓

2023-06-27 13:04:30

每日电讯报记者Matt Law:“卢卡库不会与切... 天天精选

2023-06-27 12:36:44

男篮U19小组赛收官战:力拼西班牙凶多吉少,16强大概率碰面美国

2023-06-27 12:11:40

人民路街道:强化市容管控为中考护航 天天快资讯

2023-06-27 11:47:53

党建结对共建 助力乡村振兴-世界新动态

2023-06-27 11:02:57

粤港澳大湾区车展新能源车盘点,腾势N7、小鹏G6等

2023-06-27 10:55:24

环球快看点丨6 岁男童游泳后感染“食脑虫”病情严重 专家:无特效药 致死率可达 98%

2023-06-27 10:25:27

周祖翼今日率团访问香港澳门

2023-06-27 10:00:44