OpenAI 再惹祸？个人信息合规成“锁喉”难题？

01 语料库数据的收集与使用

根据数据来源，大致可将涉个人信息的数据分为涉及个人信息的语料库数据以及涉个人信息数据的用户上传的数据。

生成式人工智能对数据具有高依赖性，需要大量的数据满足训练要求。这决定了，生成式人工智能往往会主动收集、处理公开和非公开的数据，预训练数据的规模通常可以达到数十亿甚至上百亿个参数量。若其中存在个人信息，根据《个人信息保护法》第27条的规定，“个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息；个人明确拒绝的除外。个人信息处理者处理已公开的个人信息，对个人权益有重大影响的，应当依照本法规定取得个人同意。”《生成式人工智能暂行管理办法》第7条也强调，“生成式人工智能服务提供者（以下称提供者）应当依法开展预训练、优化训练等训练数据处理活动，遵守以下规定：……（三）涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形。”然而，由于数据库数据规模过于庞大，逐一获得信息主体的同意这一要求难以实现。

既然获取信息主体的同意这一条路难以走通，那直接把数据库中的个人信息删掉可以吗？这也存在困难。一方面，当前缺乏行之有效的个人信息清洗算法，存在一定的技术悖论；另一方面，数据库规模之巨大导致人工清洗数据的成本极高，且存在个人信息二次泄露的风险。有研究指出，基于命名实体识别的数据清理技术，对临床健康数据的召回率为97%(姓名)和80%(护理单元编号)。换言之，在语料库、数据库中存在个人信息的情况下，在训练阶段，个人信息的清洗效果较差，科技公司存在合规风险。飒姐团队提醒，科技公司在使用语料库数据进行训练时，应当尽量选择不包含个人信息的数据集，同时尽可能提高识别算法的准确性，对识别的个人信息进行匿名或裁剪。在审核端采取机器过滤机制加人工审核机制，也是利大于弊的合规措施。

02 用户上传信息的收集与使用

用户上传数据可分为“用户积极投喂的数据”和“用户消极投喂的数据”。所谓用户积极投喂的数据，系指用户为获得生成式人工智能的反馈而上传的特定数据。所谓用户消极投喂的数据，系指用户为使用含生成式人工智能算法的应用程序或设备的其他功能而上传的数据。

生成式人工智能的运行通常需要用户主动“投喂”一定的数据，再基于算法进行分析、反馈。在这一过程中，人机交互数据将被加以记录、存储和分析，并可能成为模型算法更迭训练的数据。但在服务提供者未尽提示义务、用户缺乏安全意识等语境下，用户投喂的数据中很可能包含用户个人外貌、住址、联系方式等个人信息。生成式人工智能复杂的服务模式与多元的应用场景加剧了这一风险。随着数字技术的发展，用户的身份与其联系方式、人脸数据、指纹等深度绑定，而生成式人工智能常会收集到大量个人信息。例如，某AI公司的知名聊天机器人程序应用范围涵盖教学、科研、金融、传媒和娱乐等众多领域，用户与其进行的聊天记录中包含大量敏感信息，如个人身份、偏好、习惯等。这些数据若落入不法之手，将导致个人隐私遭到侵犯、身份盗用、金融欺诈等风险，对用户造成直接损害。

此外，生成式人工智能的使用场景广泛，常被嵌入各大应用程序乃至设备中。例如，今年1月，某浏览器已宣布引入3大生成式AI能力，某公司已推出全球首款搭载生成式人工智能技术的智能手机。即使未使用生成式人工智能技术，用户在使用相关应用程序乃至设备时，不可避免地会将产生、上传数据，而数据中很可能存在涉嫌个人信息的内容。

《生成式人工智能暂行管理办法》第十一条规定，“提供者对使用者的输入信息和使用记录应当依法履行保护义务，不得收集非必要个人信息，不得非法留存能够识别使用者身份的输入信息和使用记录，不得非法向他人提供使用者的输入信息和使用记录。提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。” 《个人信息保护法》《儿童个人信息网络保护规定》等法律法规对数据存储的期限制定了强制性规定。基于此，用户主动投喂的涉嫌个人信息的这类信息是否可以被服务提供者记录、存储以及存储的期限是有待商榷的。

同时，这类信息是否能被用于训练算法也存在一定争议。《生成式人工智能暂行管理办法》第7条强调，“生成式人工智能服务提供者（以下称提供者）应当依法开展预训练、优化训练等训练数据处理活动，遵守以下规定：……（三）涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形。”初次使用获得的用户授权不足以覆盖算法训练阶段数据使用的要求，科技企业必须有更明确的使用授权，或在符合法律法规的规定的其他情形的情况下，才能利用这类数据，否则可能会触犯民法、行政法甚至刑法的相关规定。但是，即使获得了用户的明确授权，生成式人工智能的运行阶段存在巨大的数据泄露风险，科技公司只有在确保数据的安全性的情况下，才可对涉个人信息数据加以利用。

为了提高生成质量，许多科技公司会想尽办法丰富数据保有量，提高数据聚集度。例如，某AI公司的《隐私政策》第2条标明，“我们可能会对个人信息进行汇总或去标识化处理，使其不再用于识别您的身份，并使用此类信息来分析我们服务的有效性、改进和添加我们服务的功能、进行研究和其他类似目的。”这是一种可行的方案，但是，根据“知情同意”原则，服务提供者承担告知义务，即服务提供者需将被收集的数据对象、数据用途和可能存在的风险等提前向信息主体说明，并在取得信息主体同意后才能实施收集行为。同时，科技公司应当为用户提供拒绝使用其个人信息的选项，而不应当将该条款变为僵硬的、强制性的通知条款。此外，根据“最小必要”原则，科技公司收集的涉个人信息应当采取与实现目标相关的、影响最小的方式，明确、具体地收集用户的个人信息。

03 写在最后

与传统人工智能相比，生成式人工智能往往有更强的信息收集主动性与更高的数据滥用风险。生成式人工智能需要持续地通过大规模的语料库、数据集来强化上下文理解能力，以不断升级和优化自身，在包括数据收集、数据存储、数据处理和数据生成的生成式人工智能运行各阶段内，不可避免地会涉及诸多个人信息、产生诸多法律与合规风险。而大数据时代个人信息的内涵与边界的模糊化、法律法规的滞后性与对技术成果的追求，也导致部分科技公司忽视了此类风险。飒姐团队提醒，合规是行业健康发展的前提与保障，追求成功的同时切勿对法律红线掉以轻心。