AI合规看察｜从监管视角看AIGC使用中的数据合规问题

misa2 03-25 4次浏览 0条评论

走出往智库看

生成式AI产品的全球发展正在你追我赶。3月15日，OpenAI 发布多模态预练习大模型 GPT-4，其更具发明力和正确性。不到10天，OpenAI又在今天（24日）公布部分去除ChatGPT无法联网的限制。百度公司则夺下中国市场的头彩，在3月16日公布开启其生成式AI产品“文心一言”的邀请测试。

走出往智库（CGGT）看察到，AIGC（人工智能生成内容）正在给人类社会带来一场深刻的变革，但ChatGPT等AI技术在数据处理过程中存在多重潜在合规风险，如未经授权收集信息、提供虚假信息、侵害个人隐私等等。

AIGC产品如何做好数据合规治理？今天，走出往智库(CGGT)刊发上海赛博网络安全产业创新研究院高级研究员周雪静的文章，供关注人工智能合规治理的读者参阅。

要点

CGGT，CHINA GOING GLOBAL THINKTANK

1、随着人工智能的广泛使用与实践，我国对于人工智能的监管重点也从“发展”扩展到“AI伦理安全”“算法治理”等问题上，虽然针对AIGC专用数据集、算法设计和模型练习的监管仍然有待完美，但整体框架体系已经具备。

2、人机之间的交互所产生的数据，可能被用于未来模型的迭代练习，其中也会涉及大量个人信息。因此，AIGC服务提供者在个人或组织使用使用前，需将这一情形进行事前告知并取得单独赞同。

3、对于大规模练习数据的收集、存储、使用全生命周期进行规范，特别是加强个人信息、重要数据的保护。此外，进一步加强对于练习数据提供商的约束，要求其对于数据来源、数据交易及使用进行全流程安全监测。

正文

CGGT，CHINA GOING GLOBAL THINKTANK

文/周雪静

展开全文

上海赛博网络安全产业创新研究院高级研究员

作为近期科技圈的“顶流”，AIGC（AI Generated Content，人工智能生成内容）并非“新秀”。

AIGC发展历程可以分为3个阶段，以“图灵测试”为代表性事件的早期萌芽阶段（20世纪50年代至90年代中期）、从实验性向实用性转变的沉淀积存阶段（20世纪90年代中期至21世纪10年代中期）、依托生成式对抗网络GAN等技术及算法的快速发展阶段（21世纪10年代中期至今）。

随着AI生成的发展趋势朝着多模态演进，AIGC正在带来新一轮的科技和产业革命。新的机遇下，我国基于丰盛的产业需求和使用场景，既要加快攻关要害技术、鼓励发展创新使用，同时也要推动安全治理前置，在全球科技变革之际，强占赛道。

AIGC风险图谱及监管体系

新兴技术都会经历从野蛮生长到安全合规的过程，AIGC同样不可避免。当前，AIGC所带来的安全风险成为重点议题。

作为AI使用发展的重要分支，AIGC的风险既包括AI伦理风险，也包括其特定算法使用所带来的新型风险，比如更多的隐私保护忧患、智能代替人工造成的就业担忧、算法对于市场竞争带来的不公平以及著作权侵权等。

聚焦AIGC存在的风险，我国现有的监管体系已经成形。2017年以来，我国先后发布一系列人工智能产业促进政策，推动人工智能技术创新和产业发展。

随着人工智能的广泛使用与实践，我国对于人工智能的监管重点也从“发展”扩展到“AI伦理安全”“算法治理”等问题上，虽然针对AIGC专用数据集、算法设计和模型练习的监管仍然有待完美，但整体框架体系已经具备。

从人工智能监管部门来看，我国显现多头监管的现状，有关部门包括国家市场监督治理总局、国家互联网信息办公室、工业和信息化部、科技部等。

在法律法规层面，一方面是通过专门性综合性立法对网络运营者在使用人工智能技术的义务和责任进行规范，另一方面则是切实聚焦到人工智能领域的算法、模型、技术，进行具体规范。

2021年，先后发布的《关于加强互联网信息服务算法综合治理的指挥意见》《互联网信息服务算法推举治理规定》从算法治理的角度，对算法使用过程中的安全监测、算法评估以及算法推举对个人信息主体带来的影响等内容进行规范。

依据《规定》，算法推举服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统（已经上线）进行备案（包括提供服务提供者的名称、服务形式、使用领域、算法类型、算法自评估报告），且完成备案后需在对外提供服务的网站、使用程序等显著位置标明备案编号等信息，目前已有百余家企业完成备案。

2022年，国家网信办、工信部、公安部联合发布的《互联网信息服务深度合成治理规定》则聚焦“深度合成技术”“深度合成服务”。依据定义，深度合成技术，是指利用深度学习、虚拟现实等生成合成类算法制造文本、图像、音频、视频、虚拟场景等网络信息的技术。这一定义与AIGC的定义（人工智能生成文本/图像/音频/视频等多模态内容）高度吻合，因此该规定可以视为规范AIGC技术及服务的重要参考。此外，在这一规定中，对于深度合成服务提供者、深度合成服务使用者、深度合成服务技术支持者三个主体的责任义务也作了进一步明确。

整体来看，虽然国内外暂无直接以AIGC为要害词的立法，但鉴于AIGC以人工智能技术为基础，是人工智能使用发展的一个分支，因此现有的人工智能监管体系也基本适用于AIGC，可作为重点参考。

人工智能和隐私的要害性重叠

如上所述，多个法律领域对于AIGC相关使用都有一定要求，而在隐私保护领域，一方面，AI相关的可阐明性、公平性、安全性和问责制在隐私法律法规中也有所体现；另一方面，AI成熟度的提高也离不开组织在隐私问题上的努力。可以说，AIGC发展路径下，AI和隐私保护有着要害性的重叠。

目前，我国对于AIGC涉及的隐私问题，主要可以参考《个人信息保护法》《数据安全法》以及《数据出境安全评估方法》等法律法规。

AIGC数据处理场景及对应的隐私风险

以ChatGPT为例，作为人工智能生成内容的热门使用，ChatGPT在模型练习阶段、使用运行阶段涉及海量数据的处理。

模型的成熟度以及生成内容的质量，都与练习数据高度相关。与此同时，练习数据集所包含的隐私风险也将映射到生成内容上。

阶段1：模型练习阶段

数据练习的处理流程包括：数据摘集、数据清洗、数据标注、模型练习、模型验证、实现目的。所谓练习数据，是指“用于练习 AI 模型，使其做出正确推断的已标注数据/基准数据集”。

练习数据的风险集中在数据摘集阶段，即数据处理者在处理练习数据中的个人信息前，是否尽到告知赞同的基本责任，确保个人信息处理的合法性、正当性、必要性。数据清洗阶段和数据标注阶段，是将收集到的数据进一步处理成机器可读、便于练习的练习数据，这一阶段对于数据的审核和梳理，也是进一步缓释练习数据风险的弥补措施，即审核数据集中是否包含大量可识别的个人信息或敏锐个人信息。

当前，练习数据来源可以分为两类，一是网络数据，二是合成数据。

网络数据的来源包括：

①摘集物理世界的个人信息从而形成网络数据，常见的是动作捕捉（Motion Capture）数据，即通过实时跟踪和笔录自然人（被测试者）的身体运动信息、面部表情，将其转化为网络数据，用于虚拟人生成等领域。由于动捕数据包含个人身体动作、姿势和行为等信息，可以用于分析个人身体特征，因此也是个人信息。针对这一数据类型，主要通过合同方式，基于个人信息主体的授权赞同，实现合法合规处理。

②直接摘集互联网上的数据，一方面是直接获取开放的公共数据，另一方面是通过爬虫方式搜集网络数据。前者参考《上海市数据条例》，公共数据不包含个人信息、个人隐私，风险低；后者使用技术手段获取网络数据，考虑到爬虫所爬取的内容类型（如包含大量个人信息及商业数据等）及其对于目的业务和站点所带来的影响，可能存在违法风险。

③数据交易，通过B2B交易的方式向数据提供商购买数据，或依托于地方数据交易所进行场内交易。这一数据源的责任主要落实在数据交易中介、数据提供方，要求其对于所交易的数据中的个人信息进行保护。

当前，由于练习数据需求浩大，以GPT-3模型为例，其在练习阶段使用了多达45TB的数据。近几年，随着AI生成技术的发展，可以推测有效网络数据的增长将跟不上练习模型所需数据量的增速，与此同时数据获取的成本也不断上涨，因此合成类数据（Synthetic Data）开始进进市场。

以人脸数据为例，假如将一个自然人所能提供的人脸数据设为1，那么通过合成、编辑等功能，将基础的人脸数据进行调整（五官或表情），可以实现10或者100个人脸数据，大大降低练习数据的成本和获取难度。合成数据也需进行个人信息保护，依据《互联网信息服务深度合成治理规定》，在使用生物识别信息编辑功能前，依法告知被编辑的个人，并取得其单独赞同。

阶段2：AIGC使用运行阶段

AIGC使用部署后，可以实现人机之间的交互。用户在输进页面填写信息，从而获得人工智能生成的内容，比如一段文字、一幅图像、一个蛋白质三维结构。当数以亿计的使用者都在实时与AIGC进行交互时，使用者输进的数据往了哪里？人工智能输出的数据又会包含什么风险？

以境外使用为例，当中国境内使用者在输进页面填进信息后，信息会传输至服务提供者的境外所在地或境外数据中心，再由使用反馈回复。这一交互过程中，AIGC主要涉及：

INVOLVE

1、个人存在将（敏锐）个人信息传输至AIGC的情状，AIGC是否针对个人信息的收集、存储进行事前告知赞同？

2、组织出于数据分析、信息统计等目的，存在将其收集的一定规模的（敏锐）个人信息（比如包含姓名、电话等信息的员工信息表）传输至AIGC的情状，是否构成事实上的数据出境？

3、AIGC输出的内容，其中是否可能因为练习数据的问题，导致仍然存在可识别或可再识别的个人信息，即AIGC的技术支持者和服务提供者造成个人信息泄露的情形？

阶段3：AIGC模型再练习阶段

人机之间的交互所产生的数据，可能被用于未来模型的迭代练习，其中也会涉及大量个人信息。因此，AIGC服务提供者在个人或组织使用使用前，需将这一情形进行事前告知并取得单独赞同。

综合AIGC数据处理过程中的3个主要情形，围绕隐私问题，可以依循现有的个人信息保护相关规定，不过仍然需要针对AIGC（人工智能）全流程的个人信息保护的综合性立法，从而促进产业安全合规发展。

AIGC发展及合规意见

往年年底以来，中共中心、国务院印发“数据二十条”、《数字中国建设整体布局规划》，国务院机构改革方案提出成立国家数据局、重新组建科学技术部。一系列密集的行动透露出我国将“数据要素给予”“数据安全治理”的重要程度再度提升的信号。

基于“鼓励AIGC产业创新发展，同时在发展中合规”的目的，拟对产业发展提出几点意见：

1.在规范主体上，构建AIGC服务提供者（提供使用或服务）、技术支持者（提供算法等人工智能技术）、服务使用者（使用AIGC的个人或组织）三方权责机制。

2.在规范内容上，基于现有的算法及深度合成内容监管基础，进一步围绕AIGC形成综合性立法。一是依据算法使用场景（如生物医疗领域、自动驾驶领域等不同领域），二是依据生成内容的类型（文本/图像/三维模型/音频/视频/代码等），依次形成AIGC风险分级分类治理体系，并对涉及人脸等敏锐个人信息的高风险领域，定期开展数据安全能力评估。

3.实现练习数据全生命周期治理。对于大规模练习数据的收集、存储、使用全生命周期进行规范，特别是加强个人信息、重要数据的保护。此外，进一步加强对于练习数据提供商的约束，要求其对于数据来源、数据交易及使用进行全流程安全监测。

4.促进数据要素流转交易。基于AIGC使用场景继续释放需求，需加快数据给予，一方面推动数据上链托管、加快场内场外数据交易流转，另一方面可以针对特定练习数据需求，有条件开放对应公共数据。

5.鼓励发展合成数据产业。出于提升数据多样性、提高练习数据质量，降低数据合规成本、模型练习成本的考虑，加快发展合成数据，包括生物可识别信息数据（用于虚拟人练习的表情、动作、声音的多模态数据）、文字/图像等非结构化数据（用于字体设计、视觉设计的数据）。

来源：赛博研究院

免责声明

本文仅代表原作者看点，不代表走出往智库立场。

四季合合

转载：名家86副高清山水画！随时看看临摹财通证券:合规总监孔万斌正式履职