大模型运用的合规风险及建议（上）| 数据合规官②-君伦律师事务所

大模型运用的合规风险及建议（上）| 数据合规官②

2024-12-18

前言

今年年初，国家互联网信息办公室、工业和信息化部、公安部针对深度合成服务制定的《互联网信息服务深度合成管理规定》（以下简称“《深度合成管理规定》”）顺利施行，其明确了深度合成服务相关方的义务与主体责任，强化了对互联网信息服务深度合成领域的管理。《AIGC暂行办法》（以下简称“《暂行办法》”）将与《深度合成管理规定》一并为我国大模型领域构建更为完善的治理和监管框架。

本文将对我国监管体系项下的大模型领域的合规要素予以梳理，并重点关注现实环境下，梳理当前落地应用的大模型主要的合规义务。

640 - 2024-12-18T181118.863.jpg

一、大模型的概念

首先先让我们了解几个专业用语，以便更好理解接下来的概念。

模型：类比碳基物种，硅基物种的大脑就是模型。我们现在说的算法（比如Transformer）代表大脑（模型）的能力。

模型参数：模型参数的数量增加可以类比人类大脑本身的成长和成熟，随着人类的成长，接触的事物增加，大脑的认知在改变，参数的数值可以类比人类利用外界信息给自己构建的认知。

模型训练数据：人类通过感官接受这个世界的信息来构建对世界的了解。模型的训练数据某种程度类比于此，模型看到的数据数量和质量，即决定了参数的数量和数值。

大模型（large language model）是指具有超大参数规模，建立在多头自注意力机制Transformer架构之上,以深度神经网络为基础，用海量文本数据预训练而成的语言模型。例如chatgpt就是一种基于大模型的生成式人工智能，大模型是人工智能训练的一种方式，为其提供强大的生成能力，实现知识迁移和泛化。而大模型人工智能的关键因素之一便是充足的基础养料——数据。一般而言，收集的有用数据越多，数据库越大越集中，人工智能便具有更多样化的样本用于学习和分析；在人机互动过程中问题定位就越精确，输出的结果便越贴近真实社会，准确度也会相对提升。所以，人工智能的研发团队便希望尽可能多地获取数据以支持人工智能训练数据的更新和扩大，但是在收集训练数据的过程中存在极大可能诱发数据合规风险。所以在下文中，我们将从大模型的训练和生成两部分进行数据合规风险解读。

640 - 2024-12-18T181127.104.jpg

二、大模型在训练阶段的合规风险以及数据处理风险（技术方风险）

在人工智能迅猛发展的当下，《暂行办法》对于基于大模型的生成式人工智能的规范意义重大。其第七条明确指出，提供者在开展模型预训练、优化训练等数据处理活动时，需严格遵循一系列规定。一方面，要使用来源合法的数据与基础模型，且在涉及知识产权与个人信息时，务必确保合规性，避免侵权行为；另一方面，还需采取有效举措提升训练数据质量，使其具备真实性、准确性、客观性与多样性，同时全面遵守相关法律及监管要求。

（一）模型训练合规风险

侵犯知识产权风险

首先，大模型技术获取数据可能涉及侵权风险，依据《中华人民共和国著作权法》第五十三条，若大模型技术方获取的数据涵盖受著作权等知识产权保护的材料，且未获完整授权，便极易陷入侵权困境。例如以爬虫方式获取数据时，网络中的文章、图片、用户评论乃至网站数据库，只要具备独创性，就可能构成著作权法意义上的作品。即便这些数据在原网站可免费公开访问，未经许可的抓取与使用行为仍可能构成侵权。

其次，技术方将获取的数据用于模型训练的行为是否符合“合理使用”原则也存在模糊的界定。技术方往往会复制或下载训练数据至自有或第三方服务器以便使用，此行为涉及著作权中的“复制”行为，且其使用目的多为商业用途，似乎难以契合《著作权法》规定的“合理使用”条件。可是大模型训练中的作品复制属于“中间复制”，即复制件并非大模型产品的最终呈现形式，且技术支持方通常不会对外传播或展示这些复制件。例如国内首个有关AIGC侵权的生效判决案件：原告拥有“奥特曼”形象的著作权，并主张被告未经许可使用该形象训练其AI，进而生成了相似的图片。法院最终认定被告侵犯了原告对作品的复制权和改编权，判决被告赔偿原告经济损失10000元。故而，大模型训练是否适用合理使用原则仍有待进一步深入研究。

同时，依据《中华人民共和国反不正当竞争法》，商业秘密是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。若AIGC技术支持方在获取训练数据过程中，未能识别并使用构成商业秘密的数据且未获授权，便可能构成商业秘密侵权，需承担相应法律责任。

不正当竞争风险

在实践中，技术支持方常运用爬虫等技术获取训练数据，这一行为存在不正当竞争风险。《中华人民共和国民法典》第一百二十七条虽为数据权益保护提供了法律依据，但仅为框架性、引致性规定，未对数据权利属性及保护要求作出具体界定。司法实践中，对于非法爬取数据的行为，法院多倾向于依据《反不正当竞争法》相关规定进行判定。该法第二条规定，经营者应遵循自愿、平等、公平、诚实信用原则，遵守公认的商业道德。使用爬虫技术绕开 robots 协议（尤其是目标网站的 Disallow 语句）爬取数据的行为，极有可能被认定为违反 “公认的商业道德”，从而构成不正当竞争行为，相关技术使用方需承担停止侵害、损害赔偿等责任。

例如，在某房产交易信息平台房源数据抓取案中^[1]，法院判定S公司以技术手段大规模抓取涉案数据，存储于自有服务器后去除原平台水印并添加其他主体水印，传播至社交媒体和第三方房产信息平台等行为，为“虚假房源”发布提供便利，违背行业诚信原则与商业道德，且S公司在诉讼承诺停止后仍变相持续实施被诉行为，主观恶意明显，其行为抢夺了L公司用户流量，影响用户粘性与信赖度，损害消费者权益，破坏行业竞争生态与秩序，构成不正当竞争行为。

[1]参考http://www.elawcn.com/data/2023/0118/1221.html

侵犯人格权风险

《民法典》第九百九十条明确了人格权涵盖生命权、身体权、健康权、姓名权、名称权、肖像权、名誉权、荣誉权、隐私权等诸多权利，自然人还享有基于人身自由、人格尊严产生的其他人格权益，且人格权受法律严格保护。尤其在涉及肖像权方面，《民法典》第一千零一十八条规定自然人享有肖像权，有权依法制作、使用、公开或许可他人使用。第一千零一十九条规定，任何组织或个人不得丑化、污损或利用信息技术手段伪造等方式侵害他人肖像权，未经肖像权人同意，不得制作、使用、公开其肖像（法律另有规定除外），对自然人声音的保护参照肖像权规定执行。在实践中，鉴于训练数据可能包含图片、影片等内容，若其中的肖像或声音能够反映自然人特征，或社会大众可借此与自然人真实特征建立联系，那么这些形象或声音便可能纳入自然人肖像权和声音权范畴。技术方使用此类训练数据时，必须取得相关自然人的授权，否则将构成侵权行为。

侵害个人信息风险

《中华人民共和国网络安全法》第四十四条严禁任何个人和组织窃取或以其他非法方式获取个人信息。《中华人民共和国个人信息保护法》第二十七条规定，个人信息处理者可在合理范围内处理个人自行公开或其他合法公开的个人信息，但个人明确拒绝的除外，且处理已公开个人信息对个人权益有重大影响时，应依法取得个人同意，处理敏感个人信息还需取得个人单独同意。因此，若技术方获取用于模型训练的数据包含个人信息，就必须严格遵循《个人信息保护法》相关规定。若在未经用户同意的情况下收集用户个人信息，便可能构成侵害个人信息的违法行为。

处理核心数据、重要数据风险

《中华人民共和国数据安全法》第二十一条将核心数据定义为 “关系国家安全、国民经济命脉、重要民生、重大公共利益等数据”，《数据出境安全评估办法》第十九条指出重要数据是“一旦遭到篡改、破坏、泄露或者非法获取、非法利用等，可能危害国家安全、经济运行、社会稳定、公共健康和安全等的数据”。当前，多地、多行业及部分先行区已出台相关规则或目录对核心数据和重要数据予以明确。例如，工业和信息化部在《工业和信息化领域数据安全管理办法（试行）》中细化了工业和信息化领域重要数据、核心数据的认定标准；五部门联合发布的《汽车数据安全管理若干规定（试行）》划定了汽车行业重要数据的认定范围。若技术方用于训练大模型的数据涉及核心数据、重要数据，就需履行一系列更为严格的义务，且不同行业的具体义务履行方式存在差异，包括向监管部门履行备案、风险评估报告报送、数据安全管理情况定期报送等义务，以及建立数据安全工作体系、依据数据安全级别采取相应安全措施等数据安全管理义务。

刑事风险

依据《中华人民共和国刑法》第二百八十五条和第二百八十六条，未经授权获取“计算机信息系统中存储、处理或者传输的数据”，“对计算机信息系统实施非法控制”，或者对计算机信息系统功能进行干扰，情节严重的可能面临刑事处罚。例如，若技术方故意避开或强行突破网站反爬虫技术设置，或者侵入《刑法》第二百八十五条第一款规定以外的计算机信息系统，且网络爬虫过快或大量重复访问，大量占用服务器带宽和运算能力、大幅增加计算机处理负担，进而干扰计算机信息系统正常运行且后果严重，便可能涉及刑事责任。

（二）数据处理风险

处理个人信息合法性基础的缺失

依据《个人信息保护法》，处理个人信息需遵循合法、正当、必要与诚信原则，禁止以误导、欺诈、胁迫等手段为之。

《暂行办法》第十一条相关规定实则是在人工智能语境下对《个人信息保护法》所确立的上述原则的再次强调。

在实践场景中，通常由直接面向服务使用者提供服务的技术方运营方承担上述义务，若技术方运营方者超范围或非法处理服务使用者的个人信息，则需承担相应法律责任。

数据跨境传输的潜在风险

当技术方借助API等方式接入境外服务商提供的服务，抑或其将自身服务器部署于境外时，技术方运营方在使用相关服务过程中上传的数据便有可能被传输至境外。而依据《数据安全法》《个人信息保护法》以及《数据出境安全评估办法》等相关法规，我国明确了数据出境的三条主要途径，即通过国家网信部门组织的安全评估、经专业机构开展个人信息保护认证，或者依照国家网信部门制定的标准合同与境外接收方订立合同以约定双方权利义务。

数据主体权利保障的不足

《个人信息保护法》借助原则性条款明确赋予个人对其个人信息处理的知情权与决定权，个人有权限制或拒绝他人对其个人信息的处理，并具体规定了查阅复制与转移权、更正与补充权、删除权、要求解释权等权利。故而，技术方运营方需审慎对待服务使用者的行权请求并及时予以响应，绝不能以存在困难为由而不予处理或延迟处理。

640 - 2024-12-18T181122.000.jpg

三、技术支持方的合规义务

算法备案：

技术支持方需履行算法备案的义务，选择“生成合成类（深度合成）算法”进行备案。

数据训练合规：

技术支持方需确保训练数据来源的合法性，关注训练数据中是否包含需要另行取得许可或授权的知识产权或个人信息等数据。

网络安全、数据安全和个人信息保护：

在大模型训练环节，技术支持方同样需履行网络安全、数据安全和个人信息保护义务。

数据质量要求：

技术支持方需提高训练数据质量，增强训练数据的真实性、准确性、客观性、多样性。

建立数据合规管理和技术应对方案：

技术支持方应遵守相关的数据保护法规和AI伦理准则，利用技术手段建立健全风险应对方案，比如数据加密、匿名化处理等。

小结

本篇介绍了大模型的概念，以及主要分析了大模型在训练阶段的合规风险以及数据处理风险，为技术方的风险防控提供了一些建议。关于运营方的风险将在下一篇中重点分析。