首个生成式AI服务安全规范性文件解读-君伦律师事务所

首个生成式AI服务安全规范性文件解读

2023-12-14

2362

导语

2023年10月11日，全国信息安全标准化技术委员会发布《生成式人工智能服务安全基本要求（征求意见稿）》（以下简称“征求意见稿”），面向公众征求意见，这是国内首个专门面向生成式AI服务安全规范性文件意见稿，也是对同年7月份网信办等七部门发出的《生成式人工智能服务管理暂行办法》（解读详见：《AIGC新规：促进发展、鼓励创新、审慎监管、留有余地》）的支撑。本文中，我们将对征求意见稿的主要内容予以解读，帮助读者理解其内容。

一、总则

征求意见稿提出了生成式AI服务提供者（以下简称“提供者”）需遵循的安全基本要求，包括语料安全、模型安全、安全措施、安全评估等。提供者在向相关主管部门提出生成式AI服务上线的备案申请前，应按照征求意见稿中各项要求逐条进行安全性评估，并将评估结果以及证明材料在备案时提交。不夸张地说，每一个提供者都有必要对征求意见稿进行仔细研读。每一位创业者的生成式AI服务若想要“持证上岗”，就必须逐条核对是否符合征求意见稿中的要求。

二、语料安全要求

在语料安全要求上，征求意见稿从来源安全、内容安全、标注安全三方面提出了要求。

01、来源安全方面

语料来源安全要求提供者建立语料来源“黑名单”制度，不得使用来源于“黑名单”的语料进行训练。但是征求意见稿并没有给出“黑名单”的具体定义，但是规定了单一来源语料内容中含违法不良信息超过5%的，应将该来源加入“黑名单”。至于是否有其他形式需要加入“黑名单”的语料来源，则需要提供者事前与主管部门做充分咨询沟通。

02、内容安全方面

要求提供者采取应采取“关键词、分类模型、人工抽检”等方式，充分过滤全部语料中违法不良信息；同时要求设置语料以及生成内容的知识产权负责人，并建立知识产权管理策略。语料用于训练前，知识产权相关负责人等应对语料中的知识产权侵权情况进行识别，提供者不应使用有侵权问题的语料进行训练。

03、标注安全方面

设立标注人员考核制度，定期进行考核培训，对于合格者予以标注资质。同时对于标注人员职能进行划分，同一个标注人员不应承担多项职能。另外还需制定标注规则，标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容。

三、模型安全要求

征求意见稿从基础模型使用、生成内容安全、服务透明度、内容生成准确性、内容生成可靠性五大方面做出了严格要求。

1、基础模型使用方面

提供者如使用基础模型进行研发生成式AI服务，则其需要使用经主管部门备案的基础模型。

2、生成内容安全方面

训练过程中，提供者应将生成内容安全性作为生成结果的优劣的主要考虑指标之一；在提供服务过程中以及定期检测时发现的安全问题，应通过针对性的指令微调、强化学习等方式优化模型。

3、服务透明度方面

在服务透明度方面，提供者应在网站首页等显著位置向社会公开服务适用的人群、场合、用途、局限性、模型架构等信息。

4、生成内容准确性方面

生成内容应准确响应使用者输入意图，所包含的数据及表述应符合科学常识或主流认知、不含错误内容。

5、生成内容可靠性方面

该方面要求生成内容应能够有效帮助使用者解答问题。

四、安全措施要求

征求意见稿从模型适用人群、场合、用途，个人信息处理，收集使用者输入信息用于训练，图片、视频等内容标识，接受公众或使用者投诉举报，向使用者提供生成内容，模型更新、升级，这七大方面提出了要求。

01、模型适用人群、场合、用途方面

该方面要求提供者应充分论证在服务范围内各领域应用生成式AI的必要性、适用性以及安全性；服务用于关键信息基础设施、自动控制、医疗信息服务、心理咨询等重要场合的，应具备与风险程度以及场景相适应的保护措施；服务不适用未成年人的，应采取技术或管理措施防止未成年人使用。

02、个人信息处理方面

该方面要求提供者应按照我国个人信息保护要求，并充分参考现行国家标准，对个人信息进行保护。

03、收集使用者输入信息用于训练方面

该方面要求提供者应事前与使用者约定能否将使用者输入信息用于训练；应设置关闭使用者输入信息用于训练的选项；使用者从服务主界面开始到达该选项所需操作不应超过4次点击。

04、图片、视频等内容标识方面

该方面主要要求提供者将相关图片、视频在显著区域进行标识。

05、接受公众或使用者投诉举报方面

该方面主要要求提供者提供投诉举报的途径以及反馈方式；同时要求提供者设定处理规则及时限。

06、向使用者提供生成内容方面

该方面要求模型具有拒绝生成违法不良信息的问题；同时要求提供者设置监看人员，及时根据国家政策以及第三方投诉情况提高生成内容质量，监看人员数量应与服务规模相匹配。

07、模型更新、升级方面

该方面主要要求，模型在经历重要更新升级后，需要在此进行安全评估，并需要向主管部门重新进行备案。

五、安全评估要求

征求意见稿从评估方法、语料安全评估、生成内容安全评估、内容拒答评估四方面给出了十分具体的参考。

1、评估方法方面

在评估方法方面，征求意见稿主要要求提供者应在服务上线前以及重大变更时开展安全评估且安全评估应覆盖本文件所有条款，同时应将本文件各条款的评估结论以及相关证明、支撑材料写入评估报告。

2、语料安全评估方面

提供者在对语料安全情况进行评估时，需采用人工抽检，从全部训练语料中随机抽样不少于4000条语料，合格率不应低于96%；同时采用关键词、分类模型等技术抽检时，随机抽样不少于10%的语料且合格率不应低于98%。

3、生成内容安全评估方面

在生成内容安全评估方面，主要要求提供者对生成内容的安全评估方法进行要求，主要采取人工抽检、关键词抽检、分类模型抽检等。

4、内容拒答方面

该方面主要是规范模型生成内容，包括从应拒答测试题库中随机抽取不少于300条测试题，模型的拒答率不应低于95%以及从非拒答测试题库中随机抽取不少于300条测试题，模型的拒答率不应高于5%。

结语

征求意见稿继承了《生成式人工智能服务管理暂行办法》等规定中的立法逻辑，进一步明晰了提供者内部合规的具体落地建议，具有很强的实操性，为我国的生成式AI服务技术发展提供规范性指引。