据全国信息安全标准化技术委员会网站,该会组织制定的技术文件《生成式人工智能服务安全基本要求》(下称《要求》)已于10月11日形成征求意见稿,现将技术文件面向社会公开征求意见,如有意见或建议,需在10月25日24:00前反馈。
《要求》提出,建立语料来源黑名单,不得使用黑名单来源的数据进行训练。应对各来源语料进行安全评估,单一来源语料内容含违法不良信息超5%应将其加入黑名单。应使用包含个人信息的语料时,获得对应个人信息主体的授权同意,或满足其他合法使用该个人信息的条件。应使用包含人脸等生物特征信息的语料时,获得对应个人信息主体的书面授权同意,或满足其他合法使用该生物特征信息的条件。在训练过程中,应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一。
《生成式人工智能服务安全基本要求》全文如下
01.范围
本文件给出了生成式人工智能服务在安全方面的基本要求,包括语料安全、模型安全、安全措施、安全评估等。
本文件适用于面向我国境内公众提供生成式人工智能服务的提供者提高服务安全水平,适用于提供者自行或委托第三方开展安全评估,也可为相关主管部门评判生成式人工智能服务的安全水平提供参考。
02.规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 25069—2022 信息安全技术术语
03.术语和定义
GB/T 25069—2022界定的以及下列术语和定义适用于本文件。
1、生成式人工智能服务 generative artificial intelligence service
基于数据、算法、模型、规则,能够根据使用者提示生成文本、图片、音频、视频等内容的人工智能服务。
2、提供者 provider
以交互界面、可编程接口等形式面向我国境内公众提供生成式人工智能服务的组织或个人。
3、训练语料 training data
所有直接作为模型训练输入的数据,包括预训练、优化训练过程中的输入数据。
4、违法不良信息 illegal and unhealthy information
《网络信息内容生态治理规定》中指出的11类违法信息以及9类不良信息的统称。
5、抽样合格率 sampling qualified rate
抽样中不包含本文件附录A所列出31种安全风险的样本所占的比例。
04.总则
本文件支撑《生成式人工智能服务管理暂行办法》,提出了提供者需遵循的安全基本要求。提供者在向相关主管部门提出生成式人工智能服务上线的备案申请前,应按照本文件中各项要求逐条进行安全性评估,并将评估结果以及证明材料在备案时提交。
除本文件提出的基本要求外,提供者还应自行按照我国法律法规以及国家标准相关要求做好网络安全、数据安全、个人信息保护等方面的其他安全工作。
05.语料安全要求
1、语料来源安全要求对提供者的要求如下。
a)语料来源管理方面:
1)应建立语料来源黑名单,不使用黑名单来源的数据进行训练;
2)应对各来源语料进行安全评估,单一来源语料内容中含违法不良信息超过5%的,应将该来源加入黑名单。
b)不同来源语料搭配方面:
应提高多样性,对每一种语言,如中文、英文等,以及每一种语料类型,如文本、图片、视频、音频等,均应有多个语料来源;并应合理搭配境内外来源语料。
c)语料来源可追溯方面:
1)使用开源语料时,应具有该语料来源的开源授权协议或相关授权文件;
注1:对于汇聚了网络地址、数据链接等能够指向或生成其他数据的情况,如果需要使用这些被指向或生成的内容作为训练语料,应将其视同于自采语料。
2)使用自采语料时,应具有采集记录,不应采集他人已明确声明不可采集的语料;
注2:自采语料包括自行生产的语料以及从互联网采集的语料。
注3:声明不可采集的方式包括但不限于robots协议等。
3)使用商业语料时:
——应有具备法律效力的交易合同、合作协议等;
——交易方或合作方不能提供语料合法性证明材料时,不应使用该语料。
4)将使用者输入信息当作语料时,应具有使用者授权记录。
d)按照我国网络安全相关法律要求阻断的信息,不应作为训练语料。
注4:相关法律法规要求包括但不限于《网络安全法》第五十条等。
2、语料内容安全要求对提供者的要求如下。
a)训练语料内容过滤方面:
应采取关键词、分类模型、人工抽检等方式,充分过滤全部语料中违法不良信息。
b)知识产权方面:
1)应设置语料以及生成内容的知识产权负责人,并建立知识产权管理策略;
2)语料用于训练前,知识产权相关负责人等应对语料中的知识产权侵权情况进行识别,提供者不应使用有侵权问题的语料进行训练:
——训练语料包含文学、艺术、科学作品的,应重点识别训练语料以及生成内容中的著作权侵权问题;
——对训练语料中的商业语料以及使用者输入信息,应重点识别侵犯商业秘密的问题;
——训练语料中涉及商标以及专利的,应重点识别是否符合商标权、专利权有关法律法规的规定。
3)应建立知识产权问题的投诉举报以及处理渠道;
4)应在用户服务协议中,向使用者告知生成内容使用时的知识产权相关风险,并与使用者约定关于知识产权问题识别的责任与义务;
5)应及时根据国家政策以及第三方投诉情况更新知识产权相关策略;
6)宜具备以下知识产权措施:
——公开训练语料中涉及知识产权部分的摘要信息;
——在投诉举报渠道中支持第三方就语料使用情况以及相关知识产权情况进行查询。
c)个人信息方面:
1)应使用包含个人信息的语料时,获得对应个人信息主体的授权同意,或满足其他合法使用该个人信息的条件;
2)应使用包含敏感个人信息的语料时,获得对应个人信息主体的单独授权同意,或满足其他合法使用该敏感个人信息的条件;
3)应使用包含人脸等生物特征信息的语料时,获得对应个人信息主体的书面授权同意,或满足其他合法使用该生物特征信息的条件。
3、语料标注安全要求对提供者的要求如下。
a)标注人员方面:
1)应自行对标注人员进行考核,给予合格者标注资质,并有定期重新培训考核以及必要时暂停或取消标注资质的机制;
2)应将标注人员职能至少划分为数据标注、数据审核等;在同一标注任务下,同一标注人员不应承担多项职能;
3)应为标注人员执行每项标注任务预留充足、合理的标注时间。
b)标注规则方面:
1)标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容;
2)应对功能性标注以及安全性标注分别制定标注规则,标注规则应至少覆盖数据标注以及数据审核等环节;
3)功能性标注规则应能指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料;
4)安全性标注规则应能指导标注人员围绕语料及生成内容的主要安全风险进行标注,对本文件附录A中的全部31种安全风险均应有对应的标注规则。
c)标注内容准确性方面:
1)对安全性标注,每一条标注语料至少经由一名审核人员审核通过;
2)对功能性标注,应对每一批标注语料进行人工抽检,发现内容不准确的,应重新标注;发现内容中包含违法不良信息的,该批次标注语料应作废。
06.模型安全要求
对提供者的要求如下。
a)提供者如使用基础模型进行研发,不应使用未经主管部门备案的基础模型。
b)模型生成内容安全方面:
1)在训练过程中,应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一;
2)在每次对话中,应对使用者输入信息进行安全性检测,引导模型生成积极正向内容;
3)对提供服务过程中以及定期检测时发现的安全问题,应通过针对性的指令微调、强化学习等方式优化模型。
注:模型生成内容是指模型直接输出的、未经其他处理的原生内容。
c)服务透明度方面:
1)以交互界面提供服务的,应在网站首页等显著位置向社会公开以下信息:
——服务适用的人群、场合、用途等信息;
——第三方基础模型使用情况。
2)以交互界面提供服务的,应在网站首页、服务协议等便于查看的位置向使用者公开以下信息:
——服务的局限性;
——所使用的模型架构、训练框架等有助于使用者了解服务机制机理的概要信息。
3)以可编程接口形式提供服务的,应在说明文档中公开 1)和 2)中的信息。
d)生成内容准确性方面:
生成内容应准确响应使用者输入意图,所包含的数据及表述应符合科学常识或主流认知、不含错误内容。
e)生成内容可靠性方面:
服务按照使用者指令给出的回复,应格式框架合理、有效内容含量高,应能够有效帮助使用者解答问题。
07.安全措施要求
对提供者的要求如下。
a)模型适用人群、场合、用途方面:
1)应充分论证在服务范围内各领域应用生成式人工智能的必要性、适用性以及安全性;
2)服务用于关键信息基础设施、自动控制、医疗信息服务、心理咨询等重要场合的,应具备与风险程度以及场景相适应的保护措施;
3)服务适用未成年人的,应:
——允许监护人设定未成年人防沉迷措施,并通过密码保护;
——限制未成年人单日对话次数与时长,若超过使用次数或时长需输入管理密码;
——需经过监护人确认后未成年人方可进行消费;
——为未成年人过滤少儿不宜内容,展示有益身心健康的内容。
4)服务不适用未成年人的,应采取技术或管理措施防止未成年人使用。
b)个人信息处理方面:
应按照我国个人信息保护要求,并充分参考现行国家标准,如GB/T 35273等,对个人信息进行保护。
注:个人信息包括但不限于使用者输入的个人信息、使用者在注册和其他环节提供的个人信息等。
c)收集使用者输入信息用于训练方面:
1)应事前与使用者约定能否将使用者输入信息用于训练;
2)应设置关闭使用者输入信息用于训练的选项;
3)使用者从服务主界面开始到达该选项所需操作不应超过4次点击;
4)应将收集使用者输入的状态,以及 2)中的关闭方式显著告知使用者。
d)图片、视频等内容标识方面,应按TC260-PG-20233A《网络安全标准实践指南—生成式人工智能服务内容标识方法》进行以下标识:
1)显示区域标识;
2)图片、视频的提示文字标识;
3)图片、视频、音频的隐藏水印标识;
4)文件元数据标识;
5)特殊服务场景的标识。
e)接受公众或使用者投诉举报方面:
1)应提供接受公众或使用者投诉举报的途径及反馈方式,包括但不限于电话、邮件、交互窗口、短信等方式;
2)应设定接受公众或使用者投诉举报的处理规则以及处理时限。
f)向使用者提供生成内容方面:
1)对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,应均能正常回答;
2)应设置监看人员,及时根据国家政策以及第三方投诉情况提高生成内容质量,监看人员数量应与服务规模相匹配。