人工智能风险管理框架

执行摘要

人工智能 (AI) 技术拥有巨大的潜力,可以改变社会和人们的生活——从商业和医疗健康,到交通和网络安全,再到环境和地球。AI 可以推动包容性经济增长,并支持改善世界状况的科学进步。然而,AI 也会带来风险,可能对个人、群体、组织、社区、社会、环境和地球产生负面影响。与其他类型技术的风险一样,AI 风险可以以多种方式出现,并可分为短期或长期、低概率或高概率、局部性或系统性以及低影响力或高影响力。

AI RMF 指的是人工智能系统,它是一种基于工程或机器的系统,能够针对给定的目标集生成输出,例如预测、建议、影响现实或虚拟环境的决策。AI 系统被设计为以不同程度的自主性运行(改编自:OECD 人工智能建议书:2019;ISO/IEC 22989:2022)。

虽然有无数的标准和最佳实践可帮助组织减轻传统软件或信息系统的风险,但 AI 带来的风险在许多方面都是独特的(参见附录 B)。例如,AI 系统可能使用随时间变化的数据进行训练,有时这些数据会发生显著改变,从而以难以理解的方式影响系统功能和可信度。AI 系统及其部署环境通常很复杂,因此难以检测和应对 AI 系统的故障。AI 系统本质上是社会技术系统,这意味着它们受社会动态和人类行为的影响。AI 的风险和收益,受到技术方面与社会因素的相互作用,这些社会因素与系统的使用方式、与其他 AI 系统的交互、操作人员以及部署系统的社会环境有关。

这些风险使得 AI 在组织和社会中的部署和应用,成为一项极具挑战性的技术。如果没有适当的控制,AI 系统可能会放大、延续或加剧个人和群体的不公平或不良后果。有了适当的控制,AI 系统可以缓解和管理不公平的结果。

AI 风险管理是负责任地开发和使用 AI 系统的关键组成部分。负责任的 AI 实践有助于使 AI 系统设计、开发和使用的决策与预期目标和价值观保持一致。负责任的 AI 的核心理念强调以人为本、社会责任和可持续性。AI 风险管理可以通过促使设计、开发和部署 AI 的组织及其内部团队,更批判性地思考其背景以及潜在或意外的负面和正面影响,从而推动对 AI 负责任的使用和实践。理解和管理 AI 系统的风险将有助于增强透明度,培养公众信任。

社会责任是指组织“通过透明和道德的行为,对其决策和活动给社会和环境的影响所承担的责任”(ISO 26000:2010)。可持续性是指“全球体系的状态,包括环境、社会和经济方面,在满足当代人需求的同时,也不损害子孙后代满足其自身需求的能力”(ISO/IEC TR 24368:2022)。负责任的 AI 旨在实现公平且可追责的技术,其要求组织实践符合 ISO 定义的“专业责任”,即“致力于确保从事 AI 系统及应用或基于 AI 的产品/系统设计、开发或部署的专业人员,能够认识到自身在影响人类、社会及 AI 未来方面所处的独特地位”(ISO/IEC TR 24368:2022)。

根据《2020年国家 AI 倡议法案》(P.L. 116-283)的规定,人工智能风险管理框架(AI RMF)的目标是为设计、开发、部署或使用 AI 系统的组织提供资源,以帮助管理 AI 的诸多风险,以促进透明、负责任的开发和使用 AI 系统。该框架自愿实施、维护权利、不针对特定行业且与用例无关,为各种规模、各个行业以及整个社会的组织提供灵活性,以方便实施框架中的方法。

AI RMF 旨在为组织和个人(本文称为“AI 参与者”)提供提升 AI 系统可信度的方法,并帮助促进 AI 系统负责任的设计、开发、部署和使用。经济合作与发展组织 (OECD,经合组织) 将 AI 参与者定义为“在 AI 系统生命周期中发挥积极作用的人员,包括部署或运营 AI 的组织和个人”[OECD (2019) 社会中的 AI ——OECD iLibrary](参见附录 A)

AI RMF 旨在具备实用性强、能随着 AI 技术持续发展而动态调整的特性,并可由具备不同能力的组织付诸实施,从而使社会既能从 AI 中受益,又能免受其潜在危害威胁。

该框架及其支持资源将根据不断发展的技术、全球标准以及 AI 社区的经验和反馈进行更新、扩展和改进。NIST 将继续使 AI RMF 及相关指南与适用的国际标准、指南和实践保持一致。随着 AI RMF 的投入使用,我们将汲取更多经验教训,为未来的更新和补充资源提供参考。

该框架分为两部分。第一部分讨论组织如何界定 AI 相关风险并说明目标受众。随后分析 AI 风险与可信性,概述可信 AI 系统的特征,有效和可靠、人身安全、安全和韧性、可问责性和透明度、可解释和可理解性、隐私增强和公平性与有害偏见管理

第二部分构成框架的"核心",描述四项具体功能以帮助组织在实践中应对 AI 系统风险。这些功能——GOVERN(治理)、MAP(映射)、MEASURE(衡量,或翻译为风险分析)、MANAGE(管理)——进一步细分为类别与子类别。GOVERN 适用于组织 AI 风险管理流程与程序(或翻译为步骤)的所有阶段,而治理、映射和管理功能可应用于特定 AI 系统场景及 AI 生命周期的具体阶段。

在其他框架或者 CISSP 中,风险衡量或测量也可以翻译为风险分析,因此我们在后文不作过多区分。—— 译者注

与框架相关的其他资源包含在 AI RMF 手册中,该手册可通过 NIST AI RMF 网站获得:https://www.nist.gov/itl/ai-risk-management-framework

NIST 与公共和私营部门合作开发的 AI 风险管理框架(AI RMF)遵循《2020年国家 AI 倡议法案》、国家安全 AI 委员会建议以及《联邦技术标准发展计划》的指导要求。框架制定过程中通过信息征询、三场公开研讨会、概念文件和两版草案的公众评议、多方讨论及专项小组会议,吸收了 AI 社区意见,支撑了AI RMF 1.0版本开发及 NIST 主导的 AI 研发和评估工作。增强框架的优先研究领域和补充指南将纳入《AI 风险管理框架路线图》,NIST 和更广泛社区可共同参与该路线图的持续更新。

第一部分:基础信息

1 框架风险

AI 风险管理提供了一种途径,可以最大限度地减少 AI 系统的潜在负面影响,例如对公民自由和权利的威胁,同时也提供了扩大积极影响的机会。有效地应对、记录和管理 AI 风险及其潜在的负面影响,可以构建更值得信赖的 AI 系统。

1.1 了解和应对风险、影响和危害

在人工智能风险管理框架(AI RMF)的语境中,风险是指事件发生概率与严重程度的综合衡量指标。AI 系统的影响或后果可能是积极的、消极的,也有可能是两者兼而有之,可能带来机遇,也可能带来挑战(改编自:ISO 31000:2018)。在考虑潜在事件的负面影响时,风险取决于:1)情况或事件发生时可能产生的负面影响或损害程度;2)发生的可能性(改编自:OMB 通函 A-130:2016)。个人、群体、社区、组织、社会、环境和地球都可能遭受负面影响或损害。

“风险管理是指引导和控制组织应对风险而采取的协调活动”(来源:ISO 31000:2018)。

虽然风险管理流程通常针对负面影响,但本框架不仅提供了最小化 AI 系统预期负面影响的实施方案,还提供了最大化 AI 系统正面影响的机会。有效管理潜在危害的风险有助于构建更可信的 AI 系统,并对人类(个人、社区及社会)、组织机构及系统/生态体系带来潜在利益。风险管理可以使 AI 开发者和用户了解影响,并考虑到其模型和系统中固有的局限性和不确定性,从而提高系统的整体性能和可信度,并提高 AI 技术以有益方式使用的可能性。

AI RMF 旨在应对新的风险。这种灵活性在影响难以预见且应用不断发展的情况下尤为重要。虽然一些 AI 风险和收益是众所周知的,但评估负面影响和危害程度可能具有挑战性。图 1 提供了与 AI 系统相关的潜在危害示例。

图1. AI 系统相关潜在危害示例。值得信赖的 AI 系统及其负责任的使用可以减轻负面风险,并为人类、组织和生态系统带来益处。

图1. AI 系统相关潜在危害示例。值得信赖的 AI 系统及其负责任的使用可以减轻负面风险,并为人类、组织和生态系统带来益处。

AI 风险管理工作应考虑到,人类可能认为 AI 系统在所有环境下都能有效运作,并且运行良好。例如,无论正确与否,AI 系统通常被认为比人类更客观,或比通用软件提供更强大的功能。

1.2 AI 风险管理面临的挑战

以下描述了 AI 面临的几个挑战。在追求 AI 可信的过程中,管理风险时应考虑这些挑战。

1.2.1 风险衡量

定义不明确或理解不充分的 AI 风险或故障难以定量或定性衡量。无法恰当衡量 AI 风险并不意味着 AI 系统必然具有高风险或低风险。风险衡量面临的一些挑战包括:

与第三方软件、硬件和数据相关的风险:第三方数据或系统可以加快研发进度并促进技术转型,但也可能会使风险衡量变得复杂。风险可能来自第三方数据、软硬件本身及其使用方式。开发 AI 系统的组织使用的风险指标或方法可能与部署或运营该系统的组织使用的风险指标或方法不一致。此外,开发 AI 系统的组织可能不会公开其使用的风险指标或方法。客户如何使用或将第三方数据或系统集成到 AI 产品或服务中,可能会使风险衡量和管理变得复杂,尤其是在缺乏足够的内部治理结构和技术保障的情况下。无论如何,AI 利益相关方(包括 AI 开发、部署、运营方和客户)都应该管理 AI 风险。

追踪新兴风险:识别和追踪新兴风险并思考如何衡量这些风险的技术,将增强组织的风险管理能力。AI 系统影响评估方法可以帮助 AI 参与者了解特定情境下的潜在影响或危害。

可靠指标的可用性:目前,业界缺乏稳定统一的风险衡量方法,并对不同 AI 用例的适用性方面缺乏共识,这是人工智能风险分析面临的一大挑战。在寻求衡量风险危害程度时,潜在的陷阱包括:指标的制定通常是非盈利机构的工作,可能会无意中反映与潜在影响无关的因素。此外,测量方法可能过于简单化、游戏化、缺乏关键的细微差别、以意想不到的方式被依赖,或者未能考虑到受影响群体和环境的差异。

衡量对人口影响的方法最好是认识到背景环境很重要,风险可能会对不同的群体或子群体产生不同的影响,并且可能受到伤害的社区或其他子群体并不总是系统的直接用户。

AI 生命周期不同阶段的风险:在 AI 生命周期的早期阶段衡量风险可能与在后期阶段衡量风险产生不同的结果;某些风险可能在特定时间点潜伏,并可能随着 AI 系统的适应和发展而增加。此外,AI 生命周期中的不同 AI 参与者可能拥有不同的风险视角。例如,提供 AI 软件(例如预训练模型)的 AI 开发者,与负责在特定用例中部署该预训练模型的 AI 参与者,可能拥有不同的风险视角。这类实施者可能意识不到,他们的具体使用方式可能带来的风险与系统初始开发者所认知的风险存在差异。所有 AI 参与者都有责任设计、开发和部署一个值得信赖的、适合目的的 AI 系统。

现实环境中的风险:虽然在实际部署系统之前,在实验室或受控环境中衡量 AI 风险是有效的,但这些分析结果可能与实际运行环境中出现的风险有所不同。

不可预测性:不可预测的 AI 系统会使风险衡量复杂化。不可预测性可能是由 AI 系统的不透明性(可解释性或可解读性有限)、AI 系统开发或部署缺乏透明度或文档记录,或 AI 系统本身的不确定性造成的。

人类基准:旨在增强或取代人类活动(例如决策)的 AI 系统的风险管理需要某种形式的基准指标以进行衡量。由于 AI 系统执行的任务与人类不同,并且执行任务的方式也不同,因此很难系统化。

1.2.2 风险承受能力

虽然 AI RMF 可用于确定风险优先级,但它并未规定风险承受能力。风险承受能力是指组织或 AI 参与者(参见附录 A)为实现其目标而承担风险的意愿。风险承受能力可能受到法律或法规要求的影响(改编自:ISO GUIDE 73)。风险承受能力以及组织或社会可接受的风险水平与具体情境、应用和用例高度相关。风险承受能力可能受到 AI 系统所有者、组织、行业、社区或政策制定者制定的政策和规范的影响。随着 AI 系统、政策和规范的发展,风险承受能力可能会随之发生变化。由于不同的组织有着不同的资源和优先事项,不同的组织可能具有不同的风险承受能力。

企业、政府、学术界和民间组织将继续发展和探讨新兴知识和方法,以更好地为危害/成本效益权衡提供信息。由于界定 AI 风险承受能力的挑战尚未解决,可能存在风险管理框架尚未适用于减轻 AI 风险的情况。

该框架旨在灵活应对现有风险实践,使其符合适用的法律、法规和规范。组织应遵循由组织、领域、学科、行业或专业要求建立的风险标准、风险承受能力和响应的现有法规和指导方针。一些行业或领域可能已经定义“危害”,或制定了文档记录、报告和披露要求。在特定行业内,风险管理可能依赖于针对特定应用和用例设置的现有指导。如果没有既定指导,组织应定义合理的风险承受能力。定义好风险承受能力后,即可使用此 AI 风险管理框架 (RMF) 来管理风险并记录风险管理流程。

1.2.3 风险优先级

试图完全消除负面风险在实践中可能会适得其反,因为并非所有事件和故障都能解决。对风险的不切实际的期望可能导致组织为应对不同风险而给予不合理的资源,导致资源浪费。风险管理文化可以帮助组织认识到并非所有 AI 风险都是相同的,并且可以有目的地分配资源。可行的风险管理工作为评估组织开发或部署的每个 AI 系统的可信度制定了明确的指导方针。应根据评估的风险级别和 AI 系统的潜在影响确定政策和资源的优先顺序。AI 系统可被部署者根据具体使用场景进行定制化调整的程度也可作为风险优先级考量因素之一。

在应用人工智能风险管理框架(AI RMF)时,如果组织认为在特定使用环境下,AI 系统的风险最高,则处理此风险的优先级最高,并采用最全面的风险管理流程。如果 AI 系统呈现出不可接受的风险(例如,即将产生重大负面影响、正在发生严重损害或存在灾难性风险),则应以安全的方式停止开发和部署,直至风险得到充分管理。如果在特定环境下,AI 系统的开发、部署和用例风险较低,则可以降低处理此类风险的优先级。

直接与人类交互的 AI 系统与非直接与人类交互的 AI 系统,其风险优先级排序可能有所不同。如果 AI 系统在包含敏感或受保护数据(例如个人身份信息)的大型数据集上进行训练,或者其输出对人类有直接或间接影响,则可能需要更高的初始优先级排序。如果 AI 系统设计为仅与计算系统交互,并在非敏感数据集(例如从物理环境收集的数据)上进行训练,则可能需要较低的初始优先级排序。尽管如此,定期根据具体情况评估和确定风险优先级排序仍然很重要,因为非面向人类的 AI 系统可能会对下游安全或社会产生影响。

剩余风险——定义为风险处理后剩余的风险(来源:ISO GUIDE 73)——直接影响最终用户或受影响的个人和社区。记录剩余风险需要系统提供商充分考虑部署 AI 产品的风险,并告知最终用户与系统交互的潜在负面影响。

1.2.4 组织整合与风险管理

AI 风险不应孤立地考虑。不同的 AI 参与者根据其在生命周期中的角色,拥有不同的认知和承担不同的责任。例如,开发 AI 系统的组织通常不了解该系统的使用方式。AI 风险管理应整合并纳入更广泛的企业风险管理战略和流程。将 AI 风险与网络安全和隐私等其他关键风险一起处理,将产生更完整的处理方案并提高组织效率。

AI RMF 可与相关指南和框架结合使用,用于管理 AI 系统风险或更广泛的企业风险。一些与 AI 系统相关的风险在其他类型的软件开发和部署中也常见。重叠风险的示例包括:与使用底层数据训练 AI 系统相关的隐私问题;与资源密集型计算需求相关的能源和环境影响;与系统及其训练和输出数据的机密性、完整性和可用性相关的安全问题;以及 AI 系统底层软硬件的通用安全问题。

组织需要建立并维护适当的问责机制、角色和职责、文化和激励机制,以确保有效的风险管理。仅使用 AI RMF 并不能让我们更好的进行风险管理,也无法提供适当的激励机制。有效的风险管理需要组织高层的承诺才能实现,并且可能需要组织或行业内部的文化变革。此外,管理 AI 风险或实施 AI 风险管理框架的中小型组织可能面临与大型组织不同的挑战,这取决于它们的能力和资源。

2 受众

识别和管理 AI 风险及其潜在影响(包括正面和负面),需要 AI 生命周期中不同的参与者和不同的视角。理想情况下,AI 参与者应代表多样化的经验、专业知识和背景,并由人口和学科多元化的团队组成。AI RMF 可供 AI 生命周期和各个维度的 AI 参与者使用。

经合组织(OECD)已制定了一个框架,根据五个关键的社会技术维度对 AI 生命周期活动进行分类,每个维度都具有与 AI 政策和治理相关的属性,包括风险管理[OECD(2022)OECD人工智能系统分类框架——OECD数字经济论文]。图 2 显示了这些维度,NIST 根据本框架的目的对其进行了略微修改。NIST 的修改强调了测试评估验证确认TEVV)流程在整个 AI 生命周期中的重要性,并概括了 AI 系统的运行环境。

pic2_lifecycle

图 2. AI 系统的生命周期和关键维度。修改自 OECD(2022)《经合组织 AI 系统分类框架——OECD 数字经济论文》。两个内圈显示了 AI 系统的关键维度,外圈显示了 AI 的生命周期阶段。理想情况下,风险管理工作从应用程序环境中的计划和设计功能开始,并在整个AI系统生命周期中执行。代表性 AI 参与者见图 3

图 2 中显示的 AI 维度包括应用情境、数据与输入、AI 模型以及任务与输出。与这些维度的相关 AI 参与者,他们执行或管理 AI 系统的设计、开发、部署、评估和使用,并推动 AI 风险管理工作,是 AI RMF 的主要受众。

图 3 列出了生命周期维度中具有代表性的 AI 参与者,并在附录 A 中进行了详细描述。在 AI RMF 中,所有 AI 参与者共同努力并管理风险,实现值得信赖和负责任的 AI 目标。拥有 TEVV 特定专业知识的 AI 参与者被整合到整个 AI 生命周期中,并很有可能从该框架中受益。定期执行 TEVV 任务可以提供与技术、社会、法律和道德标准或规范相关的洞察,有助于预测影响以及评估和跟踪突发风险。作为 AI 生命周期中的常规流程,TEVV 既可以用于中期补救,也可以用于事后风险管理。

pic3_lifecycle

图 3.AI 生命周期各阶段的 AI 参与者。AI 参与者任务的详细描述参见附录 A,包括测试、评估、验证和确认任务的详细信息。请注意,作为最佳实践,AI 模型维度(图 2)中的 AI 参与者是分开的,构建和使用模型的人与验证和确认模型的人是分开的。

图 2 中心的“人与地球”维度代表人权以及社会和地球的更广泛福祉。该维度中的AI 参与者构成了独立的 AI RMF 受众,他们为主要受众提供信息。这些 AI 参与者可能包括行业协会、标准制定组织、研究人员、倡导团体。

环境团体、民间组织、最终用户以及可能受到影响的个人和社区。这些参与者可以:

  • 协助提供背景信息并理解潜在和实际影响;
  • 成为 AI 风险管理的正式或准正式规范和指导的来源;
  • 指定 AI 运作的界限(技术、社会、法律和伦理);以及
  • 促进关于平衡社会价值观和优先事项的讨论,包括平衡公民自由、公平性、环境可持续性与经济利益。

成功的风险管理取决于图 3 所示的 AI 参与者之间的集体责任感。第 5 节中描述的 AI RMF 功能需要多元化的视角、学科、专业和经验。多元化的团队有助于更开放地分享关于技术目的和功能的想法和假设,从而使这些隐含的方面更加明确。这种更广泛的集体视角为发现问题和识别现有和新兴风险创造了可能。

3 AI 风险和可信度

为了使 AI 系统值得信赖,它们通常需要响应对相关方有价值的多种标准。增强 AI 可信度的方法可以降低 AI 的负面影响。该框架阐明了可信 AI 的以下特征,并提供了解决这些特征的指导。可信 AI 系统的特征包括:有效和可靠、人身安全、安全和韧性、可问责性和透明度、可解释和可理解性、隐私增强和公平性与有害偏见管理。创建可信 AI 需要根据 AI 系统的使用环境平衡这些特征。虽然所有特征都是社会技术系统属性,但问责制和透明度也与 AI 系统内部的过程和活动及其外部环境有关。忽视这些特征会增加造成负面结果的概率和造成更加严重的影响。

可信度特征(如图 4 所示)与社会和组织行为、AI 系统使用的数据集、AI 模型和算法的选择、构建者的决策,以及与提供洞察和监督这些系统的人类的互动密不可分。在确定与 AI 可信度特征相关的具体指标及其精确阈值时,应参考人类的判断。

pic4

图 4. 值得信赖的 AI 系统的特征。有效可靠是可信度的必要条件,是其他可信度特征的基础。可问责和透明度显示为垂直框,因为它与所有其他特征相关。

单独解决 AI 的可信度特征并不能确保 AI 系统就是可信的;这通常涉及权衡,并非所有特征都适用于所有情况,不同特征在特定情况重要性是不一样的。归根结底,可信度是一个宽泛的社会概念,其强度取决于其最薄弱的特征。

在管理 AI 风险时,组织为了平衡这些特征可能对方案难以抉择。例如,在某些场景下,优化可解释性与实现隐私之间可能出现权衡;在另一些情况下,组织可能面临预测准确性与可解释性之间的取舍;或是在数据稀疏等特定条件下,隐私增强技术可能导致准确性损失,影响特定领域关于公平性等价值的决策。处理权衡需要考量决策背景。这些分析可以揭示不同措施间权衡的存在程度,但无法解答如何应对权衡的问题——这取决于相关场景中的价值取向,应当以透明且合理正当的方式予以解决。

在增强 AI 生命周期情境意识方面存在多种方法。例如,领域专家可协助评估 TEVV(测试、评估、验证与确认)结果,并与产品及部署团队协作调整 TEVV 参数以匹配需求与部署条件。在资源充足时,加强利益相关方和 AI 参与者在整个生命周期中输入的广度与多样性,能够提升情境敏感性评估的参考价值,更有助于识别 AI 系统优势与积极影响。这些实践可提高社会场景中风险得到妥善管理的可能性。

对可信度特征的理解和处理取决于 AI 参与者在 AI 生命周期中的具体角色。对于任何给定的 AI 系统,AI 设计人员或开发人员对这些特征的理解可能与部署人员不同。

本文档所述可信度特征存在相互影响关系。高度安全但缺乏公平的系统、准确但缺乏透明度与可解释性的系统,以及低精度但具备安全隐私增强和透明度的系统均不可取。综合风险管理方法要求在可信度特征之间进行权衡。有 AI 参与者都有共同责任确定 AI 技术是否是特定背景或目的的适当或必要工具,以及如何负责任地使用它。委托或部署 AI 系统的决定应基于对可信度特征和相对风 险、影响、成本和收益的上下文评估,并由广泛的利益相关方告知。

3.1 有效性和可靠性

验证是“通过提供客观证据,确认特定预期用途或应用的要求已得到满足”(来源:ISO 9000:2015)。部署不准确、不可靠或对训练范围之外的数据和设置泛化能力较差的 AI 系统,会产生和增加负面风险,并降低其可信度。

可靠性的定义与“在给定时间间隔内,在给定条件下,产品按要求无故障运行的能力”相同(来源:ISO/IEC TS 5723:2022)。可靠性是 AI 系统在预期使用条件下以及在给定时间段(包括系统的整个生命周期)内运行总体平稳的目标。

准确性和稳健性共同构成人工智能系统的有效性和可信度,并且在人工智能系统中可能相互冲突。

ISO/IEC TS 5723:2022 将准确性定义为“观察、计算或估计结果与真实值或公认真实值的接近程度”。准确性的衡量标准应考虑以计算为中心的指标(例如,假阳性率和假阴性率)、人机协作,并证明外部有效性(可推广到训练条件之外)。准确性测量应始终与定义明确且切合实际的测试集(代表预期使用条件)以及测试方法的详细信息相结合;这些内容应包含在相关文档中。衡量准确性可能包括对不同数据段结果的分解。

鲁棒性通用性被定义为“系统在各种情况下保持其性能水平的能力”(来源:ISO/IEC TS 5723:2022)。鲁棒性旨在确保系统在各种环境中保持适当功能运作,包括最初未预见的 AI 系统使用场景。鲁棒性不仅要求系统在预期使用中精确运行,还要求在意外操作环境中通过特定方式运行以最大限度地减少对人员造成的潜在伤害。

已部署 AI 系统的有效性和可靠性通常通过持续的测试或监控来评估,以确认系统按预期运行。有效性、准确性、鲁棒性和可靠性的衡量有助于提高可信度,并应考虑到某些类型的故障可能造成更严重的危害。AI 风险管理工作应优先考虑将潜在的负面影响降至最低,在 AI 系统无法检测或纠正错误的情况下可能需要人为干预。

3.2 人身安全

AI 系统“在规定条件下不应导致人类生命、健康、财产或环境受到威胁”(来源:ISO/IEC TS 5723:2022)。通过以下方式提高 AI 系统的安全运行:

  • 负责任的设计、开发和部署 AI 系统;
  • 向部署人员提供关于负责任地使用系统的明确信息;
  • 部署人员和最终用户做出负责任的决策;
  • 基于事件经验证据对风险进行解释和记录。

不同类型的安全风险可能需要根据情境及潜在风险严重性采取定制化 AI 风险管理方法。对可能导致严重伤害或死亡的安全风险,应实施最优先级的紧急处理和最全面的风险管理流程。

在系统生命周期中融入安全考量,并尽可能早在规划与设计阶段启动,可预防导致系统危险的故障或状态。其他 AI 安全实践方法通常涉及严格的模拟与领域内测试、实时监测,以及对偏离预期功能系统的关闭、修正或人工介入能力。

AI 安全风险管理方法应借鉴交通运输、医疗健康等领域的安全实践与指南,并与现有行业或应用场景专用指南或标准保持一致。

3.3 安全和韧性

AI 系统及其部署的生态系统若能在遭遇意外不利事件或环境与用途的意外变化时保持稳定,或在面对内外变化时维持功能与结构完整性,并在必要时实现安全可控的性能降级,则可称其具有韧性(改编自:ISO/IEC TS 5723:2022)常见安全关切涉及对抗样本、数据投毒,以及通过 AI 系统端点实施的模型窃取、训练数据泄露或其他知识产权侵害行为。通过防护机制确保未授权访问与使用防范,实现机密性、完整性和可用性维护的 AI 系统可视为具备安全性。此领域适用的指南包括美国国家标准与技术研究院网络安全框架(CSF)风险管理框架(RMF)的相关内容。

安全和韧性是相互关联但又截然不同的特征。韧性指系统在意外不利事件后恢复正常功能的能力,而安全包含韧性,同时涵盖避免、防范、应对攻击或从中恢复的防护机制。韧性涉及鲁棒性,其范畴超越数据来源本身,延伸至模型或数据遭遇意外使用、对抗性使用(或滥用、误用)的情形。

3.4 可问责和透明度

可信 AI 的实现依赖问责机制,而问责机制以透明度为基础。透明度体现为个人在与 AI 系统交互时(无论是否意识到这一点)能够获取该系统及其输出信息的程度。有效的透明度应根据 AI 生命周期阶段,向不同角色或知识水平的 AI 开发者、用户提供适配其需求的信息层级。通过增强对系统的理解,透明度可提升人们对 AI 技术的信任度。

该特性涵盖的范围从设计决策、训练数据延伸到模型训练、模型结构、预期用例,以及部署、部署后或终端用户决策的制定方式、时间节点与责任人。当 AI 系统输出错误或引发负面影响时,透明度通常是实现有效补救的必要条件。透明度设计需考虑人机交互场景:例如当检测到 AI 系统可能导致或已造成不利结果时,如何向操作人员或用户发出警示。透明的系统未必是准确、隐私增强、安全或公平的系统,但若系统不透明,则难以验证其是否具备这些特性,且在复杂系统动态演进过程中持续验证更为困难。

在追究 AI 系统结果的问责时,需考虑 AI 参与者的角色。AI 技术系统所涉及的风险与责任关系,在不同文化、法律、行业和社会背景下存在着广泛差异。当面临严重后果(如涉及生命权与人身自由)时,AI 开发者和部署者应相应地主动调整透明度与问责实践。维持减少损害的组织实践和治理结构(例如风险管理),有助于构建更具问责性的系统。

提升透明度与问责的措施还需考虑实施主体的承受能力,包括所需资源量级及保护商业机密的需求。

维护训练数据的来源,支持将 A I系统决策归因于特定训练数据子集,有助于提升透明度与问责性。训练数据可能涉及版权问题,须遵循适用的知识产权法律。

随着 AI 系统透明度工具及相关文档的持续演进,建议 AI 系统开发者与部署者合作测试不同类型的透明度工具,以确保 AI 系统按预期目的使用。

3.5 可解释性与可理解性

可解释性‌指对AI系统运行机制的底层原理进行描述,而‌可理解性‌则指在系统设计功能目标的语境下对其输出结果含义的解读。可解释性与可理解性共同帮助 AI 系统的运营方、监管者及用户更深入地理解系统的功能、可信度及其输出结果。其核心逻辑在于:负面风险的感知往往源于无法恰当理解或情境化系统的输出。具备可解释性与可理解性的 AI 系统能够提供信息,帮助最终用户理解系统的用途及潜在影响。

‌因缺乏可解释性导致的风险,可通过描述 AI 系统的工作机制来缓解,这些描述需根据用户角色、知识储备和技能水平等个体差异进行调整。可解释的系统更易于调试与监控,同时也便于进行更详尽的文档记录、审计与治理。

可理解性风险‌通常可通过阐明 AI 系统为何做出特定预测或建议来解决。(参见此处引用的《可解释人工智能的四大原则》及《AI 可解释性与可理解性的心理学基础》)

透明度、可解释性与可理解性是三个相互支持的不同特性。透明度可回答系统中‌“发生了什么”;可解释性可回答系统“如何”做出决策;可理解性则可解释系统“为何”做出该决策,以及该决策对用户的意义或所处背景。

3.6 隐私增强

隐私通常指有助于维护人类自主权、身份和尊严的规范和实践。这些规范和实践通常涉及免受侵犯、限制观察,或个人自主同意披露或控制其身份信息(例如身体、数据、声誉)的自由。(参见 NIST 隐私框架:通过企业风险管理改善隐私的工具

‌隐私价值(如匿名性、机密性及控制权)通常应指导 AI 系统的设计、开发与部署。与隐私相关的风险可能影响安全性、公平性及透明度,并需与其他特性进行权衡取舍。与安全性和保障性一样,AI 系统的特定技术特征可能增强或削弱隐私保护。AI 系统还可能通过推断识别个人身份或获取个体此前私密信息,引发新的隐私风险。

AI 隐私增强技术(PETs),以及针对某些模型输出的去标识化、聚合等数据最小化方法,可助力设计隐私增强的 AI 系统。在数据稀疏等特定条件下,隐私增强技术可能导致准确性下降,进而影响特定领域中关于公平性及其他价值的决策。

3.7 公平性——管控有害偏见

AI 的公平性体现在对平等和公平的关注,即通过解决有害偏见和歧视等问题。公平的标准可能很复杂,难以界定,因为不同文化对公平的认知存在差异,并且可能因应用场景而存在差异。认识到并考虑这些差异将有助于增强组织的风险管理工作。能够有效减轻有害偏见的系统并不一定公平。例如,即使预测结果在不同人口群体之间保持一定平衡,残障人士或受数字鸿沟影响的人士仍然可能无法使用该系统,或者该系统可能会加剧现有的差距或系统性偏见。

偏见比人口平衡和数据代表性更广泛。NIST 已确定了三大类需要考虑和管理的 AI 偏见:系统性偏见、计算与统计偏见以及人类认知偏见。在每种情况都可能在没有偏见、偏袒或歧视意图的情况下发生。系统性偏见可能存在于 AI 数据集中、贯穿 AI 生命周期的组织规范/实践/流程中,以及使用 AI 系统的更广泛社会层面。计算与统计偏见可能存在于 AI 数据集与算法流程中,常源于非代表性样本导致的系统性误差。人类认知偏见涉及个体或群体如何基于 AI 系统信息作出决策或填补缺失信息,或人类如何理解 AI 系统的目的与功能。人类认知偏见普遍存在于 AI 生命周期与系统使用的决策过程中,涵盖 AI 系统的设计、实施、运行及维护阶段。

偏见以多种形式存在,在帮助我们做出生活决策的自动化系统中,可能早已根深蒂固。虽然偏见并不总是一种负面现象,但 AI 系统可能会加速偏见的蔓延和扩大其规模,并持续扩大对个人、群体、社区、组织和社会的危害。偏见与社会的透明度和公平性密切相关。(有关偏见的更多信息,包括这三个类别,请参阅NIST特别出版物1270《迈向识别和管理 AI 偏见的标准》。)

4 AI RMF 的有效性

人工智能风险管理框架(AI RMF)有效性评估(包括衡量 AI 系统可信度底线提升的方法)将成为 NIST 未来活动的一部分,并与 AI 社区携手合作。

鼓励各组织和本框架的其他用户定期评估 AI RMF 是否提升了其管理 AI 风险的能力,包括但不限于其政策、流程、实践、实施计划、指标、衡量标准和预期成果。NIST 计划与其他机构合作,制定评估 AI RMF 有效性的指标、方法和目标,并广泛分享结果和支持信息。框架用户预计收益:

  • 增强 AI 风险治理、映射、衡量和管理流程,并清晰地记录结果;
  • 提高对可信度特征、社会技术方法和 AI 风险之间关系及权衡的认识;
  • 制定明确的系统调试和部署决策流程;
  • 建立完善的政策、流程、实践和程序,以改进与 AI 系统风险相关的组织问责工作;
  • 增强组织文化,优先识别和管理 AI 系统风险及其对个人、社区、组织和社会的潜在影响;
  • 更好地在组织内部和组织之间共享有关风险、决策流程、职责、常见陷阱、TEVV 实践和持续改进方法的信息;
  • 更深入地了解背景知识,以增强对下游风险的认识;
  • 加强与利益相关方和相关 AI 参与者的合作;
  • 增强对 AI 系统及其相关风险的 TEVV 能力。

第二部分:核心和配置

5 AI RMF 核心

AI RMF 核心提供成果和行动,以促进对话、理解和活动,从而管理 AI 风险并负责任地开发值得信赖的 AI 系统。如图 5 所示,核心由四项功能组成:GOVERN(治理)、MAP(映射)、MEASURE(衡量)、MANAGE(管理)。每项高级功能都细分为类别和子类别。类别和子类别又细分为具体的行动和成果。行动并非构成清单,也不一定是由一系列有序的步骤组成的。

pic5

图 5.各职能部门在最高级别组织 AI 风险管理活动,以管理、映射、衡量和管理AI 风险。治理旨在成为一个跨领域的职能,为其他三个职能提供信息并注入其中。

风险管理应持续、及时,并贯穿 AI 系统生命周期的各个维度。人工智能风险管理框架(AI RMF)的核心功能应以反映多元化和多学科视角的方式执行,并尽可能地吸收组织外部 AI 参与者的观点。多元化团队有助于更开放地分享关于技术设计、开发、部署或评估目标与功能的观点及假设,从而为暴露潜在问题、识别既有及新兴风险创造机会。

AI RMF 的在线配套资源——《NIST 人工智能风险管理框架行动手册》(NIST AI RMF Playbook),可帮助组织驾驭 AI RMF,并通过建议的战术行动在自身环境中应用,从而实现其成果。与 AI RMF 一样,AI RMF Playbook 也是自愿性的,组织可以根据自身需求和兴趣采纳其中的建议。AI RMF Playbook 用户可以根据建议的材料创建定制的指南,供自己使用。也可以贡献他们的建议,并在社区进行广泛的分享。与 AI RMF 一样,AI RMF Playbook 也是 NIST 可信和负责任 AI 资源中心的一部分。

框架使用者可根据自身资源与能力,以最适配需求的方式运用这些职能管理 AI 风险。部分组织可能选择从分类与子类别中筛选适用项;其他组织可能具备能力并选择应用所有分类与子类别。假设已建立治理结构,框架使用者可在AI 生命周期内以任意顺序执行其认为能创造价值的功能模块。在实施"治理"(GOVERN)环节的成果后,大多数 AI RMF 使用者将从"映射"(MAP)功能模块入手,随后推进至"衡量"(MEASURE)或"管控"(MANAGE)模块。无论用户以何种方式整合模块,该过程应具备迭代特性,必要时在功能模块间进行交叉引用。类似地,部分类别与子类别包含适用于多项功能的要素,或在逻辑上应先于特定子类别决策执行。

5.1 治理

治理模块的功能:

  • 在设计、开发、部署、评估或获得 AI 系统的组织内培养和实施风险管理文化;
  • 概述预测、识别和管理系统可能带来的风险(包括对用户和社会其他方面的风险)流程、文档和组织方案,以及实现这些结果的步骤;
  • 纳入评估潜在影响的流程;
  • 提供一个结构,使 AI 风险管理功能能够与组织原则、政策和战略重点保持一致;
  • 将 AI 系统设计和开发的技术与组织价值观和原则联系起来,并为参与获取、培训、部署和监控此类系统的个人提供组织实践和能力;
  • 解决完整的产品生命周期和相关流程,包括与使用第三方软硬件系统和数据有关的法律和其他问题。

治理是一项贯穿整个 AI 风险管理流程的功能模块,可支持流程中的其他模块。治理的各个方面,尤其是与合规性或评估相关的方面,应融入到其他各项模块中。关注治理是有效管理 AI 风险管理的内在要求,贯穿 AI 系统的整个生命周期和组织的层次结构。

强有力的治理可以推动和加强内部实践和规范,从而促进组织风险文化的形成。治理主体可以指定总体政策,以指导组织使命、目标、价值观、文化和风险承受能力。高层领导为组织内部的风险管理定下基调,并由此奠定组织文化。管理层将 AI 风险管理的技术层面与政策和运营保持一致。文档可以提高透明度,改进人工审核流程,并加强 AI 系统团队的问责制。

在建立了治理模块中描述的风险管理系统、结构、流程和团队之后,组织应受益于一种以风险认知与管理为核心的目标驱动型文化。随着 AI 参与者的知识、文化和需求或期望随着时间的推移而发展,框架使用者有责任继续执行治理功能。

NIST AI RMF Playbook 中描述了与治理 AI 风险相关的实践。表 1 列出了治理模块的类别和子类别。

类别子类别
GOVERN 1:整个组织中与 AI 风险的映射、衡量和管理相关的政策、流程、步骤和实践都是到位、透明和有效实施的。GOVERN 1.1:涉及 AI 的法律和监管要求得到理解、管理和记录。
GOVERN 1.2:可信 AI 的特征被整合到组织的政策、流程、步骤和实践中。
GOVERN 1.3:制定流程、程序和实践,以根据组织的风险承受能力确定所需的风险管理活动水平。
GOVERN 1.4:风险管理过程及其结果是通过基于组织风险优先级的透明政策、步骤和其他控制措施建立的。
GOVERN 1.5:计划对风险管理过程及其结果进行持续监控和定期审查,并明确界定组织的角色和职责,包括确定定期审查的频率。
GOVERN 1.6:建立机制对 AI 系统进行盘点,并根据组织的风险优先级提供资源。
GOVERN 1.7:制定流程和步骤,以安全、不增加风险或降低组织可信度的方式解除和逐步淘汰 AI 系统。
GOVERN 2:问责制体制已经形成,因此适当的团队和个人被授权、负责并接受培GOVERN 2.1:与映射、衡量和管理 AI 风险相关的角色、职责和沟通渠道都有记录,并且整个组织的个人和团队都清楚。
GOVERN 2.2:该组织的人员和合作伙伴接受AI 风险管理培训,使他们能够按照相关政策、步骤和协议履行职责。
GOVERN 2.3:组织的行政领导层对与 AI 系统开发和部署相关的风险决策负责。
GOVERN 3:在整个生命周期中,员工多样性、公平性、包容性和可访问性流程在映射、衡量和管理 AI 风险时被列为优先事项。GOVERN 3.1:在整个生命周期中,与映射、衡量和管理 AI 风险相关的决策是由一个多元化的团队(例如,人口统计、学科、经验、专业知识和背景的多样性)做出的。
GOVERN 3.2:制定政策和步骤,以定义和区分人类 AI 配置和 AI 系统监督的角色和责任。
GOVERN 4:组织团队致力于一种考虑和传达 AI 风险的文化。GOVERN 4.1:组织政策和实践已准备就绪,在AI 系统的设计、开发、部署和使用中培养批判性思维和安全第一的心态,以尽量减少潜在的负面影响。
GOVERN 4.2:组织团队记录他们设计、开发、部署、评估和使用的 AI 技术的风险和潜在影响,并更广泛地沟通这些影响。
GOVERN 4.3:组织实践已经准备就绪,可以进行AI 测试、事件识别和信息共享。
GOVERN 5:与相关 AI 参与者进行强有力的互动的流程已经准备就绪。GOVERN 5.1:组织政策和做法已经准备好,以收集、考虑、优先考虑和整合来自开发或部署 AI 系统的团队外部的反馈,这些反馈涉及与 AI 风险相关的潜在个人和社会影响。
GOVERN 5.2:建立机制,使开发或部署 AI 系统的团队能够定期将相关 AI 参与者的反馈纳入系统设计和实施中。
GOVERN 6:政策和步骤已经到位,以解决第三方软件和数据以及其他供应链问题带来的 AI 风险和收益。GOVERN 6.1:制定政策和步骤,以应对与第三方实体相关的 AI风险,包括侵犯第三方知识产权或其他权利的风险。
GOVERN 6.2:制定应急流程,以处理被视为高风险的第三方数据或 AI 系统中的故障或事件。

5.2 映射

映射功能建立了界定与 AI 系统相关风险的背景(环境上下文)。AI 生命周期包含许多相互依赖的活动,涉及多样化的相关方(见图3)。实践中,负责流程某一部分的 AI 参与者通常无法全面了解或控制其他部分及其关联背景。这些活动之间以及相关 AI 参与者之间的相互依存关系,可能导致难以可靠预判 AI 系统的影响。例如,在确定 AI 系统目的和目标时做出的早期决策可能改变其行为和能力,而部署环境动态(如终端用户或受影响的个体)可能形塑AI 系统决策的影响。因此,在 AI 生命周期的某一维度中的良好初衷,可能因与其他后续阶段活动中的决策和条件相互作用而被削弱。

这种复杂性及可见性水平的差异可能为风险管理实践引入不确定性。通过预测、评估及处理负面风险的潜在根源,可降低此类不确定性并提升决策过程的完整性。

在执行映射模块过程中收集的信息,能够支持负面风险预防,并为模型管理等流程的决策提供依据,同时形成关于 AI 解决方案适用性或必要性的初步判断。映射的成果是"衡量"(MEASURE)与"管理"(MANAGE)模块的基础。若缺乏背景知识及对已识别场景中风险的认知,风险管理将难以有效实施。映射旨在强化组织识别风险及更广泛影响因素的能力。

通过整合来自多元化内部团队的观点,并与开发或部署 AI 系统的团队外部人员进行互动,可以增强此功能的实施。与外部合作者、最终用户、潜在受影响社区以及其他人员的互动可能会因特定 AI 系统的风险级别、内部团队的构成以及组织政策而异。收集这些广泛的视角可以帮助组织主动预防负面风险,并通过以下方式开发更可信的 AI 系统:

  • 提高他们理解环境背景的能力;
  • 检查他们对使用背景的假设;
  • 能够识别系统在其预期背景之内或之外何时无法运行;
  • 确定现有 AI 系统的积极和有益用途;
  • 提高对 AI 和机器学习过程局限性的理解;
  • 确定现实世界应用中可能导致负面影响的制约因素;
  • 确定与 AI 系统预期用途相关的已知和可预见的负面影响;
  • 预测 AI 系统超出预期用途使用的风险。

完成 MAP(映射)功能后,框架使用者应具备足够的 AI 系统影响背景知识,以便初步决定是否设计、开发或部署 AI 系统。如果决定继续进行,组织应利用 MEASURE(衡量) 和 MANAGE(管理) 功能以及 GOVERN(治理) 功能中制定的政策和程序来协助 AI 风险管理工作。随着背景、功能、风险、效益和潜在影响的演变,框架使用者有责任持续将映射功能应用于 AI 系统。

NIST AI RMF Playbook 手册中介绍了与映射 AI 风险相关的做法。表 2 列出了映射功能模块的类别和子类别。

类别子类别
MAP 1:建立并理解背景(上下文)。MAP 1.1:预期目的、潜在有益用途、特定环境的法律、规范和期望,以及部署 AI 系统的预期环境都得到了理解和记录。考虑因素包括:特定的用户群体或类型以及他们的期望;系统使用对个人、社区、组织、社会和地球的潜在积极和消极影响;关于 AI 系统在整个开发或产品AI 生命周期中的目的、用途和风险的假设和相关限制;以及相关的 TEVV 和系统度量。
MAP 1.2:跨学科的 AI 参与者、能力、技能和建立背景的能力反映了人口多样性以及广泛的领域和用户体验专业知识,他们的参与是有记录的。优先考虑跨学科合作的机会。
MAP 1.3:了解并记录组织的使命和 AI 技术的相关目标。
MAP 1.4:业务价值或业务使用背景已明确界定,或者在评估现有 AI 系统的情况下,已重新评估。
MAP 1.5:确定并记录组织的风险承受能力。
MAP 1.6:系统要求(例如,“系统应尊重用户的隐私”)由相关 AI 参与者提出并理解。设计决策考虑了社会技术影响,以应对 AI 风险。
MAP 2:对AI 系统进行分类。MAP 2.1:定义了用于实现 AI 系统将支持的任务的具体任务和方法(例如分类者、生成模型、推荐者)。
MAP 2.2:记录了 AI 系统的知识极限以及人类如何利用和监督系统输出的信息。文档提供了足够的信息,以协助相关AI 参与者做出决策和采取后续行动。
MAP 2.3:确定并记录科学完整性和 TEVV 考虑因素,包括与实验设计、数据收集和选择(如可用性、代表性、适用性)、系统可信度和结构验证相关的因素。
MAP 3:了解 AI 能 力、目标使用、目标以及与适当基准相比的预期收益和成本。MAP 3.1:检查并记录预期 AI 系统功能和性能的潜在好处。
MAP 3.2:检查并记录潜在成本,包括非货币成本,这些成本是由预期或实现的 AI 错误或系统功能和可信度引起的,与组织的风险承受能力有关。
MAP 3.3:根据系统的能力、背景(环境上下文)和 AI 系统分类,指定并记录目标应用范围。
MAP 3.4:定义、评估和记录操作员和从业者对 AI 系统性能和可信度以及相关技术标准和认证的熟练程度流程。
MAP 3.5:根据 GOVERN(治理) 模块的组织政策,定义、评估和记录人工监督流程。
MAP 4:为 AI 系统的所有组件(包括第三方软件和数据)绘制风险和收益图。MAP 4.1:绘制 AI 技术及其组件的法律风险(包括使用第三方数据或软件)的方法已经到位、遵循并记录在案,侵犯第三方知识产权或其他权利的风险也是如此。
MAP 4.2:识别并记录 AI 系统组件的内部风险控制,包括第三方 AI 技术。
MAP 5:对个人、群体、社区、组织和社会的影响具有特征。MAP 5.1:根据预期用途、AI 系统在类似情况下的过去使用情况、公共事件报告、开发或部署 AI 系统的团队外部人员的反馈或其他数据,确定并记录每种已确定影响(潜在有益和有害)的可能性和程度。
MAP 5.2:支持与相关 AI 参与者定期接触并整合有关积极、消极和意外影响的反馈的做法和人员已经到位并记录在案。

5.3 衡量

风险分析(衡量)功能采用定量、定性或混合方法的工具、技术和方法来分析、评估、基准测试和监控 AI 风险及相关影响。它利用与映射功能中识别的 AI 风险相关的知识,并为管理功能提供信息。AI 系统应在部署前进行测试,并在运行过程中定期进行测试。AI 风险分析包括记录系统功能和可信度的各个方面。

衡量 AI 风险包括追踪可信特征、社会影响以及人机交互配置等指标。衡量功能中开发或采用的流程应包括严格的软件测试和性能评估方法,并包含相关的不确定性度量、与性能基准的比较,以及正式的测试结果报告和记录。独立审查流程可以提高测试的有效性,并减少内部偏见和潜在的利益冲突。

当可信度特征之间需要权衡取舍时,风险分析(衡量)提供可追溯的依据为管理决策提供信息。可选方案可能包括重新校准、影响缓解、从设计/开发/生产或使用中移除系统,以及一系列补偿性(compensating)、检测性(detective)、威慑性(deterrent)、指导性(directive)和恢复性(recovery)控制措施。

完成衡量功能后,需建立、遵循并记录客观、可重复或可扩展的测试、评估、验证与确认(TEVV)流程,包括指标、方法及方法论。指标与衡量方法应符合科学、法律和道德规范,并以开放透明的流程执行。可能需要开发新型定性及定量分析方式。应考量每种衡量类型对 AI 风险评估所提供独特且有意义信息的程度。框架使用者将提升其全面评估系统可信度、识别追踪现有及新兴风险、验证指标有效性的能力。测量结果将被用于管理模块以协助风险监测与应对工作。随着知识、方法论、风险及影响随时间演变,框架使用者有责任持续对 AI 系统应用衡量功能。

与衡量 AI 风险相关的做法在 NIST AI RMF Playbook 中进行了介绍。表 3 列出了衡量模块的类别和子类别。

类别子类别
MEASURE 1:确定并应用适当的方法和指标。MEASURE 1.1:从最重要的 AI 风险开始,选择用于衡量映射功能期间列举的 AI 风险的方法和指标进行实施。不会或无法衡量的风险或可信度特征都有适当的记录。
MEASURE 1.2:定期评估和更新 AI 指标的适当性和现有控制措施的有效性,包括错误报告和对受影响社区的潜在影响。
MEASURE 1.3:未担任系统一线开发人员和/或独立评估员的内部专家参与定期评估和更新。根据组织的风险承受能力,在必要时咨询领域专家、用户、开发或部署 AI 系统的团队外部的 AI 参与者以及受影响的社区,以支持评估。
MEASURE 2:评估 AI系统的可信特征。MEASURE 2.1:记录测试集、指标和 TEVV 期间使用的工具的详细信息。MEASURE 2.2:涉及人类受试者的评估符合适用要求(包括人类受试者保护),并代表相关人群。
MEASURE 2.3:对 AI 系统性能或保证标准进行定性或定量分析,并在类似于部署设置的条件下进行验证。措施有文件记录。
MEASURE 2.4:在生产过程中,对 AI 系统及其组件的功能和行为进行监控,如映射功能中所述。
MEASURE 2.5:要部署的 AI 系统被证明是有效和可靠的。记录超出开发技术条件的泛化性限制。
MEASURE 2.6:定期评估 AI 系统的安全风险,如映射功能中所识别的。待部署的 AI 系统被证明是安全的,其剩余负风险不超过风险承受能力,并且在发生故障情况下,也是安全的,特别是在超出其知识范围的情况下。安全指标反映了系统的可靠性和鲁棒性、实时监控以及 AI 系统故障的响应时间。MEASURE 2.7:评估和记录 AI 系统的安全性和韧性——如映射功能中确定的那样。
MEASURE 2.8:检查并记录映射功能中确定的与透明度和可问责性相关的风险。
MEASURE 2.9:解释、验证和记录 AI 模型,并在映射功能中确定的背景环境中解释 AI 系统输出,以告知负责任的使用和治理。
MEASURE 2.10:检查并记录映射功能中确定的 AI 系统的隐私风险。
MEASURE 2.11:评估映射功能中确定的公平性和偏见,并记录结果。
MEASURE 2.12:评估和记录 AI 模型训练和管理活动的环境影响和可持续性(如映射功能中确定的那样)。
MEASURE 2.13:评估并记录衡量功能中采用的TEVV 度量和过程的有效性。
MEASURE 3:随着时间的推移,跟踪已识别的AI 风险的机制已经到位。MEASURE 3.1:根据部署环境中的预期和实际性能等因素,制定方法、人员和文件,定期识别和跟踪现有、意外和紧急的AI 风险。
MEASURE 3.2:对于使用当前可用的测量技术难以评估 AI 风险或尚不可用指标的环境,可以考虑使用风险跟踪方法。
MEASURE 3.3:建立最终用户和受影响社区报告问题和上诉系统结果的反馈流程,并将其整合到 AI 系统评估指标中。
MEASURE 4:收集并评估有关衡量有效性的反馈。MEASURE 4.1:用于识别 AI 风险的衡量方法与部署环境有关,并通过与领域专家和其他最终用户协商来获取信息。方法有文件记录。
MEASURE 4.2:在部署环境和整个 AI 生命周期中,关于 AI 系统信任度的测量结果由领域专家和相关 AI 参与者的输入提供,以验证系统是否按预期一致运行。结果已记录在案。
MEASURE 4.3:根据与相关 AI 参与者(包括受影响社区)的协商,以及与背景相关的风险和可信度特征的现场数据,确定并记录可衡量的绩效改善或绩效下降。

5.4 管理

管理功能负责定期将风险资源分配给已映射和衡量的风险,并由治理功能进行定义。风险处理包括针对事件的响应、恢复和沟通计划。

此功能利用从专家咨询和相关 AI 参与者的意见中收集到的上下文信息(或翻译为前面描述过的的背景)(这些信息已在治理中建立并在映射中实施),以降低系统故障和负面影响的可能性。治理中建立并在映射和衡量中运用的系统性文档实践,增强了 AI 风险管理工作,并提高了透明度和问责制。评估新兴风险的流程已到位,并建立了持续改进机制。

完成管理功能后,将制定风险优先级排序、定期监测和改进计划。框架使用者将增强管理已部署 AI 系统风险的能力,并根据评估和优先排序的风险分配风险管理资源。随着方法、环境、风险以及相关 AI 参与者的需求或期望的不断演变,框架使用者有责任继续将管理功能应用于已部署的 AI 系统。

与管理 AI 风险相关的实践在 NIST AI RMF Playbook 中进行了介绍。表 4 列出了管理功能模块的类别和子类别。

类别子类别
MANAGE 1:基于 MAP(映射) 和 MEASURE(衡量) 功能的评估和其他分析输出的 AI 风险被优先考虑、应对和管理。MANAGE 1.1:确定 AI 系统是否实现了其预期目的和既定目标,以及是否应该继续开发或部署。
MANAGE 1.2:根据影响、可能性和可用资源或方法,优先处理已经记录的 AI 风险。
MANAGE 1.3:针对映射功能确定的被视为高优先级的 AI 风险,制定、规划和记录应对措施。风险应对方案可以包括缓解、转移、避免或接受。
MANAGE 1.4:记录 AI 系统下游采购方和最终用户的负剩余风险(定义为所有未缓解风险的总和)。
MANAGE 2:规划、准备、实施、记录和告知相关 AI 参与者的投入,以最大限度地提高 AI 效益并减少负面影响。MANAGE 2.1:考虑管理 AI 风险所需的资源,以及可行的非 AI 替代系统、方法或手段,以降低潜在影响的程度或可能性。
MANAGE 2.2:已建立并应用机制来维持部署的 AI 系统的价值。
MANAGE 2.3:当识别出以前未知的风险时,遵循程序进行响应和恢复。
MANAGE 3: 管理来自第三方实体的 AI 风险和收益。MANAGE 3.1:定期监控第三方资源的 AI 风险和收益,并应用和记录风险控制措施。
MANAGE 3.2:用于开发的预训练模型作为 AI 系统定期监控和维护的一部分,并进行监控。
MANAGE 4:定期记录和监控风险处理,包括应对和恢复,以及已识别和衡量的 AI 风险的沟通计划。MANAGE 4.1:已制定并实施部署后的人工智能系统监控计划,包括以下机制:收集和评估来自用户及其他相关人工智能参与者的反馈、申诉与覆议、停用、事件响应、恢复以及变更管理。
MANAGE 4.2:持续改进的可衡量活动被整合到 AI 系统更新中,包括与利益相关方(如相关 AI 参与者)的定期接触。
MANAGE 4.3:事件和错误会传达给相关的 AI 参与者,包括受影响的社区。遵循并记录事件和错误的跟踪、响应和恢复过程。

6 AI RMF 画像(配置)

AI RMF 用例画像(Profiles,在 RMF 中,也可以翻译为配置)是 AI RMF 功能、类别及子类在特定场景或应用中的具体实现,其依据框架使用者的需求、风险承受能力和资源进行定制。例如,AI RMF 招聘画像或 AI RMF 公平住房画像。这些画像可展示并深入探讨如何在 AI 生命周期的不同阶段,或在特定行业、技术或终端应用场景中管理风险。

AI RMF 时序画像是对特定行业、产业、组织或应用环境中特定 AI 风险管理活动的当前状态或期望目标状态的描述。AI RMF 当前画像表明 AI 当前的管理方式以及当前结果相关的风险。目标画像表明实现期望或目标 AI 风险管理目标所需的结果。

比较当前画像和目标画像,可能揭示出实现 AI 风险管理目标所需的差距。可以制定行动计划来弥补这些差距,以实现特定类别或子类别的目标。差距缓解的优先级由用户的需求和风险管理流程决定。这种基于风险的方法还使框架使用者能够将其方法与其他方法进行比较,并评估以经济高效、优先的方式实现 AI 风险管理目标所需的资源(例如人力和资金)。

AI RMF 交叉画像涵盖可跨用例或跨行业使用的模型或应用程序的风险。交叉画像还可以涵盖如何治理、映射、衡量和管理跨行业常见活动或业务流程的风险,例如使用大模型、基于云的服务或采购。

此框架不规定画像(配置文件)模板,允许灵活实施。

附录 A:图 2 和图 3 中的 AI 参与者任务描述

AI 设计任务在图 2 中 AI 生命周期的 Application Context 和 Data and Input 阶段执行。AI 设计参与者创建 AI 系统的概念和目标,并负责 AI 系统的规划、设计以及数据收集和处理任务,以确保 AI 系统合法且符合用途。任务包括阐明和记录系统的概念和目标、基本假设、背景和要求;收集和清理数据;以及记录数据集的元数据和特征。此类别的 AI 参与者包括数据科学家、主要专家、社会文化分析师、多样性、公平性、包容性和可访问性领域的专家、受影响的社区成员、人为因素专家(例如,用户体验/用户界面设计)、治理专家、数据工程师、数据提供者、系统资助者、产品经理、第三方实体、评估人员以及法务和隐私治理人员。

AI 开发任务在图 2 中生命周期的 AI Model 阶段执行。AI 开发参与者提供 AI 系统的初始基础设施,并负责模型构建和解释任务,其中包括模型或算法的创建、选择、校准、训练和/或测试。此类别中的 AI 参与者包括机器学习专家、数据科学家、开发人员、第三方实体、法务和隐私治理专家,以及与部署设置相关的社会文化和背景因素方面的专家。

AI 部署任务在图 2 中生命周期的 Task 和 Output 阶段执行。AI 部署参与者负责与如何使用 AI 系统相关的上下文决策,以确保将系统部署到生产环境中。相关任务包括试用系统、检查与旧系统的兼容性、确保合规性、管理组织变更以及评估用户体验。此类 AI 参与者包括系统集成商、软件开发人员、最终用户、运营商和从业者、评估人员以及在人为因素、社会文化分析和治理方面具有专业知识的领域专家。

运营和监控任务在图 2 中生命周期的 Application Context/Operate and Monitor 阶段执行。这些任务由 AI 参与者执行,他们负责作 AI 系统并与他人合作,定期评估系统输出和影响。此类别中的 AI 参与者包括系统操作员、领域专家、AI 设计师、解释或整合 AI 系统输出的用户、产品开发人员、评估员和审计员、合规性专家、组织管理人员以及研究社区的成员。

测试、评估、验证和确认 (TEVV) 任务贯穿整个 AI 生命周期。这些任务由 AI 参与者执行,负责检查 AI 系统或其组件,或检测和修复问题。理想情况下,执行验证和确认任务的 AI 参与者与执行测试和评估操作的参与者不同。这些任务可以在设计阶段尽早纳入,并根据设计要求规划测试。

  • 用于设计、规划和数据的 TEVV 任务可能集中在对系统设计、数据收集和测量假设的内部和外部验证,这些假设与部署或应用程序的预期环境相关。
  • 用于开发的 TEVV 任务(即模型构建)包括模型验证和评估。
  • 部署的 TEVV 任务包括生产中的系统验证和集成、系统和流程集成的测试和重新校准、用户体验以及遵守现有法律、法规和道德规范。
  • 运营的 TEVV 任务包括持续监控定期更新、测试和主题专家 (SME) 重新校准模型、跟踪报告的事件或错误及其管理、检测紧急属性和相关影响,以及补救和响应流程。

人为因素的任务和活动贯穿于 AI 生命周期的各个方面。它们包括以人为本的设计实践和方法,促进最终用户、其他相关方以及相关 AI 参与者的积极参与,在系统设计中融入特定情境的规范和价值观,评估和调整最终用户体验,并在 AI 生命周期的各个阶段广泛整合人与人之间的动态关系。人为因素专业人员提供多学科技能和视角,以理解使用情境,了解跨学科和人口多样性,参与咨询流程,设计和评估用户体验,进行以人为本的评估和测试,并为影响评估提供信息。

领域专家任务涉及多学科从业者或学者的意见,他们在使用 AI 系统的行业部门、经济部门、背景或应用领域提供知识或专业知识。作为领域专家的 AI 参与者可以为 AI 系统设计和开发提供必要的指导,并解释输出以支持 TEVV 和 AI 影响评估所执行的工作。

AI 影响评估任务包括评估和评价 AI 系统问责制的要求、消减有害偏见、检查 AI 系统的影响、产品安全、责任和安保等。影响评估的从业人员等 AI 参与者提供技术、人为因素、社会文化和法律专业知识。

采购任务由具有财务、法律或政策管理权力的 AI 参与者从第三方开发商、供应商或承包商处获取 AI 模型、产品或服务。

治理和监督任务由 AI 参与者承担,他们拥有设计、开发和/或部署 AI 系统的组织的管理、信托和法律权力及责任。负责 AI 治理的关键 AI 参与者包括组织管理层、高层领导和董事会。这些参与者关注的是整个组织的影响和可持续性。

其他 AI 参与者

第三方实体包括为其他组织或本组织的客户提供数据、算法、模型或系统及相关服务的提供商、开发者、供应商和评估者。第三方实体负责全部或部分 AI 设计和开发任务。根据定义,它们位于获得其技术或服务的组织的设计、开发或部署团队之外。从第三方实体获得的技术可能复杂或不透明,其风险承受能力可能与部署或运营组织不一致。

AI 系统的最终用户是指将系统用于特定目的的个人或团体。这些个人或团体在特定情境下与 AI 系统进行交互。最终用户的能力范围广泛,从 AI 专家到初次接触该技术的最终用户,不一而足。

受影响的个人/社区涵盖所有直接或间接受到 AI 系统或基于 AI 系统输出的决策影响的个人、群体、社区或组织。这些个人不一定与已部署的系统或应用程序交互。

其他 AI 参与者可能会提供正式或准正式的规范或指导,以规范和管理 AI 风险。他们可以包括行业协会、标准制定组织、倡导团体、研究人员、环保组织和民间组织。

普通公众最有可能直接感受到 AI 技术的正面和负面影响。他们或许能为 AI 参与者的行动提供动力。这个群体可以包括与 AI 系统开发或部署环境相关的个人、社区和消费者。

附录 B:AI 风险与传统软件风险有何不同

与传统软件一样,基于 AI 的技术带来的风险可能比企业本身更大,跨越多个组织,并带来社会影响。AI 系统也带来了一系列风险,而这些风险目前的风险框架和方法尚未得到全面解决。一些 AI 系统特性虽然存在风险,但也可能带来益处。例如,与其他模型和方法相比,预训练模型和迁移学习可以推进研究,并提高准确性和韧性。识别映射功能中的情境因素将有助于 AI 参与者确定风险级别和潜在的管理措施。

与传统软件相比,新的或增加的 AI 特定风险包括:

  • 用于构建 AI 系统的数据可能无法真实或恰当地代表 AI 系统的具体环境或预期用途,基本事实可能不存在或无法获得。此外,有害偏见和其他数据质量问题会影响 AI 系统的可信度,从而导致负面影响。
  • AI 系统对训练任务数据的依赖,加上此类数据的数量和复杂性的增加。
  • 训练过程中有意或无意的更改可能会从根本上改变 AI 系统的性能。
  • 用于训练 AI 系统的数据集可能会脱离其原始和预期的环境,或者相对于部署环境而言可能会过时。
  • AI 系统的规模和复杂性(许多系统包含数十亿甚至数万亿个决策点)位于更传统的软件应用程序中。
  • 使用可以推进研究和提高性能的预训练模型也会增加统计不确定性,并导致偏见管理、科学有效性和可重复性方面的问题。
  • 预测大规模预训练模型的突发属性的故障模式更加困难。
  • 由于 AI 系统增强的数据聚合能力而带来的隐私风险。
  • 由于数据、模型或概念漂移,AI 系统可能需要更频繁的维护和触发纠正性维护。
  • 不透明度增加,对可重复性的担忧。
  • 软件测试标准不发达,除了最简单的情况外,无法将基于 AI 的实践记录到传统工程软件所期望的标准。
  • 由于 AI 系统不受与传统代码开发相同的控制,因此难以执行定期的基于 AI 的软件测试或确定要测试的内容。
  • 开发 AI 系统的计算成本及其对环境和地球的影响。
  • 无法预测或检测超出统计测量的基于 AI 的系统的副作用。

隐私和网络安全风险管理考量及方法适用于 AI 系统的设计、开发、部署、评估和使用。隐私和网络安全风险也被视为更广泛的企业风险管理考量的一部分,其中可能包含 AI 风险。为了应对 AI 可信度特征(例如“安全和韧性”和“隐私增强”),组织可以考虑利用现有的标准和指南,这些标准和指南为组织降低安全和隐私风险提供广泛的指导,例如(但不限于)NIST 网络安全框架、NIST 隐私框架、NIST 风险管理框架和安全软件开发框架。这些框架与人工智能风险管理框架(AI RMF)具有一些共同的特征。与大多数风险管理方法一样,它们以结果为导向,而非规定性,并且通常围绕一组核心功能、类别和子类别构建。虽然这些框架在所针对的领域上存在显著差异(并且由于 AI 风险管理需要解决许多其他类型的风险),但上述框架可以为 AI RMDF 的映射、衡量和管理功能中的安全和隐私考虑提供信息。

同时,AI RMF 发布之前提供的指南并未全面解决许多 AI 系统风险。例如,现有框架和指南无法:

  • 妥善管理 AI 系统中的有害偏见问题;
  • 面对与生成式 AI 相关的挑战性风险;
  • 全面解决与规避、模型提取、成员身份推断、可用性或其他机器学习攻击相关的安全问题;
  • 考虑 AI 系统的复杂攻击面或 AI 系统支持的其他安全滥用;
  • 考虑与第三方 AI 技术、迁移学习和标签外使用相关的风险,其中 AI 系统可能在组织安全控制之外接受决策训练,或在一个领域接受训练,然后针对另一个领域进行“微调”。

AI 和传统软件技术及系统都在快速创新。我们应该密切关注并积极应用这些技术进步,以充分利用这些发展成果,共同构建一个值得信赖且负责任的 AI 未来。

附录 C:AI 风险管理与人机交互

设计、开发或部署用于运营环境的 AI 系统的组织,可以通过了解当前人机交互的局限性来增强其 AI 风险管理。AI RMF 提供了清晰定义和区分人类在使用、与 AI 系统交互或管理 AI 系统时的各种角色和职责的机会。

AI 系统所依赖的许多数据驱动方法试图将个人和社会的观察和决策实践转换或表示为可测量的量。用数学模型来表示复杂的人类现象可能会以缺失必要的背景信息为代价。这种背景的缺失反过来可能会使理解对 AI 风险管理工作至关重要的个人和社会影响变得困难。

值得进一步考虑和研究的问题包括:

  1. 人类在决策和监督 AI 系统中的角色和职责需要明确界定和区分。人机协同配置的范围可以从完全自主到完全手动。AI 系统可以自主决策,将决策交给人类专家,或被人类决策者用作补充意见。某些 AI 系统可能不需要人工监督,例如用于改进视频压缩的模型。其他系统可能特别需要人工监督。
  2. AI 系统的设计、开发、部署、评估和使用过程中的决策反映了系统性和人类的认知偏差。AI 参与者会将其个人和群体的认知偏差带入决策过程。偏差可能源于最终用户的决策任务,并通过人类在设计和建模任务中的假设、期望和决策引入整个 AI 生命周期。这些偏差并非总是有害的,但 AI 系统的不透明性和由此导致的缺乏透明度可能会加剧这些偏差。组织层面的系统性偏见会影响团队的架构,以及在整个 AI 生命周期中,决策过程的控制者。这些偏见还会影响最终用户、决策者和政策制定者的后续决策,并可能带来负面影响。
  3. 人机交互的结果各不相同。在某些情况下——例如在基于感知的判断任务中——人机交互中的 AI 部分可能会放大人类的偏见,导致比 AI 或人类本身更具偏见的决策。然而,如果在组织人机团队时明智地考虑到这些差异,它们可以实现互补,并提高整体绩效。
  4. 向人类呈现 AI 系统信息很复杂。人类以不同的方式感知 AI 系统的输出和解释并从中获得意义,反映了不同的个人偏好、特征和技能。

治理功能为组织提供了机会,使其能够明确和定义人机协作团队配置中人员以及监督 AI 系统性能的人员的角色和职责。治理功能还为组织创建了机制,使其决策过程更加清晰,从而有助于对抗系统性偏见。

映射功能提供了定义和记录流程的机会,使操作人员和从业人员能够熟练掌握 AI 系统性能和可信度概念,并定义相关的技术标准和认证。实施映射功能类别和子类别可以帮助组织提高其内部能力,以分析背景信息、识别程序和系统局限性、探索和检验基于 AI 的系统在现实世界中的影响,以及评估整个 AI 生命周期中的决策过程。

治理映射 功能阐述了跨学科和多元化团队的重要性,并充分利用了可能受到影响的个人和社区的反馈。在 AI RMF 中,执行人为因素任务和活动的 AI 参与者可以通过将设计和开发实践与用户意图、更广泛的 AI 社区代表以及社会价值观联系起来,从而协助技术团队。这些参与者进一步帮助将特定情境的规范和价值观融入系统设计中,并与 AI 系统一起评估最终用户体验。

持续的研究和评估将增强人机交互配置的 AI 风险管理方法。例如,人类在多大程度上被赋予和激励去挑战 AI 系统的输出,这需要进一步研究。收集和分析已部署系统中人类否决 AI 系统输出的频率和理由数据,或许会有所帮助。

附录 D:AI RMF 属性

NIST 在框架工作刚开始时描述了 AI RMF 的几个关键属性。这些属性保持不变,并用于指导 AI RMF 的开发。此处提供这些内容作为参考。

AI RMF 致力于:

  1. 基于风险、资源高效、支持创新且自愿。
  2. 以共识为导向,通过开放透明的流程制定并定期更新。所有利益相关者都应有机会为 AI RMF 的制定做出贡献。
  3. 使用清晰易懂的语言,使广大受众(包括高级管理人员、政府官员、非政府组织领导层以及非 AI 专业人士)易于理解,同时仍需具备足够的技术深度,以便从业者使用。AI RMF 应允许在组织内部、组织之间、与客户以及与广大公众之间就 AI 风险进行沟通。
  4. 提供通用语言和说明以管理 AI 风险。AI RMF 应提供 AI 风险的分类法、术语、定义、指标和特征描述。
  5. 易于使用并与风险管理的其他方面良好契合。该框架的使用应直观易用,并易于调整,可作为组织更广泛的风险管理战略和流程的一部分。它应与其他 AI 风险管理方法保持一致或协调。
  6. 适用于广泛的视角、行业和技术领域。AI RMF 应普遍适用于所有 AI 技术以及特定情境下的用例。
  7. 注重结果,而非规定性。该框架应提供一系列结果和方法,而非规定一刀切的要求。
  8. 利用并提高对现有 AI 风险管理标准、指南、最佳实践、方法和工具的认识,并阐明对额外改进资源的需求。
  9. 不受法律法规约束。该框架应支持组织在适用的国内和国际法律或监管制度下运营的能力。
  10. 成为一份动态文件。随着技术、理解和对 AI 可信度及应用方法的改变,以及利益相关者从实施 AI 风险管理(尤其是本框架)中学习到的经验,AI RMF 应随时更新。

原文:Artificial Intelligence Risk Management Framework (AI RMF 1.0)