2022年3月9日,国家药监局器审中心(CMDE)发布了《人工智能医疗器械注册审查指导原则》,该指导原则适用于人工智能医疗器械的注册申报,包括第二类、第三类人工智能独立软件和含有人工智能软件组件的医疗器械(包括体外诊断器械);适用于自研软件的注册申报,现成软件组件参照执行,不适用于外部软件环境。也可用作人工智能医疗器械的体系核查参考。质量管理软件若采用人工智能技术实现其功能或用途,亦可参考本指导原则的适用要求。
上述内容可以看出,该指导原则是仅针对软件部分的指导原则,对于硬件部分,还应按照常规医疗器械产品进行研究,生产,质控。
1.人工智能医疗器械定义
人工智能医疗器械是指基于“医疗器械数据”,采用人工智能技术实现其预期用途(即医疗用途)的医疗器械。
医疗器械数据是指医疗器械产生的用于医疗用途的客观数据,如医学影像设备产生的医学图像数据(如X射线、CT、MRI、超声、内窥镜、光学等图像)、医用电子设备产生的生理参数数据(如心电、脑电、血压、无创血糖、心音等波形数据)、体外诊断设备产生的体外诊断数据(如病理图像、显微图像、有创血糖波形数据等);在特殊情形下,通用设备(非监管对象)产生的用于医疗用途的客观数据亦属于医疗器械数据,如数码相机拍摄的用于皮肤疾病诊断的皮肤照片、健康电子产品采集的用于心脏疾病预警的心电数据等。基于医疗器械数据包括医疗器械数据的生成、使用等情况,其中使用情况含单独使用医疗器械数据,或者以医疗器械数据为主联合使用非医疗器械数据(如患者主诉信息、检验检查报告结论、电子病历、医学文献等)。
由此可见,基于非医疗器械数据的医学人工智能产品,或者采用人工智能技术实现非医疗用途和非医疗器械功能的医疗器械均不属于人工智能医疗器械。因此,与医学相关的人工智能产品是否按医疗器械管理,应根据相应分类界定指导原则进行判定,必要时申请医疗器械分类界定。
2.人工智能医疗器械的风险管理
指导原则涉及的人工智能医疗器械仅为软件部分,因此以下仅对软件部分的风险管理进行讨论。人工智能医疗器械软件的风险水平亦可用软件安全性级别进行表述,软件安全性级别越高,其生存周期质控要求越严格,注册申报资料越详尽,同时由于全新类型的潜在未知风险多于成熟类型,故需结合成熟度予以综合考虑。
人工智能医疗器械的软件安全性级别的判定依据:基于产品的预期用途、使用场景、核心功能进行综合判定,其中预期用途主要考虑用途类型、重要程度、紧迫程度等因素,使用场景主要考虑使用场合、疾病特征、适用人群、目标用户等因素,核心功能主要考虑功能类型、核心算法、输入输出、接口等因素。亦可根据风险管理所确定的风险等级进行判定,软件安全性级别与风险等级的分级可以不同,但二者存在对应关系,因此可根据风险等级来判定软件安全性级别,但应在采取风险控制措施之前进行判定。
人工智能医疗器械的主要风险:
从算法角度包括过拟合和欠拟合,其中过拟合是指算法对于训练数据过度学习而将非普遍规律作为重要特征,欠拟合是算法对于训练数据学习不充分而遗漏重要特征,均会降低算法泛化能力。
从用途角度,辅助决策主要包括假阴性和假阳性,其中假阴性即漏诊,可能导致后续诊疗活动延误,特别是要考虑快速进展疾病的诊疗活动延误风险,而假阳性即误诊,可能导致后续不必要的诊疗活动;非辅助决策从算法设计目标能否得以实现角度,亦可参考辅助决策分为假阴性和假阳性。
此外,进口人工智能医疗器械还需考虑中外差异风险,如人种、流行病学特征、临床诊疗规范等差异。
3.人工智能软件开发过程中与常规软件的主要区别
(一)需求分析
需求分析除了与常规软件相同的以用户需求与风险为导向,结合产品的预期用途、使用场景、核心功能,综合考虑法规、标准、用户、产品、数据、功能、性能、接口、用户界面、网络安全、警示提示等需求,还应重点考虑数据收集、算法性能、使用限制等要求。
(二)数据库建设
数据收集基于合规性要求,主要考虑数据采集、数据整理、数据标注、数据集构建等活动的质控要求,以保证数据质量和算法训练效果。
数据采集需考虑采集设备、采集过程、数据脱敏等质控要求,并建立数据采集操作规范。数据采集亦可使用历史数据,需结合样本规模、采集难度等影响因素合理选择数据采集方式。若适用,数据采集需经伦理委员会批准。数据整理基于原始数据库考虑数据清洗、数据预处理的质控要求。数据清洗需明确清洗的规则、方法、结果,数据预处理需明确处理的方法(如滤波、增强、重采样、尺寸裁剪、均一化等)、结果。数据整理所用软件工具(含脚本,下同)均需明确名称、型号规格、完整版本、制造商、运行环境,并进行软件确认。数据标注作为有监督学习数据质控的关键环节,需建立数据标注操作规范,明确标注资源管理、标注过程质控、标注质量评估等要求。基于标注数据库构建训练集(用于算法训练)、调优集1(若有,用于算法超参数调优)、测试集(用于算法性能评估),明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例。训练集原则上需保证样本分布具有均衡性,测试集、调优集原则上需保证样本分布符合真实情况,训练集、调优集、测试集的样本应两两无交集并通过查重予以验证。(三)算法设计
1)算法选择
算法选择提供所用算法的名称、类型(如有监督学习、无监督学习,基于模型、基于数据,白盒、黑盒)、结构(如层数、参数规模)、输入输出数据类型、流程图、算法编程框架、运行环境等基本信息,并明确算法选用依据,包括选用的理由和基本原则。
2)算法训练
算法训练需基于训练集、调优集进行训练和调优,考虑评估指标、训练方式、训练目标、调优方式、训练数据量-评估指标曲线等要求。
3)算法性能评估
算法性能评估作为软件验证的重要组成部分,需基于测试集对算法设计结果进行评估,综合考虑假阴性与假阳性、重复性与再现性、鲁棒性/健壮性、实时性等适用评估要求,以证实算法性能满足算法设计目标,并作为软件验证、软件确认的基础。亦可基于第三方数据库(详见后文)开展算法性能评估。
(四)验证与确认
软件验证与确认过程与常规非人工智能软件一致,软件确认部分的测试可以基于用户需求,由预期用户在真实或模拟使用场景下予以开展,亦可基于测评数据库予以开展。
4.人工智能医疗器械临床评价要求
人工智能医疗器械的临床评价应基于核心功能或核心算法,结合预期用途和成熟度予以综合考虑:非辅助决策类功能基于核心功能开展同品种医疗器械比对,全新的功能、算法和用途原则上均需开展临床评价;辅助决策类功能基于核心算法开展同品种医疗器械比对,所选同品种医疗器械的临床证据原则上需基于临床试验(含回顾性研究),全新的功能、算法和用途原则上均需开展临床试验。
同时,开展算法性能比较分析,若各类测试场景(含临床评价)算法性能变异度较大,详述原因并基于分析结果明确产品使用限制和必要警示提示信息。
最后,结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。
5.人工智能医疗器械相关技术研究
1)移动计算与云计算
人工智能医疗器械若使用移动计算、云计算等技术,则遵循相关指导原则要求。
人因与可用性
2)建议加强人工智能医疗器械的人因设计以提升可用性,将用户错误使用的风险降至可接受水平,特别是软件用户界面。
3)压力测试
注册申请人需根据产品实际情况开展压力测试,以全面深入评估算法性能,必要时可引入对抗样本开展对抗压力测试。若未开展相应测试或测试结果不佳,均需对产品的适用范围、使用场景、核心功能进行必要限制,并在说明书中明确产品使用限制和必要警示提示信息。
4)对抗测试
建议注册申请人开展对抗测试,以全面深入评估算法性能。若未开展相应测试或测试结果不佳,均需明确产品使用限制和必要警示提示信息。
5)算法研究报告
人工智能算法或算法组合再初次发布和再次发布时应提交算法研究报告,包括算法基本信息、算法风险管理、算法需求规范、数据质控、算法训练、算法验证与确认、算法可追溯性分析、结论等内容。
6.人工智能医疗器械注册资料要求
1)算法研究资料(报告)
对于软件安全性级别为中等、严重级别的产品,全新类型在软件研究资料中以算法为单位,提交每个人工智能算法或算法组合的算法研究报告;成熟类型在软件研究资料中明确算法基本信息即可,无需提供算法研究资料。对于软件安全性级别为轻微级别的产品,在软件研究资料中明确算法基本信息即可,无需提供算法研究资料。
2)用户培训方案
对于软件安全性级别为严重级别、预期由患者使用或在基层医疗机构使用的产品,原则上需单独提供一份用户培训方案,包括用户培训的计划、材料、方式、师资等。
3)产品技术要求
产品技术要求中可不含基于测评数据库测试的性能指标,也可以含有,若含有该指标则需在“附录”中明确测评数据库的基本信息(如名称、型号规格、完整版本、责任方、主文档登记编号等)。
基于其他类型第三方数据库测试的性能指标,原则上无需在产品技术要求中体现。
4)说明书
人工智能医疗器械的说明书相对于其他软件产品来说,需要增加下列内容:
1)对于辅助决策类产品,说明书需明确人工智能算法的算法性能评估总结(测试集基本信息、评估指标与结果)、临床评价总结(临床数据基本信息、评价指标与结果)、决策指标定义(或提供决策指标定义所依据的临床指南、专家共识等参考文献)等信息。
2)若采用基于数据的人工智能算法,说明书还需补充算法训练总结信息(训练集基本信息、训练指标与结果)。
3)若产品采用人工智能黑盒算法,则需根据算法影响因素分析报告,在说明书中明确产品使用限制和必要警示提示信息。