本指导原则是对肺结节CT图像辅助检测软件的一般要求,申请人应依据产品的具体特性确定其中的内容是否适用。
2022年5月26日,国家药监局器审中心官方发布《肺结节CT图像辅助检测软件注册审查指导原则》,全文奉上。
肺结节CT图像辅助检测软件注册审查指导原则
一、适用范围
本指导原则适用于肺结节CT图像辅助检测软件的产品注册。按现行《医疗器械分类目录》,该类产品分类编码为21-04-02,管理类别为三类。设备中所含肺结节CT图像辅助检测功能也适用于本指导原则。采用非人工智能算法的肺结节CT图像辅助检测软件可参照本指导原则执行。
二、注册审查要点
(一)监管信息
明确申请表中产品名称、管理类别、分类编码、型号规格、产品组成等信息。1.产品名称产品命名需符合《医疗器械通用名称命名规则》的要求。根据产品预期用途可采用肺结节CT图像辅助检测软件进行命名。2.分类编码依据《医疗器械分类目录》,申报产品分类编码为21-04-02。按第三类医疗器械管理。
(二)综述资料
1.产品描述
1.1器械及操作原理描述
1.1.1工作原理需详述产品的工作原理,例如:基于深度学习技术对医学影像进行分析处理、对肺结节进行分割、检测、自动识别等。
1.2型号规格需明确申报产品的型号规格及发布版本。产品型号规格及其划分,如同一个注册单元包含多个型号规格,需提供产品型号规格区分列表或配置表。
1.3研发历程阐述申请注册产品的研发背景和目的。如有参考的同类产品或前代产品,需提供同类产品或前代产品的信息,并说明选择其作为研发参考的原因。
1.4与同类和/或前代产品的参考和比较同一制造商生产的改良器械,建议直接和本公司已获批准的器械的算法性能进行比较(即,使用相同的评估过程和测试数据集比较性能)。
2.适用范围和禁忌证
(1)适用范围适用范围需明确处理对象、核心功能、适用人群、目标用户、临床用途。例如,用于胸部CT图像的显示、处理、测量和分析,可对4mm及以上肺结节进行自动识别并分析结节影像学特征,供经培训合格的医师使用,不能单独用作临床诊疗决策依据。
(2)预期使用环境需明确设备使用场所和使用环境要求。设备使用场所包括:医疗机构机房等。使用环境要求需至少包括:推荐的硬件使用的适宜温度、湿度、大气压、光照条件。
(3)适用人群需详述产品的适用人群、感兴趣器官/疾病/病灶/异常、以及预期使用该产品的目标用户。如,可供18岁及以上门诊及体检人群使用,供经培训合格的放射科医师、专科医师使用。
(4)禁忌证需明确产品临床应用的禁忌证以及器械限制,包括导致器械无效且不应使用的疾病、病症、异常。
(三)非临床资料
(1)申报产品的风险管理组织。
(2)申报产品的组成。
(3)申报产品符合的安全标准。
(4)申报产品的预期用途,与安全性有关的特征的判定。
(5)对申报产品的可能危害作出判定(见附件1)。
(6)对所判定的危害采取的降低风险的控制措施。
(7)对采取控制措施后的剩余风险进行估计和评价。
2.产品技术要求及检验报告
2.1产品技术要求依据《医疗器械产品技术要求编写指导原则》进行编制。
2.1.1规格信息明确软件发布版本和版本命名规则。软件版本命名规则原则上需涵盖算法驱动型更新和数据驱动型更新,明确并区分重大软件更新和轻微软件更新,其中重大软件更新列举常见典型情况。明确不同型号间产品差异。
3.软件研究
(1)基本要求生产企业需依据《医疗器械软件注册审查指导原则(2022年修订版)》提交相应软件研究资料。其中,核心算法所述人工智能算法需依据《人工智能医疗器械注册审查指导原则》提交相应算法研究资料。生产企业需依据《医疗器械网络安全注册审查指导原则(2022年修订版)》提交网络安全描述文档。按照《人工智能医疗器械注册审查指导原则》提交数据安全资料。若使用云计算服务,生产企业需依据《人工智能医疗器械注册审查指导原则》提交相应研究资料。使用云计算服务需明确服务模式、部署模式、核心功能、数据接口、网络安全能力、服务(质量)协议等要求。软件版本命名规则涵盖算法驱动型软件更新和数据驱动型软件更新;区分重大软件更新和轻微软件更新,其中重大软件更新需列举常见典型情况。
(2)软件安全级别该类产品的软件安全性级别为严重(C)级。
(3)核心功能列明软件核心功能的名称、所用核心算法、预期用途并注明类型,全新的核心功能、核心算法、预期用途均需提供安全有效性研究资料。
表1核心功能示例
注:表1中全新是对当前深度学习算法的全新算法的示例
4.算法研究资料
4.1算法基本信息
4.1.2肺结节密度分类算法
肺结节密度分类算法需明确输出(密度类别),密度类别制定依据以及临床适用性。肺结节密度分类算法需明确算法的输入,比如算法采用的是2D,2.5D还是3D的图像作为算法的输入。若采用2D,需明确肺结节选取的图像层面,如中心层面,最大面积层面;明确算法所采用的神经网络结构,如ResidualNet,Dense-Net;明确算法训练采用的损失函数,如交叉熵,Focal损失函数;损失函数等核心组件选择和设计的原则、方法与风险考量,如肺结节大小尺度的差异,不同类别肺结节样本的不均衡性、过拟合等;若肺结节分类采用多个模型融合,需明确不同模型训练与推理的方式,以及模型融合的策略,如多数投票;最后,明确算法的流程图,训练与部署所采用的框架(如Tensorflow,Pytorch)、算法运行环境(如内存、显存的需求)。4.1.3肺结节测量算法
针对肺结节测量算法,明确测量原理(基于像素点数),测量实现的方式,如肺结节体积测量算法、密度值测量算法与长径短径测量算法可以通过肺结节分割技术来实现,也可以通过机器学习中的回归方法来进行预测。测量内容包括长径、短径、体积、面积、平均HU值等,其中密度值测量算法需明确测量的类型,如平均值,标准差,最大值,最小值,中位数。
4.1.4肺结节肺叶肺段定位算法
肺结节肺叶肺段定位算法中,明确肺结节定位的类别,如左/右肺定位、肺叶定位、肺段定位。明确算法输入的类型,如肺结节二维切片,肺结节三维图像块,若输入类型为二维切片,明确二维切片选取标准(如肺结节长径短径交点所在切片、肺结节最大面积切片)。肺结节肺叶肺段定位算法需明确实现的机理,如基于肺段分割算法实现解剖定位,基于图像分类算法实现解剖定位。若申报产品涉及上述多个算法,需提供算法整体流程图,明确各个算法调用先后关系,以及输入输出依赖关系。若使用迁移学习技术,除上述内容外还需补充预训练模型的数据集构建、算法测试等资料。
4.2算法需求规范
4.2.1数据库需求
算法性能评价需要基于训练和测试数据库,数据库具体要求详见附件2。
4.2.2算法性能评价指标
在指定肺结节检出算法评估指标之前,需确定器械标记的位置和范围和参考标准之间的匹配性,需明确标记匹配的方式,即算法标记目标与参考标准目标的匹配方式,常见的标记匹配方式有按照区域重叠的比例(面积、体积)、中心点的距离、中心是否落入来判断标记是否匹配;还需明确声称的标记匹配的阈值。明确算法任务,明确算法训练和调优过程中不同任务的评估指标及定义。有关标记匹配方式与评估指标的定义可以参考“人工智能医疗器械肺部影像辅助分析软件算法性能测试方法”
5.1.1.1章节。
4.2.3算法性能测试基本要求
4.2.3.1结节检出
需给出软件检出肺结节的召回率和精确度的阈值。测试产品定位准确程度时,只有真阳性检出的结节,且位置正确的标记才能算作正确标记。召回率和精确度的计算一般针对全体结节进行。在设置筛选条件后,可以使用筛选后的参考标准与筛选后的AI结果进行匹配。如筛选后假阳性结果难以定义,建议以召回率为主要指标,常见情形为:-对具体某一种结节类型,计算结节的召回率。-对平均直径、长径处于某一区间的结节,计算召回率-对类型、尺寸范围组合的结节,计算召回率。
4.2.3.2结节分类
明确分类场景,如二分类场景、多分类场景。对于二分类场景下的指标,如软件能够对A类型的肺结节进行分类,需给出准确率、灵敏度、特异性的阈值。总体的Kappa系数不低于N%;多分类问题可以转化为二分类问题,按每一类进行描述。
4.2.3.3结节分割
如果产品在三维上进行结节分割,需给出算法可以达到的体积交并比或者DICE系数的阈值。如果产品只输出最大层面的分割,则需给出算法可以达到的最大层面面积交并比或者DICE系数的阈值。测试集数据的平均交并比或者DICE系数的95%置信区间应大于等于该阈值。
4.2.3.4结节测量
需明确测量内容,如体积、密度、尺寸测量;需明确各测量内容的测量误差。对于尺寸测量长径小于等于10mm需增加平均直径允差,大于10mm需增加短径允差。
4.2.3.5结节肺叶肺段定位
结节肺叶肺段定位需明确定位的具体功能(如采用边缘勾画方法展示肺叶肺段分割结果、仅采用文字描述结节所处肺叶肺段),肺叶、肺段标记标签分布(如左肺上叶尖后段、左肺上叶前段、右肺中叶外段……)、基于不同功能确定测试指标(如结节所处左右肺准确性、肺叶准确性、肺段准确性、肺叶肺段分割的DICE系数或其他合理指标)及测试指标的计算方法、参考标准建立的方法、测试流程。测试产品定位准确程度时,只有真阳性检出的结节,且位置正确的标记才能算作正确标记。
4.2.4样本量
明确样本量估计的公式、参数及制定依据。研究样本应足够大,以使声称的性能具有统计学显著性,若有分层性能的声称,应确定子集的样本量以检测声称的统计学显著性。
4.2.5测试方法
需明确测试方法及制定依据。
4.3数据质控
建议参考“人工智能医疗器械注册审查指导原则”及“人工智能医疗器械质量要求和评价第2部分:数据集通用要求”。
4.3.1数据采集
需提供数据采集协议,需要考虑明确偏倚控制的方法,如通过各亚组设置进行偏移控制,不应为提高算法结果刻意筛选数据。采集数据的地区分布需覆盖东西南北中地区。明确数据库信息(要求详见附件2)
4.3.2数据整理
明确数据转移保存的方法。明确数据纳入排除标准,以及进行数据筛选的方法(人工清洗、自动清洗),提供数据整理软件工具的研究资料。提供数据清洗流程图,明确清洗规则,例如确定数据合规性、图像唯一性、层厚、层间距等信息满足要求、连续性、完整性、已完成脱敏等并加以筛选。清洗结果明确弃用数据的数量和原因。明确预处理的操作步骤和内容。
4.3.3数据标注
数据标注建议参考“人工智能医疗器械质量要求和评价第3部分:数据标注通用要求”。需明确标注任务分类(包括数据模态、执行主体、标注结果格式、标注结果性质、标注结果形式等维度),提供标注任务描述文档(标注规则、标注人员、标注工具、标注环境、数据)。其中标注规则需明确制定依据并提供参考文献。标注内容宜包括结节检出、结节位置(肺叶、肺段、结节层面)、结节大小、结节密度、角度等。标注人员建议列表给出标注、审核、仲裁人员的基本信息,如数量、医疗机构、科室、工作年限、职称、培训、培训考核情况、工作量、标注任务、人员类型(标注、审核、仲裁)。标注与质控流程建议提供业务架构、过程组织(任务生成、任务分配、任务实施、质量控制、验收准则及验收报告)。其中业务架构宜采用流程图介绍单例数据的标注、审核、仲裁过程。明确标注是否基于另一器械的输出、临床检验(如病理检测结果)、随访临床成像检查、除成像外的随访体检、临床医生的解释。如标注工具、标注平台使用人工智能算法进行辅助标注,需提交标注工具、标注平台算法性能研究资料。
4.3.4数据集构建
依据《人工智能医疗器械注册审查指导原则》指南明确训练集、调优集、测试集的划分方法、划分依据、数据分配比例。提供查重验证结果,以证实训练集、调优集、测试集的样本两两无交集。数据扩增需明确扩增的对象、范围、方式(离线、在线)、方法(如翻转、旋转、镜像、平移、缩放、滤波、生成对抗网络等)、倍数、在线数据扩增记录。提供扩增数据库与标注数据库样本量、样本分布(注明扩增倍数)对比表,以证实扩增数据库样本量的充分性以及样本分布的合理性。如果采用生成对抗网络进行数据扩增,应提供生成对抗网络的算法基本信息以及算法选用依据资料。
4.4算法训练
4.5算法验证与确认
4.6算法性能综合分析
结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。需对算法测试产生的错误结果进行分析,评估算法在检出、分类等任务中出现的假阳性、假阴性结果的含义与危险程度,形成定量报告。
5.用户培训方案
(四)产品说明书和标签样稿
1.用户说明
对预期用户和推荐用户培训的详细说明。如,预期用户工作年限或执业资格要求,且需经培训合格。
2.使用限制
若产品采用人工智能黑盒算法,需根据算法影响因素分析报告,在说明书中明确产品使用限制和必要警示提示信息。示例:不应仅仅依靠本器械所标识的输出,应由专业医师对结果进行解释。已发现该器械对于XX的受检者无效。具有这种疾病/病症/异常的受检者不应使用该器械。对训练数据、测试数据与临床试验的算法性能评估结果不佳,数据量偏少的,此类受检者使用该器械,应由专业医师结合受检者的病史、症状、体征、其他检查结果情况综合给出最终的肺结节检出结论,核实是否需要进一步诊疗的决策,并对临床诊断结果负责。
3.注意事项
测量准确性(如图像长度、CT值平均值、最大值、最小值、面积值、体积、密度、位置坐标)、测量功能警示信息,如体积测量是基于体素个数的图形学测量,并不能完全反映人体真实的体积,测量体积仅供医生参考。CT图像质量要求,如严重呼吸、金属伪影或有扫描质量问题的CT图像慎用;图像序列未完整包含肺脏全部组织的图像数据禁用。医生必须对软件结果进行确认,软件只用于辅助检测,不能替代医生。原始的AI结果应保留,确保软件结果的可追溯性与可责性。
4.预防措施
5.器械描述
需提供以下内容:-算法设计和功能的概述-特殊声称(如用于小于4mm结节检测)-研发和调整算法中所用的受检者数据的参考标准的描述-与本器械兼容的采集技术-适当显示器械标记的要求-软件输出报告及界面数据图示
6.软件
需明确软件发布版本、提供网络安全说明和使用指导,明确用户访问控制机制、电子接口(含网络接口、电子数据交换接口)及其数据类型和技术特征、网络安全特征配置、数据备份与灾难恢复、运行环境(含硬件配置、外部软件环境、网络环境,若适用)、安全软件兼容性列表(若适用)、外部软件环境与安全软件更新(若适用)、现成软件清单(SBOM,若适用)等要求。
7.产品接口和联合使用设备
需明确对配合使用的图像工作站和PACS适当显示器械标记的要求(如适用)。需明确CT设备兼容(厂家、型号(如适用)、层数)与扫描参数要求(如层厚、层间距、重建方式、管电压、管电流、剂量(常规剂量、低剂量))。
8.算法训练总结
训练方法概述、开发数据库基本信息、训练指标与结果、调优指标及结果。
9.算法性能评估总结-算法输入与输出-测试集基本信息-用于确定器械标记的每个区域的性质的评分标准-每个可用器械操作点的总体敏感度和假阳性率指标-分层分析(如,根据病变大小、病变类型、采集参数、成像或数据特征)-独立FROC性能(如适用),需和操作特性曲线一起说明。-测试结果
10.临床试验总结
需包括临床试验设计基本类型、研究对象(受试者及阅片者情况)、评价指标,金标准、对收集临床信息方法的描述、统计方法描述、样本量,临床试验结果(含各结节尺寸、各密度类型结节情况)。
11.公开数据库及测试结果(如有)
12.第三方测评数据库及测试结果(如有)
13.辅助决策指标定义(或提供决策指标定义所依据的临床指南、专家共识等参考文献)等信息。如结节大小、结节密度类型的定义、低剂量/常规剂量的定义、分层依据。
三、参考文献
[1]《医疗器械注册与备案管理办法》(国家市场监督管理总局令第47号)[Z].
[2]《医疗器械说明书和标签管理规定》(国家食品药品监督管理总局令第6号)[Z].
[3]《医疗器械注册申报资料要求和批准证明文件格式》(国家药品监督管理局2021年第121号)[Z].
[4]《医疗器械通用名称命名指导原则》(国家药品监督管理局2019年第99号)[Z].
[5]《医疗器械产品技术要求编写指导原则》(国家药品监督管理局2022年第8号)[Z].
[6]《医疗器械软件注册审查指导原则(2022年修订版)》(国家药品监督管理局医疗器械技术审评中心2022年第9号)[Z].
[7]《人工智能医疗器械注册审查指导原则》(国家药品监督管理局医疗器械技术审评中心2022年第8号)[Z].
[8]《人工智能类医用软件产品分类界定指导原则》(国家药品监督管理局2021年第47号)[Z].
[9]YY/T0316-2016,《医疗器械风险管理对医疗器械的应用》[S].
[10]YY/T1833.1,《人工智能医疗器械质量要求和评价第1部分:术语》(报批稿)[S].
[11]YY/T1833.2,《人工智能医疗器械质量要求和评价第2部分:数据集通用要求》(报批稿)[S].
[12]YY/T1833.3,《人工智能医疗器械质量要求和评价第3部分:数据标注通用要求》(报批稿)[S].
[13]YY/TXXXX,《人工智能医疗器械肺部影像辅助分析软件算法性能测试方法》(报批稿)[S].
[14]AIMDICP-WG6-2020-002,《基于胸部CT的肺结节影像辅助决策产品性能指标和测试方法》[S].
[17]胸部CT肺结节数据集构建及质量控制专家共识[J].中华放射学杂志,2021,55(02):104-110.
[18]胸部CT肺结节数据标注与质量控制专家共识(2018)[J].中华放射学杂志,2019(01):9-15.
[19]周清华,范亚光,王颖,乔友林,王贵齐,黄云超,王新允,吴宁,张国桢,郑向鹏,步宏.中国肺部结节分类、诊断与治疗指南(2016年版)[J].中国肺癌杂志,2016,19(12):793-798.
[20]赫捷,李霓,陈万青,吴宁,沈洪兵,江宇,李江,王飞,田金徽,中国肺癌筛查与早诊早治指南制定顾问组,中国肺癌筛查与早诊早治指南制定专家组,中国肺癌筛查与早诊早治指南制定工作组.中国肺癌筛查与早诊早治指南(2021,北京)[J].中国综合临床,2021,37(03):193-207.
[21]刘士远.肺亚实性结节影像处理专家共识[J].中华放射学杂志,2015,49(04):254-258.
[22]中国肺结节病诊断和治疗专家共识[J].中华结核和呼吸杂志,2019(09):685-693.
[23]BankierAlexanderA,MacMahonHeber,GooJinMo,RubinGeoffreyD,Schaefer-ProkopCorneliaM,NaidichDavidP.RecommendationsforMeasuringPulmonaryNodulesatCT:AStatementfromtheFleischnerSociety.[J].Radiology,2017,285(2).
[24]Bai,C.,Choi,C.-M.,Chu,C.M.,Anantham,D.,Chung-manHo,J.,Khan,A.Z.,…Yim,A.(2016).EvaluationofPulmonaryNodules.Chest,150(4),877–893.
[25]DeterbeckFC,MazzonePJ,NaidichDP,etal.Screeningforlungcancer:Diagnosisandmanagementoflungcancer,3rded:AmericanCollegeofChestPhysiciansevidence-basedclinicalpracticeguidelines.Chest,2013,143(5Suppl):e78S-e92S.
附件:
1.风险管理文档
采取风险控制措施前后的风险矩阵表示例
表3采取风险控制措施前的风险分布图
表4采取风险控制措施后的风险分布图
附件2
不感兴趣
看过了
取消
人点赞
人收藏
打赏
我有话说
0/500
同步到新浪微博
进群即领
扫码加入
扫码进群
您的申请提交成功
意见反馈
下载APP
健康界APP
了解更多
返回顶部
您已认证成功,可享专属会员优惠,买1年送3个月!开通会员,资料、课程、直播、报告等海量内容免费看!