关于公开征求《用于产生真实世界证据的真实世界数据指导原则(征求意见稿)》意见的通知
发布日期:20200803
附件1
1.医院信息系统数据
2.医保支付数据
3.登记研究数据
4.药品安全性主动监测数据
5.自然人群队列数据
6.组学数据
7.死亡登记数据
8.患者报告结局数据
9.来自移动设备的个体健康监测数据
10.其它特定功能数据
(二)真实世界数据应用面临的主要问题
(一)源数据的适用性评价
(二)经治理数据的适用性评价
2.可靠性评价
(一)个人信息保护和数据安全性处理
(二)数据提取
(三)数据清洗
(四)数据转化
(五)数据传输和存储
(六)数据质量控制
(七)通用数据模型
(八)真实世界数据治理计划书
(一)数据合规性
(二)数据安全管理
(三)质量管理体系
名词解释
一、概述
与药物研发有关的真实世界数据主要包括在真实医疗环境下业务流程记录的数据(如电子病历),以及各种观察性研究数据等。此类数据可以是开展真实世界研究前已经收集的数据,也可以是为了开展真实世界研究而新收集的数据。
医院信息系统数据基于临床诊疗实践过程的记录,涵盖临床结局和暴露变量范围较广,尤其电子病历数据在真实世界研究中应用较广。
组学数据作为精准医学的重要支撑,主要包括基因组、表观遗传、转录组、蛋白质组和代谢组等数据,这些数据从系统生物学角度刻画了患者在遗传、生理学、生物学等方面的特征。通常组学数据需要结合临床数据才可能成为适用的RWD。
患者报告结局(Patient-ReportedOutcome,PRO)是一种来自患者自身测量与评价疾病结局的指标,包括症状、生理、心理、医疗服务满意度等,PRO在药物评价体系发展中越来越重要。其记录有纸质和电子两种方式,后者称为电子患者报告结局(ePRO),ePRO的兴起与应用,使得PRO与电子病历系统对接并形成患者层面的完整数据流成为可能。
个人健康监测数据可通过移动设备(如智能手机、可穿戴设备)实时采集个体生理体征指标。这些数据常产生于普通人群的自我健康管理、医疗机构对慢病患者的监测、医疗保险公司对参保人群健康状况评估的过程,通常存储于可穿戴设备企业、医疗机构数据库以及商业保险公司数据系统等。由于可穿戴设备在收集生理和体征数据方面具有便利性和即时性等优势,与电子健康数据衔接可形成更完整的RWD。
(1)公共卫生监测数据
我国建立了一系列有关公共卫生监测的数据库,如传染病监测、免疫接种不良事件(AdverseEventsFollowingImmunization,AEFI)监测等,所记录的数据可用于分析传染病的发病情况、疫苗的一般反应和异常反应发生率等。
(2)患者随访数据
(3)患者用药数据
三、真实世界数据适用性评价
满足基本分析要求的源数据至少应具备以下条件:
1.数据库处于活动状态且数据可及
在研究期间数据库应是连续的处于活动状态的,所记录的数据均是可及的,即具有数据的使用权限,并且可被第三方特别是监管机构评估。
2.符合伦理和数据安全性要求
源数据的使用应通过伦理审核,并符合数据安全性要求。
3.临床结局和暴露/干预变量
数据的记录必须有临床结局变量和暴露/干预变量。
4.具有一定的数据完整性
源数据通常是不完整的,但应具有一定的完整性,至少应包括结局变量、暴露/干预变量、人口学变量和重要的协变量,还要考虑分析模型中缺失数据对研究结论稳健性的影响。
5.样本量足够
应充分考虑和预判经数据治理后源数据例数明显减少的情况,以保证统计分析所需的样本量。
(1)关键变量和信息的覆盖度
(2)临床结局定义的准确性
选择具有临床意义的结局并进行准确定义对于真实世界研究至关重要。临床结局的定义应包括所基于的诊断标准、测量方法及其质量控制(如果有)、测量工具(如量表的使用)、计算方法、测量时点、变量类型、变量类型的转换(如从定量转换为定性)、终点事件评价机制(如终点事件委员会的运行机制)等。当不同数据源对临床结局的定义不一致时,应定义统一的临床结局,并采用可靠的转换方法。
(3)目标人群的代表性
真实世界研究较传统RCT的优势之一是具有更广泛的目标人群的代表性。因此,在制定纳入和排除标准时,应尽可能地符合真实世界环境下目标人群。
(4)多源异构数据的融合性
真实世界数据的可靠性主要从数据的完整性(Completeness)、准确性(Accuracy)、透明性(Transparency)、质量控制(QualityControl)和质量保证(QualityAssurance)几个方面进行评价。
(1)完整性
完整性是指数据信息的缺失程度,包括变量的缺失和变量值的缺失。对于不同研究,数据的缺失程度、缺失原因和变量值的缺失机制不尽相同,应该予以详尽描述。虽然RWD无法避免数据缺失问题,但缺失比例应有一定限度。当特定研究的数据缺失比例明显超过同类研究的比例时,会加大研究结论的不确定性,此时需要慎重考虑该数据能否作为支持产生RWE的数据。对缺失原因的详细分析有助于对数据可靠性的综合判断。如果涉及缺失数据的填补问题,应根据缺失机制的合理假设采用正确的填补方法。
(2)准确性
(3)透明性
RWD的透明性是指RWD的治理方案和治理过程清晰透明,应确保关键暴露变量、协变量和结局变量能够追溯至源数据,并反映数据的提取、清洗、转换和标准化过程。无论采用人工数据处理还是自动化程序处理,数据治理标准化操作程序和验证确认文件要清晰记录和存档,尤其反映数据可信性的问题,如数据缺失度、变量阈值范围、衍生变量计算方法和映射关系等。数据治理方案应事先根据研究目的制定,应确保数据治理过程与治理方案保持一致。数据的透明性还包括数据的可及性(Accessibility)、数据库之间的信息共享和对患者隐私的保护方法的透明。
(4)质量控制
质量控制是指用以确证数据治理的各个环节符合质量要求而实施的技术和活动。质量控制评价包括但不限于:数据提取、安全处理、清洗、结构化,以及后续的存储、传输、分析和递交等环节是否均有质量控制,以保证所有数据是可靠的,数据处理过程是正确的;是否遵循完整、规范、可靠的数据治理方案和计划,并依托于相应的数据质量核查和系统验证规程,以保障数据治理系统在正常和稳态下运行,确保真实世界数据的准确性和可靠性。
(5)质量保证
四、真实世界数据治理
数据治理(DataCuration)是指针对特定临床研究问题,为达到适用于统计分析而对原始数据所进行的治理,其内容包括但不限于:数据安全性处理、数据提取(含多个数据源)、数据清洗(逻辑核查及异常数据处理、数据完整性处理)、数据转化(数据标准、通用数据模型、归一化、自然语言处理、医学编码、衍生变量计算)、数据传输和存储、数据质量控制等若干环节。
数据安全性处理应基于研究所涉及的各种数据的类型、数量、性质和内容,尤其对于个人敏感信息,建立数据治理各环节的数据加密技术要求、风险评估和应急处置操作规程,并开展安全措施有效性审计。
根据源数据的存储格式、是否为电子数据、是否包含非结构化数据等因素选择合适的方式进行数据提取,在数据提取时均应遵守以下原则:
使用与源数据系统可互操作或集成的数据提取工具可以减少数据转录中的错误,从而提高数据准确性以及临床研究中数据采集的质量和效率。对于盲法研究,还应评估使用可互操作或集成的数据提取工具带来的揭盲风险。
数据清洗(DataCleaning)是指对提取的原始数据进行重复或冗余数据的去除、变量值逻辑核查(EditCheck)和异常值的处理,以及数据缺失的处理。需要注意,在修正数据时如果无法追溯到主要研究者或源数据负责方签字确认,数据不应做修改,以保证数据的真实性。
最后对数据缺失进行处理,对于不同研究,数据的缺失程度、缺失原因和变量值的缺失机制不尽相同。如果涉及缺失数据的填补问题,应根据缺失机制的合理假设采用正确的填补方法。
数据转化是将经过数据清洗后原始数据的数据格式标准、医学术语、编码标准、衍生变量计算,按照分析数据库(AnalysisDataset)中对应标准进行统一转化为适用RWD的过程。
对于自由文本数据的转化可使用可靠的自然语言处理算法,在保障数据转化准确、可溯源的前提下,提高转化效率。
数据质量控制是确保研究数据完整性、准确性和透明性的关键。数据质量控制需要建立完善的RWD质量管理体系和SOP,建议原则包括:
1.确保源数据的准确性和真实性
2.在数据提取时充分考虑数据完整性问题
评估和确立提取字段,制定相应的核查规则和数据库架构。
3.建立数据录入和结构化的标准指南,确保录入数据与源数据的一致性。
对于录入过程中的任何修改,需要有负责人的确认和签名,并提供修改原因,确保留下完整的稽查轨迹。
4.制定完善的数据质量管理计划
制定系统质控和人工质控计划,确保数据的准确性和完整性。对于关键变量,应进行100%核查和源文件调阅;其它变量可根据实际情况抽样核查,例如,对于人口学信息、数值型变量阈值、编码映射关系等,可按一定比例抽样,核查其准确性与合理性。
通用数据模型(CommonDataModel,CDM)是多学科合作模式下对多源异构数据进行快速集中和标准化处理的数据系统,其主要功能是将不同标准的源数据转换为统一的结构、格式和术语,以便跨数据库/数据集进行数据整合。
由于多源数据的结构和类型的复杂性、样本规模和标准的差异性,在将源数据转换为CDM的整体过程中,需要对源数据进行提取、转换、加载(Extract-Transform-Load,ETL),应确保源数据在语法和语义上与目标分析数据库的结构和术语一致。
理想的通用数据模型应遵循以下原则:
1.CDM可以定义为一种数据治理机制,通过该机制可以将源数据标准化为通用结构、格式和术语,从而允许跨多个数据库/数据集进行数据整合。CDM应具有访问源数据的能力,是可动态扩展和持续改进的数据模型,并有版本控制;
2.CDM变量的定义、测量、合并、记录及其相应的验证应保持透明,多个数据库的数据转换应有清晰一致的规则;
五、真实世界数据的合规性、安全性与质量管理体系
应依照国家法律法规、行业监管要求等做好数据安全管理工作,对承载健康医疗数据的信息系统和网络设施以及云平台等进行必要的安全保护。数据安全保护范围应涵盖包括数据收集、数据提取、数据传输、数据存储、数据交换、数据销毁等在内的各个生命周期。采用加密技术保证数据在收集、提取、传输和存储过程中的完整性、保密性、可追溯性,使用介质传输的,应对介质实施管控。对不同介质的数据形式采用不同的保护措施,并建立相对应的访问控制机制,对访问记录进行审核、登记、归档和审计。
六、与监管机构的沟通
为保证RWD的质量符合监管要求,鼓励申请人与监管机构及时沟通交流。在真实世界研究正式开始前,基于整体研发策略和具体研究方案等,就RWD是否支持产生RWE进行交流,包括RWD的可及性、样本量是否足够大、数据治理计划是否合理可行、数据质量可否得到保障等。在研究进行中,如果根据研究实施中的变化情况对数据治理计划进行调整,申办者需衡量数据治理计划调整对试验目标的潜在影响,向监管机构说明调整的充分理由,并征得其同意,还应将更新的研究方案和数据治理计划书备案。在研究完成后和递交资料前,申办者可与监管机构咨询递交资料和数据库进行沟通。
分析数据库(AnalysisDataset):根据特定研究的具体要求,对原始数据库做该研究特有的定制化处理后形成的数据库,包括从研究中心提取原始数据补足缺失项、完成随访、通过患者ID进行数据关联、衍生指标计算、数据标准化、医学编码等。
观察性研究(ObservationalStudy):根据特定研究问题,不施加主动干预的、以自然人群或临床人群为对象的、探索暴露/治疗与结局因果关系的研究。
患者报告结局(Patient-ReportedOutcome,PRO):是一种来自患者自身测量与评价疾病结局的指标,包括症状、生理、心理、医疗服务满意度等。其记录有纸质和电子两种方式,后者称为电子患者报告结局(ePRO)。
逻辑核查(EditCheck):对输入计算机系统的临床研究数据的有效性的检查,主要评价输入数据与其预期的数值逻辑、数值范围或数值属性等方面是否存在逻辑性错误。
数据标准(DataStandard):是关于如何在计算机系统之间构建、定义、格式化或交换特定类型数据的一系列规则。数据标准可使递交的资料具有可预测性和一致性,且具有信息技术系统或科学工具可以使用的形式。
数据清洗(DataCleaning):数据清洗旨在识别和纠正数据中的噪声,将噪声对数据分析结果的影响降至最低。数据中的噪声主要包括不完整的数据、冗余的数据、冲突的数据和错误的数据等。
数据元素(DataElement):临床研究中记录的受试者的单一观察值,例如,出生日期,白细胞计数,疼痛严重程度,以及其它临床观察值。
数据治理(DataCuration):针对特定临床研究问题,为达到适用于统计分析而对原始数据所进行的治理,其内容至少包括数据提取(含多个数据源)、数据安全性处理、数据清洗(逻辑核查及异常数据处理、数据完整性处理)、数据转化(通用数据模型、归一化、自然语言处理、医学编码、衍生变量计算)、数据质量控制、数据传输和存储等若干环节。
通用数据模型(CommonDataModel,CDM):是多学科合作模式下对多源异构数据进行快速集中和标准化处理的数据系统,其主要功能是将不同数据标准的源数据转换为统一的结构、格式和术语,以便跨数据库/数据集进行数据整合。
协变量(Covariate):研究者预计的或通过探索性分析确定的会对主要结局变量产生重要影响的变量,它可以分为基线协变量和非基线协变量两类。
源数据(SourceData):临床研究中记录的临床症状、观测值和用于重建和评估该研究的其他活动的原始记录和核证副本上的所有信息。源数据包含在源文件中(包括原始记录或其有效副本)。
真实世界研究(Real-WorldResearch/Study,RWR/RWS):针对临床研究问题,在真实世界环境下收集与研究对象健康状况和/或诊疗及保健有关的数据(真实世界数据)或基于这些数据衍生的汇总数据,通过分析,获得药物的使用价值及潜在获益-风险的临床证据(真实世界证据)的研究过程。
真实世界证据(Real-WorldEvidence,RWE):通过对适用的真实世界数据进行恰当和充分的分析所获得的关于药物的使用情况和潜在获益-风险的临床证据。
参考文献
为进一步指导和规范申办者利用真实世界数据生成真实世界证据支持药物研发,药品审评中心组织起草了《用于产生真实世界证据的真实世界数据指导原则(征求意见稿)》。现将有关情况说明如下:
一、背景和目的
真实世界数据是产生真实世界证据的基础,高质量的适用的真实世界数据是产生真实世界证据的前提条件。目前真实世界数据普遍存在数据的记录、采集、存储等流程缺乏严格的质量控制,数据不完整,数据标准和数据模型不统一等问题,对真实世界数据的有效使用形成了障碍。因此现阶段需明确如何使收集的真实世界数据能够成为或经治理后能够成为满足临床研究目的所需的分析数据,以及如何评估真实世界数据是否适用于产生真实世界证据。
药品审评中心组织起草《用于产生真实世界证据的真实世界数据指导原则(征求意见稿)》,作为《真实世界证据支持药物研发与审评的指导原则(试行)》的补充。
二、起草过程
本指导原则的起草小组基于药审中心与南方医科大学战略合作建立的三方学术协调委员会,由学术界、制药工业界和监管机构代表共同组成,保证了本指导原则高效、高质量完成。
本指导原则自2020年1月正式启动,分别于2020年5月和7月召开两次专家研讨会,对指导原则初稿进行了充分的讨论和交流,并经药审中心内部征求意见与审核,形成征求意见稿。
参与制订本指导原则的专家名单见附录,在此一并致谢。
三、主要内容与说明
(一)引言
阐述了本指导原则的起草背景、目的和适用范围。
(三)真实世界数据适用性评价
详细介绍了基于特定的研究目的和监管决策用途,如何对真实世界数据进行适用性评价,包括源数据的适用性评价和经治数据的适用性评价。
(四)真实世界数据治理
详细介绍了针对特定临床研究问题,为达到适用于统计分析而对原始数据所进行的治理,其内容包括但不限于:数据安全性处理、数据提取、数据清洗、数据转化、数据传输和存储、数据质量控制等若干环节。附录2较为详尽的提供了真实世界数据治理流程的案例。
(五)真实世界数据的合规性、安全性与质量管理体系
强调应依照国家法律法规、行业监管要求等做好数据安全管理工作,应建立完整的质量管理体系,以规范真实世界数据的处理流程。
(六)与监管机构的沟通
为保证真实世界数据的质量符合监管要求,鼓励申请人与监管机构及时沟通交流。
(七)附录
提供了参考文献、词汇表、中英文词汇对照、真实世界数据治理流程案例。