打开教育政策研究的“黑盒子”——基于理论的影响评估在随机干预实验研究中的应用|确定目标的四个方法_宠物驱虫

影响评估旨在了解政策对参与者福利的影响，其关键在于建立两者之间的因果关系，了解政策的作用机制。在各类影响评估方法中，随机干预实验方法（RandomizedControlledTrials，RCTs）通过将满足一定样本要求的参与者随机分配到实验组和控制组，构建严格的“事实”和“反事实”，保证实验组和控制组在末期评估时目标指标之间的统计学差异为政策或干预的净影响，因而被称为影响评估的“黄金准则”（Jones&Podolsky，2015）。一般认为，RCTs方法在识别因果关系系数大小、精确估计政策平均影响（AverageTreatmentEffect，ATE）方面具有其他任何方法都难以企及的优势（Banerjee&Duflo，2009）。然而，该方法自进入社会政策研究的视野之初便饱受争议（Heckman&Smith，1995）。争议的焦点在于：随机干预实验相当于一个“黑箱”，使用这种方法的研究只能回答“什么有效”，无法回答“为什么有效”。这就意味着人们既无法从中进一步了解人类行为的一般规律，也不确定这种政策能否推广到其他样本中（即外部有效性问题），因而极大地削弱了随机干预实验研究的价值。

最近十余年来，严谨的影响评估领域的研究回应了这一问题。研究者们不仅寻求识别政策是否有效、效果大小，也越来越重视对政策作用机制的探索，了解政策有效或无效的原因。人们普遍认为，基于理论的影响评估（Theory-BasedImpactEvaluation，TBIE）有助于回答“为什么有效”这一问题（White，2009）。基于理论的影响评估通过建立从投入到产出再到影响的因果链，使用实证数据检验在因果链中可能起作用的理论和潜在假设是否成立，来达到厘清干预项目作用机理的目的。

本文旨在回顾和总结基于理论的影响评估的核心概念和原理，并结合RCTs方法和具体实例，阐述在开展RCTs时，如何基于理论探索干预项目的作用机制。本文的第二部分是概念界定和理论阐述，提出了实施机制分析的四个阶段以及其中包含的六个步骤（问题–目标–方法–因果链–过程评估–结果），作为应用基于理论的影响评估的核心工具。第三部分以一个儿童早期发展项目的分析为例，介绍研究团队是如何分析其影响机理的。第四部分总结回顾基于理论的影响评估的要点，并进一步讨论该方法目前在学术界的争议，以引起研究者的思考。

二、概念、理论和步骤

(一)概念界定和理论阐述

虽然研究者们对于TBIE方法已基本达成共识，但由于不同项目的背景不同、进行影响评估的目标不同，研究者会根据项目侧重点选择性地重视TBIE方法的不同要素，因而TBIE方法目前还没有形成一个放之四海而皆准的框架（Rogers，2008；Corynetal.，2011）。基于此，我们将研究视角聚焦于使用RCTs进行的影响评估项目，介绍如何在这些项目中使用TBIE方法进行作用机制的分析。

(二)四个阶段

1.提出问题，界定目标，确定干预方法

提出问题

我们对项目的思考首先从明确问题（Problems）开始：项目或社会政策的目标通常是为了解决目标对象所面对的实际困难和真实的问题。社会问题的复杂性决定了梳理问题并找到解决问题的切入口，比“项目内容是什么”“怎么做这个项目”重要得多。

一个有清晰定义的问题应该梳理四个方面的内容（李志艳，2015；Gertler，2016）。首先是问题的现状和背景。项目所关心的是谁的问题？在回答这个问题时，需要将主观认为的问题与目标对象真实的问题分开；需要具体而不是笼统地描述目标对象，比如，“留守儿童”是一个笼统的对象，因为不同年龄段或父母外出类型不同的留守儿童面临不同挑战（高玉娟等，2018；Baietal.，2019；Yueetal.，2020）；需要区别过程对象与最终目标对象，比如在儿童早期发展项目中，过程对象可以是父母，而最终目标对象是孩子。除了明确问题的对象，项目还需要明确所关心的问题是什么？即目标对象究竟存在哪些有待改善的问题。首先要区分期望和问题。比如，乡村医生的医学知识有待提高是一个期望，而不是他们的具体困难。经过深入调研会发现，乡村医生群体培训机会少，知识更新和积累不够，从而造成诊断率低（史耀疆等，2016），这才是真正的问题。其次，在描述问题的现状与背景时，需要回答有多少目标对象正在面对这个问题，项目的经济和政策背景是什么，等等。以上这些都需要调研和数据的支持。

其次是问题的重要性，即如果我们不解决这个问题会给个人和社会带来严重不良后果，那么这个问题就是“真问题”。比如研究证明农村儿童学业表现不佳会降低他们最终的受教育水平和人力资本积累，影响未来收入，因此儿童在校的学业表现不佳是一个重要的需要被解决的问题（张林秀等，2014）。

界定目标

当问题明确后，需要界定项目的目标。项目目标应该是目标对象的某些指标的改善。目标不是想做的事情（即活动），而是期望推动的变化（即影响）。通常一个好的项目要尽可能地聚焦项目期望带来的改变，而不应有过多的目标，过多的目标意味着项目实施常常会同时进行多种干预，这不仅无法准确评估每种干预方案的效果，在项目无效的情况下也无法准确识别项目可优化的环节进而改进项目。合理选择预期的结果变量是保证项目效果可量化的关键。结果变量的选择应满足“SMART”原则（Gertler，2016）。具体来讲，结果变量需要具体化（Specific），尽可能的测量所需的信息；需要可测量（Measurable），确保信息容易获得，具有可操作性和可观测性；需要可归因（Attributable），确保每一个指标都能够关联项目因果链（在下一个阶段中介绍）上的每个环节，即能够跟踪观察到的任何项目结果的因果逻辑；需要具有可行性（Realistic），确保以合理的频率及合理的成本及时获取数据；需要有针对性（Targeted），即瞄准目标人群。在选择指标时，重要的是要顺着因果链确定所有的指标，以便能够跟踪观察项目结果的因果逻辑。

确定干预方法

2.初步建立因果链

如果研究者只想知道项目的平均效果（是否有效），那么只需要实施RCTs项目，并在干预前后收集关于实验组和控制组目标对象的结果变量的信息，就可以准确地获得对于项目效果的估计（具备内部有效性）。

变化理论要求在项目正式实施之前构建详细的基于干预方式的从投入到产出的因果链。因果链通过一系列的方盒子或是表格形式来呈现项目变化的各个环节（Khandkeretal.，2010；Gertleretal.，2016）。因果链分析的第一步是列出项目从投入到产出的一系列环节（见图1），主要包括：

（1）项目投入环节，通常包含项目预算、资金、人力、物资、政策等的投入；

（2）项目活动环节，也就是项目针对问题的成因所设计的项目干预方案的开展阶段，即项目供给方做了什么；

（3）项目产出环节，通常包含项目活动产生的直接服务或商品（Supply-SideOutputs），例如多少人参与了项目开展的活动，项目的受益人数是多少，等等；

（4）项目结果环节，通常包含项目的短期、中期和长期结果的改变，也就是项目的过程对象和最终对象产生的改变（Demand-SideOutcomes）。

在构建因果链各环节的过程中，第3步的项目产出和第4步的项目结果的划分经常不能泾渭分明。我们一般按照项目供给方和需求方谁有更多影响来区别。项目产出通常是项目供给方可以直接控制和影响的，例如多少人实际参与了项目开展的活动、项目的受益人数是多少等。而项目结果通常是需求方（项目受益方）的变化，主要取决于项目受益人的观念、知识和行为的改变，通常是项目供给方无法直接控制和影响的。

在构建因果链的各个环节时，我们还会发现，长期结果通常比为达成长期结果的先前环节更容易确定。这是因为，一旦我们明确了目标对象所面临的困难和现状，长期结果就是推动目标对象现状的改变（即项目总目标）。而对于推动这种改变的过程（或先前环节），通常可以在初次建立因果链时，使用倒推法来确定（李志艳，2015）。倒推法是从长期结果开始，依据理论建立从投入到结果各个环节间的逻辑关系，使用“如果，那么”的句式来进行逻辑推演。比如，如果要改善儿童的早期发展状况，那么我们需要先达成什么样的中期结果（即前提条件）。

假设条件在因果链分析中具有十分重要的地位。如果想要确认因果链中的每一环在什么样的情境下成立，必须清楚明白地说明每一环的假设是什么（Weiss，1995b）。充分地思考假设条件可以使我们更好地理解异质性问题：项目之所以对不同群体产生差异性的影响，可以被分解为不同群体满足因果链上各个假设的程度不同。假设对解决外部有效性的问题也十分关键：在干预项目成功、因果链明确的情况下，如果新样本也满足这些假设，那么该项目应该也可以对新样本产生类似的作用。假设条件的检验指标也应满足SMART原则，以有效用于数据分析过程中的检验（见四个阶段第1点）。

3.过程评估

对个体行为、外部环境的假设和对前提假设的分析，都要以事实为基础，也要接受事实的检验。如果与事实不符，因果链从根子上就是错的。最理想的是我们提前掌握关于这些假设的数据，但现实中我们往往需要在项目实施过程中了解这些信息。

4.数据收集和作用机制分析

数据信息的收集应涵盖从干预实施前到到干预实施结束的全过程。研究团队应当依据因果链设定的关键指标，在不同阶段收集定量数据，以便进行作用机制的分析。在这个过程中，重要的是数据的收集和分析一定要紧扣因果链的环节和假设。

基于过程和结果变量的定量数据的收集，不仅可用于评估项目的平均效果，更重要的是可以建立中间过程理论（Merton，1967；Bonelletal.，2012）。在数据收集后，有很多不同的方法来进行机制分析。RCTs中较为常用的分析方法是调节效应分析（ModeratorAnalysis，环境和背景的异质性分析）和中介效应分析（MediationAnalysis，检测作用机制）（Shahetal.，2015）。当然，也有研究通过建模和模拟的方法进行机制分析（Attanasioetal.，2018）。使用何种方法进行分析可以作为一个单独的话题来讨论，本文仅对前两种常用方法进行简单阐述。

中介效应分析

调节效应分析

三、TBIE方法应用：以“养育未来整县覆盖随机干预实验项目”在中国的实践为例

我们将以秦巴山区一个国家级贫困县的0—3岁儿童早期发展整县覆盖项目为例，按照表1中的几个关键环节来呈现TBIE方法的应用过程。

1.提出问题

过去15年中，中低收入国家开展的大规模的入户和中心模式的婴幼儿早期发展干预项目已经证明，通过指导照养人进行科学养育能够有效提高儿童早期的认知和语言发展能力（Reynoldsetal.，2010；Walkeretal.，2011；Gertleretal.，2011；Attanasioetal.，2014；Brittoetal，2016；Sylviaetal.，2018）。政策制定者在早期干预项目的有效性上已不再争论，但是高质量的儿童早期干预项目如何能够实现规模化推广和复制，尤其是在国家层面的推广，仍是一个有待探索的问题。

对于农村贫困家庭而言，一方面因为社会化/市场化的儿童照护服务不足，另一方面由于经济原因，大多数家庭无法依靠购买优质的市场化服务来解决儿童照护问题，此时由政府提供普惠性服务是照养人能够接受科学育儿指导的重要途径，也是体现社会公平的途径。然而由政府在贫困地区提供婴幼儿早期发展的公共服务，将面临服务数量庞大、提供服务的工作人员数量不足、组织和管理难度大等挑战。一些发展中国家已经开展了早期儿童发展方面的普惠性项目，例如古巴的EducaatuHijo项目（Verch，2017）、巴西于2016年启动的面向400万儿童的大型全国性项目—快乐儿童项目（英文名称为HappyChildProgramme）（Verch，2017）。这些项目给开展儿童早期发展的公共政策制定提供了许多有价值的参考，然而这些项目目前还没有经过系统的影响评估，因此在项目效果、项目的作用机制以及其外部有效性方面还没有形成经过验证的结论。因此，政府主导和执行的普惠性的婴幼儿干预项目还有待进一步的研究。

2.界定目标并确定测量指标

在厘清研究问题后，项目组对项目目标及衡量目标的指标进行了梳理。

首先，项目的最终目标是改变0—3岁婴幼儿（最终目标对象）早期能力的发展水平，从而改变儿童的成长发展轨迹，阻断贫困的代际传递，并最终提高我国人力资本的质量。这是项目希望推动的变化。那么项目的短期目标是什么呢将已有研究结论作为理论基础，运用倒推法可初步建立影响儿童发展的中间途径。研究表明，在农村地区的现实情况是0—3岁儿童主要由家庭照养为主，照养人的养育知识和技能以及家庭养育环境是影响婴幼儿发展最直接和最重要的环节（Luoetal.，2017a；Luoetal.，2017b；Yueetal.，2017；Yueetal.，2019）。因此，项目的短期目标是改善照养人（过程对象）的养育知识、态度、行为和家庭的养育环境，希望通过推动过程对象的改变影响最终目标对象的发展。

为衡量项目是否达成目标，目标还需要被转化为可量化的指标。指标的选择遵循SMART原则，需要瞄准目标对象，反映项目目标，紧扣因果链，可量化且容易采集。项目组通过文献梳理，确定了项目最终目标（儿童早期发展水平）的测量指标为婴幼儿的运动、认知、语言、社会情感和适应性能力的发展，并选取被广泛使用的、具有较高信效度的测评工具进行测量。项目组最终使用了多种量表进行婴幼儿早期发展能力测评，包含：贝利婴儿发展量表（BayleyScalesofInfantDevelopment，BSID），年龄和阶段问卷（AgeandStagesQuestionnaires，ASQ），年龄与阶段问卷—社会情感（AgeandStagesQuestionnaires，ASQ-SocialEmotion，ASQ-SE）和照养人报告儿童早期发展量表（TheCaregiverReportedEarlyDevelopmentInstrument，CREDI）（Fernaldetal.，2017）。项目选取多种量表对儿童发展能力进行测评，目标是进行稳健性检验，并对不同量表的有效性进行对比。

项目的短期目标为改善照养人的养育知识和技能。项目主要通过四项指标对其进行量化：养育知识、态度、行为以及家庭养育环境。基于信效度以及在中国实用性的考虑，项目组最终选取了婴幼儿发展量表（KnowledgeofInfantDevelopmentInventory-Portuguese，KIDI-P）测量养育知识（Nobre-Limaetal.，2014）；选取父母控制源量表（TheParentalLocusofControlScale）测量照养人的养育态度（Campisetal.，1986），选取家庭照护指标量表（FamilyCareIndicators，FCI）测量家庭养育环境和养育行为（Hamadanietal.，2010；Frongilloetal.，2014）。此外，主要照养人的心理健康水平是影响儿童早期发展水平的关键因素，干预也可能通过影响照养人的心理健康进而影响儿童早期发展（Cogilletal.,1986;Lovejoyetal.,2000;Yueetal.,2017;Zhangetal.,2018）。因此通常还会使用抑郁–焦虑–压力量表（DepressionAnxietyStressScale，DASS）等测量照养人的抑郁、焦虑、压力倾向（甘雨等，2019）。

3.确定干预方案

针对贫困地区儿童早期发展问题，为实现政府主导和实现为全县所有适龄儿童及其家庭提供普惠性服务的目标，干预方案具体包含两个方面。

第一，以政府为主体负责项目的管理和执行。县委、县政府成立儿童早期发展工作领导小组，并在教育体育和科技局下设项目管理中心，进行社区动员以及日常管理，为项目实施提供保障，推动项目有序高效运行。

4.初步构建项目干预的变化理论（因果链分析，White，2009；Gertler，2016）

那么，项目的干预方案如何以及为什么能够影响照养人（过程对象）的养育能力和婴幼儿（目标对象）的能力发展？项目通过文献梳理和前期研究结果初步搭建了项目干预的变化理论。表2以表格的形式勾画了项目因果链各环节的内容、各环节因果关联的假设、各环节的测量指标、影响项目效果的外部环境以及可能导致项目效果产生异质性的背景信息。

因此，项目变化理论将项目服务质量（包含干预强度、内容以及关系指标）设定为项目是否成功的重要前提假设。项目服务质量低下将直接影响家庭和儿童参与项目活动的情况，从而影响照养人的养育知识和技能，进而影响儿童的发展。

基于前期项目经验和访谈，养育师作为项目质量的保证，其能力素养也可能改变项目影响的方向和大小。社区外部环境也可能影响项目的执行效果。因此，项目将养育师特征和社区特征设定为影响项目效果大小的重要背景信息。

5.过程评估（ProcessEvaluation）：完善变化理论

6.数据收集和作用机制分析

以养育未来整县项目为例，项目组在基线调研、项目执行和追踪调研阶段，基于完善后的因果链所确定的不同环节的变量指标进行了定量数据收集。项目组在基线调研时通过问卷调查收集了家庭基本信息，家庭养育知识、观念、环境和行为，儿童个人的基本特征和气质类型，社区特征和养育师特征等信息。在追踪调研和项目执行过程中，也收集了有关项目质量的数据，如家庭课程和活动参与时长（Dosage）、养育师服务内容的质量（Content）以及养育师与家庭的关系（Relationship）。这些变量是调节效应分析（即异质性分析）的重要调节变量（moderators），能够帮助我们理解干预措施会在“何时”以及对“哪些人群”的结果有不同的影响（Frazieretal.，2004）。这些调节变量可能会改变干预对结果变量的影响方向或大小（Frazieretal.，2004）。因此，该分析使研究者跨越总体的平均效果分析，进一步探索干预对结果影响的异质性。

中介效应和调节效应分析的结果将是帮助我们确定项目干预有效和项目干预应该如何在不同人群中适配的关键因素。这些结论将帮助项目组完善项目实施手册，为农村贫困地区的婴幼儿干预项目提供经过实证分析验证的、更加精准的、宜推广的政策建议。当然，项目仅在一个贫困县开展了研究，因此项目干预对于不同地区的影响仍是一个有待研究的问题。

四、总结

本文概述了基于理论的影响评估（TBIE）作为一种方法框架，在随机干预实验（RCTs）作用机制分析中的应用。需要明确的是，TBIE的目标不是为了提供更好的反事实对照组（Counterfactuals）以提高分析的内部有效性，也不是为了提高统计分析的功效，TBIE的目标是理解一个项目或者一个政策的作用机制（Mechanisms），干预方案究竟是如何以及为什么会影响目标对象结果的变化，干预方案究竟对哪些人群、在何时何地会有不同的影响。其核心是以目标对象面临的实际问题为导向、以变化理论为基础来进行作用机制的分析和探讨。本文对随机干预实验机制分析框架进行了概述，结果发现，以问题为导向是社会项目和政策的初心，基于问题的成因建立的目标使得项目和政策的方向更加精准，变化理论则引导项目的实施，数据的收集和机制分析，最终产出的结果是对一个项目和政策的作用机制的理解，以便更好为政策和项目提出建议。在这个过程中，我们强调变化理论的建立需要基于经过验证的理论，而非未经检验的假设。

基于中间变量进行作用机制分析还可能存在统计功效不足的问题。RCTs在进行统计功效计算时一般是基于对主要结果的整体干预效果的预测，因此，基于中间变量的中介和调节分析可能会有统计功效不足的问题。然而，试验已经普遍包括中介和调节分析，我们只是建议这样的分析应更侧重于测试关于干预机制如何与环境相互作用以产生结果的假设，并建议这样的假设应更多地通过干预理论和过程评估数据的初步分析来进行完善和修正（Jamaletal.，2015）。

基于因果链的TBIE框架能够帮助我们理解干预如何导致政策结论以增强项目影响的。要做到这一点，变化理论需要以灵活的方式进行阐述，以适应该领域不断变化的环境，并考虑相互竞争的理论和意料之外的结果，也需要使用多种方法进行分析，将事实分析和反事实分析结合起来。

THE END

打开教育政策研究的“黑盒子”——基于理论的影响评估在随机干预实验研究中的应用

4个目标管理法，让努力有效分析法终极目标

目标完成的四个阶段：有效实现目标的方法

提成方案集合15篇

大学生职业规划原则范文

产品营销方案案例模板（通用12篇）

打开教育政策研究的“黑盒子”——基于理论的影响评估在随机干预实验研究中的应用

炮兵侦察兵怎么样？如何确定坐标？侦察兵必须要懂这几点！敌人目标

管理者课程

考试注意力集中小技巧集中注意力的方法

《结构思考力》笔记RubyLu

2023年调研工作方案(实用12篇)