三、聚焦教育精准扶贫:随机干预实验的中国经验
随机干预实验是对政策或干预项目是否达到预期成效进行影响评估的一种方法。相对于其他方法,随机干预实验最主要的优势是能够进行因果分析,能够准确评估出项目的“净”影响效果。相对于其他方法,随机干预实验在进行归因时需要更少的假设,且这些假设更容易成立,其评估结果具有更高的内部有效性(InternalValidity)。同样是提供证据,相对于其他方法,随机干预实验能够提供更科学、更准确的证据,也因此,该方法在基于证据(evidence-based)的政策制定中越来越受到重视。
从这一过程可以看出,虽然诺贝尔经济学奖肯定了“实验性方案”在减贫领域的应用,但仍需要明确随机干预实验本身并非减贫的直接解决方案。更准确地说,随机干预实验是为减贫寻找、发现出相对更好的解决方案的方法。一项减贫方案的优劣并不取决于是否使用了随机干预实验,不是说使用了随机干预实验方法进行评估的方案就一定是好方案,也不是说没有使用随机干预实验方法的方案就不是好方案。因此,不应夸大随机干预实验的作用,而忽视了准确的问题界定、更合理的干预设计等基本问题。
当然,也不应因随机干预实验本身的复杂性而排斥使用。相对于其他研究方法,随机干预实验的使用相对更复杂,例如,随机干预实验需要有对照组,因此需要更多的样本观测。随机干预实验需要基线调研、评估调研等多次观测,而不只是一次观测。随机干预实验对于项目过程的控制要求也更高,例如需要避免因对照组和干预组因相互交流而带来的污染。更重要的是,随机干预实验不像其他研究方法多以旁观者的身份进行监测,而是要求研究者不仅要观测,还要设计项目、参与到项目实施过程中。比如要评估计算机辅助学习干预对学生学业表现的影响,就需要制作相应软件、去学校安装软件、对教师培训使用软件、对使用软件的过程进行监测、对可能的错误进行纠正等。研究者在看到其复杂性的同时,也应充分肯定其相对于其他方法的优势,不应因畏惧实施的困难而排斥使用随机干预实施方法。
并不是说随意地使用随机干预实验方法就能找到好的教育扶贫方案。总结中国实践可以发现,要通过随机干预实验发现、推动实施有效的教育扶贫政策,需要解决好以下几方面问题:(1)合理、精准的干预设计;(2)深入的数据分析;(3)避免威胁内部有效性的因素;(4)应对好项目规模化的挑战,提高项目的外部有效性(ExternalValidity)。中国随机干预实验的实践为解决这些问题提供了重要的经验借鉴。
(一)问题精准、干预合理
一项干预方案的优劣,首先取决于问题选择是否精准、干预设计是否合理。
1.问题导向,精准聚焦,选题要有较强的政策性
问题精准聚焦还应明确研究关心的到底是谁的问题,明确项目最终是为谁服务的,尤其需要区别过程对象与最终对象的不同。例如,在改善儿童早期发展水平的项目中,过程对象可以是社区、父母等,但最终对象是孩子。对家长的培训要解决的问题并非提高家长的养育知识,而是要最终改善孩子的发展水平。项目是否有效应以孩子的发展水平最终是否提高为判断依据。
2.多方合力,设计干预方案时加强多学科合作
虽然当前各研究学科有着各自明确的研究领域,但现实问题是复杂的,一个现实问题的出现可能是多方面的原因带来的。随机干预实验是一项具体的社会行动,社会行动的落实必然要求项目设计要考虑到社会生活的各个方面。随机干预实验本身是以经济学为主要基础的评估方法,但干预项目的设计必然要求多学科交叉。当今教育研究和教育政策的设计,明显表现出从宏观到微观、从静态到动态、从单一到多元的变化趋势,集合经济学、教育学、心理学和计算机科学等多学科的交叉研究已成为教育研究、教育政策设计的发展趋势。
3.逐步探索,简单渐进
要通过一次随机干预实验就找到有效的干预方式并彻底解决问题,通常也是非常困难的。对复杂问题的认知需要在实践过程中发展、完善,因此对干预的设计也需要不断发展、完善。对于评估有效的方案,可以在总结经验的基础上改进以进一步增强其效果。对于评估没有影响效果的方案,也不应彻底放弃,需要分析项目无效的原因,分析因果链条在哪些环节断裂了,思考是否可以通过调整、改进使其变得有效果。
干预设计的“简单渐进”原则将复杂问题简单化、将大问题化解为小问题,通过一步步的累积逐步解决问题,而不是试图一次性、彻底地解决所有问题。围绕一个待解决的问题,通过多次的项目逐步迭代,一步步设计出更有效的解决方案,是中国随机干预实验实践积累的重要经验之一。
4.干预设计注重理论指导下的创新性
干预方案的设计强调政策导向性,但并不排斥干预设计对理论的应用。某些随机干预实验可能并不强调干预设计的理论意义。例如,对于政府拟实施的一些政策,无论是否有理论意义、理论意义是什么,既然“不可避免”地要实施,就有必要通过随机实验干预方法评估其可能的影响效果。但对于多数问题,在理论指导下设计干预可能会更快地找到有效的干预方案。理论可能预测了某些结果的产生、产生这些结果可能需要的条件等。通过基于理论的因果链分析,可以提前准备干预所需要的条件、控制关键环节避免干预效果耗散等问题。
为检验某理论而设计的干预可能有更广泛的政策意义。例如,针对学生缺铁性贫血问题设计的两项干预是向学校提供补贴和向校长提供激励。单独看,这是两项具体的干预措施,它们如果被评估有效可以转化为具体的政策,但这并不会给其他干预的设计带来启发。但也可以从更深层的理论角度来理解这两项干预:学生的营养健康问题主要是学校资源不足造成的(没有资源改善这一问题),还是激励不足造成的(学校管理者没有意愿改善这一问题)。这样一来,这一随机干预实验的研究结果不仅可以提出解决学生缺铁性贫血问题的具体政策,还可以对其他类似问题的解决提供重要借鉴。例如对于学生的视力问题、体能问题、发育滞后问题、心理健康问题等,在解决这些问题时就可以考虑应优先从资源不足入手还是应从激励不足入手。
此外,干预设计的创新性也应当被重视。一些社会问题可能早已被社会发现,但长期以来没有得到解决,这不是因为之前没有尝试,更可能是因为已有的尝试、已有的解决办法均没有显著效果。要想取得更好的效果,就需要有新的解决思路。这一方面需要对已有的干预方案、解决办法进行梳理总结,了解是否已经有其他机构/组织在尝试解决这一问题是从哪些方面来解决这一问题的解决方法是否有效,为什么有效或者无效在总结已有经验的基础上,结合理论提出新的解决思路、设计新的解决方案,这样才有可能提出更有效的解决方案。
(二)进行深入的数据分析
开展过随机干预实验,发现了可以解决问题的有效干预方案,并不意味着可以直接将其转化为政策。政策制定时可能需要更多细节,例如,政策制定者不只要知道是否有效,还需要知道细节如何执行、如何监管等。这就需要通过对随机干预实验数据进行深入的数据分析来提供。
1.明确关键环节,发现改进项目的线索
2.运用成本效益分析对比干预项目
3.对项目实践进行理论总结和提升
在设计随机干预实验项目时应注意理论指导;在项目完成后,也应注意对项目实践进行理论总结,尤其是在针对某一问题一系列的随机干预实验开展之后。随机干预实验的结果有明确的政策含义,但如果能进一步进行理论总结,则可能使研究结果对现实具有更强的指导意义。中国教育扶贫领域的随机干预实验实践检验或发展了多方面的理论问题,其中有两方面比较重要。
(1)关于生命周期不同阶段人力资本投资的社会回报率
中国教育扶贫领域的随机干预实验实践表明,生命周期不同阶段的人力资本投资回报率是随着年龄增长而递减的。当以教育人力资本为结果变量时(例如学生的学业表现或者上大学、上高中的概率),针对高学龄段开展的干预项目通常没有针对低学龄段开展的项目有效。例如,对于大学生、高中生的干预远没有对初中生的有效;而对于初中生的干预,没有对小学生的干预有效。当以健康人力资本为结果变量时,同样也表明越早进行干预越有效。中国的随机干预实验实践表明,JamesHeckman关于生命周期不同阶段的人力资本投资社会回报率的曲线(图7)在中国农村地区仍然成立。这一理论的验证为教育扶贫领域进行政策干预指出了重要的方向。
(2)关于信息干预的有效性问题
(三)避免威胁内部有效性的因素
随机干预实验方法最主要的优势是能够估计出干预项目对结果变量的真实影响效果,这一特点可称之为内部有效性(InternalValidity)。但并非任一随机干预实验均具有内部有效性,内部有效性常常受到威胁,确保随机干预实验的内部有效性需要满足一定条件。中国的随机干预实验实践为处理好内部有效性的威胁提供了重要的经验借鉴。
1.非预期行为(UnintendedBehavioralEffects)
非预期行为是指干预组或对照组样本意识到干预分配结果而产生的非预期反应。这包括两个典型现象。一是霍桑效应(HawthorneEffect,也称为实验效应),指样本知道自己被选择参加实验而产生个人行为变化,例如更努力工作。二是约翰·亨利效应(JohnHenryEffect),指对照组样本意识到自己没有被分到干预组而更加努力工作。这些都会造成干预项目真实影响效果的偏误(Heckman&Vytlacil,2008)。
解决这些问题可采用单盲甚至双盲的实验设计,即实验参与者不应知道自己被分配组别的情况(单盲)、甚至实验实施者也不知道干预分配情况(双盲)。例如,对于教师绩效工资项目,对于对照组的教师不应让他们提前知道这一干预项目的存在。此外,也可通过类似医学中安慰剂的设计来消弱实验效应。例如,对于通过《告家长书》改善学生的缺铁性贫血问题,在向干预组学生发放《告家长书》的同时,也应向对照组学生发放同样的一份《告家长书》。后者在纸张材质、开头称呼、页数等方面均与前者一致,只是不包含关于缺铁性贫血的关键信息。
2.不完全依从(ImperfectCompliance)
尽管样本随机分配到干预组或对照组,但会出现被分到干预组或对照组中的样本未完全遵守分配的情况,即依从性问题(Gertleretal.,2013)。这可能是由错误的项目执行造成的,例如在免费眼镜项目中,由于执行中出现偏差,分配到干预组的学生并未收到免费眼镜,而这批眼镜被错误地分发给了对照组的学生。不完全依从也可能是由非项目原因造成的,例如对于对照组有视力问题的学生,即使未发放免费眼镜,他们也可能自己配眼镜。
3.样本污染或溢出效应(Spillovers)
在随机分配后可能出现干预组样本影响到控制组样本或者相反的情况。例如,如果干预组和对照组学生同在一个学校,干预组收到可咀嚼的多维元素片的学生可能会分给控制组的学生吃,或者告诉控制组的学生自己去买这种多维元素片。这种情况的出现会在项目评估时低估项目的影响。
为避免样本污染,一是要改变随机分配的层次,例如不是在学生层面进行随机,而是在学校层面进行随机,从而保证同一学校的学生是被分配在同一干预组别中,从而减少不同组别学生接触的可能性;二是注意抽样方法,例如,在选取学校时,可以每个乡镇只选择一所学校而不是多所学校,由于地理上的隔离,一所干预组学校的学生较少有机会接触到另一个乡镇对照组学校的学生;三是在项目实施过程中减少不同组别接触的机会,例如,如果需要对对照组学校和干预组学校的负责人进行缺铁性知识的培训,应该分开、分批次培训,而不是集中一起培训(即使这样可以节省成本),同时,也应避免将对照组的联系人和干预组的联系人加入到同一个工作群中。如果实在难以避免这一问题,目前也有一些实验设计的技术性方法至少可以测量出这一效应的大小(Banerjeeetal.2017)。
4.样本流失(Attrition)
在随机干预实验实施过程中可能出现样本中途退出或在评估调研时未能追踪到等情况,即样本流失。这可能带来两方面的问题:一是如果流失的样本与最初样本有显著差异,例如实验开始后,最需要眼镜的、近视度数高的学生因学习成绩差而辍学,则评估时可能低估了项目的影响,因为最需要眼镜的这部分学生的影响效果未包含在内;二是如果流失的样本在干预组和控制组之间有差异,例如,由于获得了免费眼镜,干预组辍学的学生显著少于对照组,此时干预组与对照组不再具有可比性,通过随机干预实验估计出的项目影响效果也将是有偏差的。
(四)应对好项目规模化的挑战,提高项目的外部有效性
那么,什么是“规模化影响”(Scale-UpEffect)规模化影响是指项目从小规模研究阶段(通常由项目团队或者非盈利性机构执行)走向规模化阶段(通常是普惠性的并由政府执行)所可能产生的成本效益的变化(Al-Ubaydlietal.,2019;Banerjeeetal.,2017)。
项目规模化时,其项目影响与项目成本都可能发生变化。2019年诺贝尔经济学奖得主AbhijitBanerjee、EstherDuflo及其他学者总结了小规模项目在规模化时可能面临的六个挑战:溢出效应、市场均衡效应、政治反应、情景相依性、随机化或选择偏误、试点偏差/执行挑战(Banerjeeetal.,2017)。这一总结得到了广泛的认可,研究者和政府人员普遍认为它们会影响到项目在规模化实施时的成本与效益。具体来讲,六个挑战及其影响如下(在以下内容中,我们同时也总结应对这些挑战的国内外经验):
1.溢出效应(SpilloverEffects)
溢出效应是指干预措施对干预对象的相邻单元的影响。溢出效应既会威胁项目的内部有效性,也会影响项目的外部有效性,从而对规模化产生影响。当干预措施影响的相邻单元是实验对象时(例如对照组样本),溢出效应就会导致内部有效性问题。但当干预措施影响的相邻单元不是实验对象而是更大范围的人群时就会产生外部有效性问题。这种溢出效应可以分为技术溢出效应和信息溢出效应。一些溢出效应与技术有关,例如儿童驱虫项目,如果项目对一个学校的孩子进行了驱虫药的干预,那么临近学校那些没有进行驱虫药干预的孩子也可能受益(Miguel&Kremer,2004)。一些溢出效应与信息有关,例如实施一项新的技术或干预时(如在线学习、社区孕产妇周末课堂、驱虫蚊帐等),最开始接触它的人群可能不会正确地使用或积极参与,但是当越来越多的人体验过产品或服务以后,他们的朋友和邻居也会经过口耳相传的社会学习而知道该项产品或服务,从而产生强化效应(ReinforcementEffect)。因此,研究者需要识别和厘清溢出效应可能带来的规模化影响。
2.市场均衡效应(MarketEquilibriumEffects)
市场均衡效应也可以被理解为是溢出效应的一种。市场均衡效应是指当一项干预措施被大规模实施时,它可能会改变市场的性质。通常来讲,小规模实验在很多情况下与部分均衡分析是一致的:所有市场价格都可以假定保持不变。相比之下,一项大规模的实验—比如全国性的政策干预—可能会影响工资和土地等非贸易商品的价格,而这些价格的变化可能会影响整个项目的净收益(Banerjeeetal.,2017)。
Banerjee等(2017)指出,规模化情况下的项目净收益可能减少也可能增加。例如,奖学金项目通常在小规模实验中能够提高一部分人的教育水平,从而改善他们的收入状况。但是,当项目在人群层面实施时,由于增加了市场上高质量劳动力的供给,供大于求的经济规律会使得工资水平降低,因而在规模化情况下,项目对于收入改善的效果会小于小规模项目的效果(Heckmanetal.,1998;Dufloetal.,2017)。再比如,提高收入的项目会产生乘数效应(MultiplierEffect),它不仅会改变被干预者的收入,也能促进他们的消费,从而影响这些消费品供给方的收入,因此大规模项目中,国民收入的均衡效应要大于小规模实验对收入的影响。
近期的研究采用了不同的方法来应对市场均衡效应的挑战。一种方法是建立模型并进行模拟(Townsend,2010)。第二种方法则是通过实验设计来测量市场均衡效应。其中比较常见的是通过两层随机过程(Two-StageRandomizationProcedure)在市场层面先随机分配干预比例,然后再在各市场内部进行干预的随机分配,以测量市场均衡效应(Creponetal.,2013)。另一种实验则是通过在市场层面进行随机并通过市场层面的结果来测量市场均衡效应(Muralidharanetal.,2016)。
规模化情况下的项目的执行成本也可能受到影响,比如前面提到的养育未来项目,如果政府要在农村地区为0—3岁儿童及其家庭提供普惠性的公共服务,那么它需要雇佣大量的一线工作者来执行项目,然而由于目前尚没有成体系的培养体系,此类人员的供给几乎为零,因此该政策将面临招工难的问题。因此,研究者在进行政策建议时应当在成本效益分析中纳入该部分的人力成本。
3.政治反应(PoliticalReactions)
Banerjee等(2017)提到,随着项目规模的扩大,政治反应可能会有所不同,包括反对或支持项目的反应。有关政治反应的试点项目(比如反腐败)通常比典型的验证干预方法或概念的研究要大得多,因为它涉及的群体要足够大才能产生政治影响。一个小规模试点研究可能会没那么艰难,但这种政治上的反应可能不会显现,因而容易被忽视。然而在其他情况下,试点项目可能比规模化项目更容易受到攻击:因为他们要接受审查,所以很容易被终止。因此,通常需要一定规模的实验才能激发政治反应,并进一步找到解决办法。
在中国的实践中,与政府进行渐进式的合作是一种有效方法。陕西师范大学教育实验经济研究所研究团队及其合作者经过多年的实践总结了研究项目与政府合作的三种渐进模式,即政府观察模式、政府部分参与模式及政府全程参与模式。通过渐近的模式与政府建立信任和合作的关系,有助于逐步达到政府全程参与的效果。
4.情景相依性(ContextDependence)
项目评估通常会在几个精心挑选的地点和特定的组织中进行,其结果可能取决于干预地点或实施组织的一些可观察或不可观察的特征,因此,它们通常不能扩展到不同的地区或组织(即使是在同一个国家)。
解决情景相依性问题的一种方法是对在不同地区或不同组织实施的重复实验进行系统综述。重复实验使研究人员能够理解干预过程中究竟是哪些关键情景因素对直接干预效果产生了作用。例如,Banerjee等(2017)提到的CochraneCollabration对健康领域的实验综述,对学龄儿童驱虫、饮水质量以及驱虫蚊帐等项目的重复实验的综述,AmericanEconomicAssociation的注册随机干预实验与数据的公共存档,以及系统元分析(meta-analysis)方法所产生的研究结果。
在中国教育领域的随机干预实验的实践中,理论指导下的重复性实验也为政府决策提供了清晰明确的建议。
5.随机化或选址偏差(RandomizationorSite-SelectionBias)
Banerjee等(2017)提到,在小规模实验中,同意参与早期实验的组织或个人可能与其他人群不同,Heckman(1992)称之为随机化偏差。
通常的解决方法是通过与最终会执行项目的政府或者机构合作,在一个更大的范围内随机抽取具有代表性的人群来进行实验。更大范围和更大规模的实验不仅能够保证抽取的样本更具有代表性,还能帮助研究者在统计上识别出对于不同群体的异质性干预效果。在本文中列举的养育干预项目和营养健康干预项目都是通过这种方式来解决随机化偏差问题的。
6.试点偏差/执行挑战(PilotingBias/ImplementationChallenges)
一个大规模的项目将不可避免地由一个大规模的政府机构来管理,因此,在试点项目中的严密监测和督导在规模化中通常不再可行,或者需要特别的努力。许多研究发现,非政府组织或者研究团队与政府在执行方面存在差异(Banerjeeetal.,2007;Barrera-Osorio&Linden,2009)。
因此,一个研究项目需要识别项目的关键步骤和核心因素,这些干预的核心部分(或“不可协商的部分”)应该在规模化开展之前进行详细说明,以确保在实施时将执行偏差最小化。那么如何识别出项目的关键步骤和核心因素并减少执行偏误呢?在国际实践(Banerjeeetal.,2017;Al-Ubaydlietal.,2019)以及中国实践中,我们总结出以下几点重要经验。
第三,需要通过项目执行手册等使执行方理解项目干预有效的作用机制。只有项目执行者充分理解了成功或失败的关键因素才能更好地减少执行偏误。
第四,项目的研究者应当在项目的实际大规模开展中发挥重要作用,比如起到“脚手架”的作用(即研究团队从深度参与到逐步退出的过程)。研究者应当帮助执行方逐步独立执行项目,掌握执行的核心要素和步骤,并设立研究者逐步退出的机制。
总而言之,研究者应充分认识到项目规模化的挑战,并在项目设计、执行和规模化过程中应对这些挑战。具体来说:情景相依性问题需要通过复制来解决,并且最好是在理论的指导下来完成;市场均衡效应和溢出效应可以通过将这些效应的估计纳入研究设计中,或通过在均衡发生时进行大规模实验来解决;随机化和试点偏差可以通过与最终会执行项目的政府或机构合作,在一个足够大的范围内来尝试解决,这需要详细记录成功和失败的过程数据,并帮助执行方掌握执行的关键步骤,也需要详细记录成本数据,并进行规模化的成本效益估计。
(五)小结
从各国的实践经验来看,成功地设计和完成一项随机干预实验需要特别注意以下两点:
一是要重视对项目作用机制的分析。在随机干预实验的设计、执行及分析等各个环节中,依托因果链进行的机制分析都发挥着重要作用。一个被很好设计和执行的随机干预实验不仅能够厘清项目与潜在结果的因果关系、准确评估项目的影响效果,而且能够打开政策影响的“黑箱”,厘清项目影响的作用机制。因此,基于因果链设计进行作用机制分析无论是在项目的设计、项目执行过程中,还是在项目评估结束的数据分析时都发挥着重要作用。
从分析内容来看,作用机制的探索既可以指向实践、服务政策,也可以指向理论、促进创新。在实践层面,可以通过对中间过程变量的变化情况、各环节的假设条件是否成立等进行监测、分析,来明确项目执行过程中的难点,及时调整监督管理的重点。例如,对于没有影响效果的干预项目,要检验哪些应发生改变的中间变量未发生改变、哪些假设条件未如预期一样成立,这对于不断改进项目、形成项目的标准化操作流程、提高项目推广后的有效性具有重要意义。在理论层面,可以根据理论假设设计干预项目(例如,基于理论的影响评估),从多个竞争的理论中检验哪一个理论成立,例如学校的激励问题和资源问题是相互替代还是相互补充;也可以通过多个随机干预实验的对比,总结、提炼出理论,例如,对学生缺铁性贫血问题进行信息干预难以达到预期效果,这可能是由于健康教育的KAP(Knowledge-Attitudes-Practice)理论的某个环节难以实现。
二是研究者需要理解、接受和积极应对随机干预实验实践性的特点。一般的研究是思维性的,重在理论构建、数据分析、假设检验等。而随机干预实验不仅是思维性的,更是实践性的。从方法来看,随机干预实验属于行动研究,因其极强的政策导向,随机干预实验也被视为“政策模拟”。随机干预实验的开展不仅需要思维层面的理论思考与分析,更需要实践层面的具体执行与落实,需要去思考和解决各种现实的、有时可能是非常琐碎的问题。某些理论研究者可能不屑于思考和面对一些琐碎的现实问题,例如,如何建立一个工作群联系对照组和干预组的联系人。但这些现实问题能否处理好,会极大地影响随机干预实验的成败。如果把对照组和干预组的联系人放在同一工作群中通知信息,很可能出现严重的样本污染问题。
因此,将一项随机干预实验称为一项复杂的工程并不为过。要通过随机干预实验方法找到解决社会现实问题的有效方法、真正推动社会的进步,需要根据实践的需求,不断进行方法层面的理论创新和实践层面的经验总结,解决好内部有效性、外部有效性等各种问题,做到理性分析、大胆假设、精准设计、高质量执行。
四、随机干预实验的全球实践对未来教育精准扶贫的启示
当越来越多的国家和个人将资源用于解决发展等民生问题后,也会有越来越多的人会拷问“我们的钱花得是否值得”。这就是干预的有效性问题。这样的思考往往是考虑项目需要在更大范围和规模推广的情况下引出的。
教育精准扶贫,核心是精准。回顾全球在教育精准扶贫方面的工作,一个简单而重要的理念是,没有证据就没有改善。提高减贫能力,需要在政策制定和项目设计中,通过实证证据进行验证。
证据的重要内涵是准确,而随机干预实验是提供准确证据的重要手段。如前文所述,传统的评估方法囿于内生性问题,结果往往存在偏误,借鉴意义受限。随机干预实验作为一个跨领域和跨学科的方法,因其引入外生的随机因素,往往可以得出无偏结果,揭示因果关系,并在此基础上开展公共政策制定所需的成本效益分析。
2019年诺贝尔经济学奖的官方颁奖词是,“表彰其在全球扶贫问题上使用的实验性方法”。以AbhijitBanerjee、EstherDuflo和MichaelKremer为代表的新一代发展经济学家,将复杂的贫困问题分解为更为具体的问题,应用随机干预实验方法,针对这些具体问题设计了可能改善或者解决的机制与方案。
作为世界上最大的发展中国家,中国从教育、健康等多方面以“摸着石头过河”的方式在扶贫领域精耕细作,扶贫工作取得显著成效。在这样的背景下,在农村贫困地区开展教育、健康等多方面的随机干预实验,不仅更好地厘清了从干预政策到项目结果之间的因果关系,也为更大范围的政策制定和干预推广提供了有效工具和可靠依据。这些基于循证科学论证的有效经验总结和减贫措施,提升了政策制定者对学术研究成果的接受程度,极大地提高了整体减贫能力。这些科学的减贫依据也将为发展中国家乃至全球的减贫工作提供宝贵经验。
(一)国际经验的启示
国际上,评估项目的有效性是制定政策的重要环节。影响评估不仅使项目给当地带来实际效应,还能够通过积累知识影响全球发展议程。政府机构如美国国际开发署(UnitedStatesAgencyforInternationalDevelopment)、英国国际开发署(UKDepartmentforInternationalDevelopment),大型基金会如比尔及梅琳达·盖茨基金会(Bill&MelindaGatesFoundation),国际组织如世界银行(WorldBank)、泛美开发银行(Inter-AmericaDevelopmentBank)、亚洲发展银行(AsiaDevelopmentBank),会资助甚至成立专门的影响评估部门或基金会。美国麻省理工学院的贫困行动实验室(J-PAL)和贫困行动创新组织(IPA)是目前全球最大的两个致力于推动影响评估和实验经济学方法应用的组织。过去十几年,J-PAL和IPA用实验经济学方法开展了大量影响评估研究,为发展中国家发展政策的制定提供了大量的实证依据。
国际评估协会组织(InternationalInitiativeforImpactEvaluation,3ie)成立于2008年,是国际上最有政策影响力的影响评估团队之一。3ie致力于为发展中国家提供经过科学影响评估验证的政策建议和项目方案。该组织主要通过在国际发展领域资助高水平影响评估项目、提高项目评估质量、生产影响评估项目综述、推广对证据的使用来达成其目标。
3ie不对项目干预本身进行资助,而只资助影响评估。目前该组织已在超过50个国家和地区资助超过300项影响评估研究,总计1.25亿美元。该组织基于这些研究,发表大量影响评估报告、项目评述和政策简报,是利用影响评估促进全球发展的重要平台。目前,3ie的工作主要聚焦于非洲、东亚和拉美地区。在我国的研究则集中于教育和公共健康领域,合作机构主要分布在中西部地区。
在国际组织的推动下,中低收入国家在制定新的教育扶贫政策时很大程度上依赖基于随机干预实验的影响评估结果。以美洲开发银行为例,其26个客户国如果想向美洲开发银行申请贷款推行新的教育扶贫项目,在立项前就需要以有效性为前提进行项目设计。项目设计需要提供合理解决问题的方案,而这些解决方案要能基于实证研究结果论证该项目的潜在有效性。
(二)中国实践的启示
1.项目设计需要尽量简单
对于一个社会问题,人们可能想到的干预是多方面的、多层次的,其解决通常需要整合社会资源、上下联动、多方参与。但由于开展教育领域的随机干预实验最终是为了推动教育政策的改善,如果实验方案过于复杂、对实施者的要求过高,则会给后续政策推广造成一定的困难。
例如,对于学生的营养问题,可能的解决办法包括:(1)让学生每天服用一片含铁的维生素片;(2)财政补贴改善学生饮食;(3)通过激励让学校领导更重视学生的营养问题(例如,设置流动红旗);(4)给学生开展健康教育课程;(5)给学生定期进行体检;(6)给家长进行营养健康知识培训。这些干预协调了各方面资源,调动了各方面的积极性,政府、社会(企业)、家长、学生本身都参与进来了。这些干预使用了多种方法,包括激励、物质干预、制度设计等。这些干预可以同时实施,作为一个“组合拳”去解决学生的营养问题。
尽管使用随机干预实验可以把“组合拳”作为一个整体进行影响评估,但当项目的组成办法过多时,其作用机理难以厘清。在随机干预实验中,如果要严格评估每一个办法本身的有效性及其与其他办法的有效性的差异,样本量需要几何程度的增加——往往由于成本和样本数量所限在现实中难以做到。
无法厘清项目机理对项目大规模推广复制的有效性和可行性都提出了巨大挑战。除了需要更多的资源,相比于一个适用于一刀切执行的项目,复杂项目在执行过程中的有效性要大打折扣。“组合拳”中,真正起作用的是什么是全部都有用,还是有些干预其实没有发挥作用,甚至相互冲突、抵消如果在政策推广中,不能完全复制“组合拳”,只执行其中几项措施,项目还会有效吗在规模化阶段,大规模执行无效的项目就是一种资源的浪费。
2.政策制定与推广需要成本效益分析的证据
除了通过建立更为直接和严谨的评估标准,如何应用影响评估/随机干预实验研究结果为政策制定者提供更为有效的建议亦十分重要。在教育扶贫政策制定过程中,实现目标的干预方案往往不止一种,在众多方案中进行选择以及更大范围的项目推广都需要有关项目成本效益的研究证据。因此,进行基于影响评估结论的成本效益分析极为重要(White,2009)。
成本效益分析通过分析比较项目的全部成本和效益来评估项目所产生的价值。将这一分析方法运用于教育扶贫公共政策制定过程中,可以告诉我们每一分钱在教育扶贫项目中产生的价值。不同项目中的对比可以帮助决策者在多种政策或项目中做出选择,以实现在公共政策实施中用最小的成本获得最大的收益。
3.教育精准扶贫随机干预实验不只是学术研究,更需政府参与
尽管会受多种因素的共同影响,但如果教育政策的制定是基于高质量的实证研究结果,那么政策制定过程本身就可以促进和保障教育政策的科学性。如果教育政策制定者充分理解随机干预实验在验证项目效果方面的科学性,知道哪些新政策和新项目确实有助于改善教育精准扶贫政策的实施效果,哪些可能是无效的,那么,他们就可以把资源投向那些有效的政策和项目。
教育精准扶贫随机干预实验的最终目标是制定有效的教育领域的扶贫政策,作为政策制定者的政府部门的参与尤为重要。那么作为随机干预实验研究领域的“非专业人士”,教育政策制定者应该如何更有效地参与到教育领域的随机干预实验当中呢笔者团队根据大量实证研究,总结出了研究者与政府合作的三种渐进式不断探索的实践模式,分别为:(1)观察模式;(2)部分参与模式;(3)全程参与模式。
部分参与模式,即政府部门从项目执行的早期阶段开始参与。在这种合作模式下,研究团队将让政策制定者部分地参与该项目的实施,而在项目构思及设计等比较复杂、零散的前期部分,政府部门还是更多地以观察者的形式参与。
对一些问题,已有经国际研究验证的潜在、可行的解决方案,但尚未在中国进行本土化的尝试和改善,这种情况下项目团队需要与政府部门密切合作,以推动政府全面参与项目的实施。从理论上讲,研究团队已经知道某种干预是起作用的,但在方案实施过程中,研究团队需要与政府合作来回答一些基本问题:这种干预是否在当地的政策环境中可行在已知多种干预方案都有效的情况下,哪一种在本地政策环境下最有效等等。如果政府部门实地参与项目实施,并且对研究团队评估干预方案的过程进行观察,那么在验证了干预效果后,该方案后续作为政策试点推广的机会也会大大增加。一般来说,项目实施将会逐渐转化为政府的行动,政府部门可以在自己的管辖区域内大规模推广项目成果。
全程参与模式,即政策制定者在项目的早期构思阶段便参与进来,成为项目团队的一部分,参与项目选题构思、实验设计、方案实施、结果分析及政策推广。对于一些教育发展问题,基于国际成熟经验和国内本土化的试点验证,政府已经接受并认可这些成功的项目干预方案,并将作为主体探索下一步推广方案。经过研究团队与政府部门共同探索的推广方案,政府可以独立总结出更适合自己管辖区域的有效方案,并向其他区域推广。
4.教育精准扶贫需要更多随机干预实验
当然,我们不是说我国教育领域的随机干预实验研究数量不够多,而是希望强调严谨的科学实验能够给政策制定者提供实证决策依据,因此可以更多地使用。从全球发展中国家开展的教育领域的实验研究的结果来看,通过科学的实验设计、严谨的实验执行以及精确的结果分析,不仅能告诉政策制定者哪些干预有效、哪些干预无效,还能清楚地展示出为什么有些干预有效、有些干预却不起作用,从而可以帮助政策制定者快速筛选出可能的政策方向。而对地域辽阔的中国,仅在一个地方开展政策干预实验是无法惠及所有的贫困群体的,要想将一项政策推广到其他地区,政策成本和异质性影响都是首要考虑的问题,而这些问题都可以通过随机干预实验来解答。因此,借鉴国际成功经验,我们还需要开展更多的教育领域的随机干预实验研究,以识别精准有效的教育扶贫政策,这可能是未来贫困群体教育研究的一个发展方向。
附论:不开展随机干预实验时,教育精准扶贫如何做?
(一)随机干预实验在研究问题上的局限性
随机干预实验在研究问题上,主要有伦理和逻辑两方面限制(Dufloetal,2007):
1.伦理原因
有些问题的干预需要实验者有目的地给干预组提供好处却不给对照组提供可能,这不符合伦理要求。比如,在评估教育对人力资本的重要性时,若通过直接开展随机干预实验评估随机分组后教育水平供给的不同对干预组和对照组样本群体收入水平的影响,我们不能禁止对照组样本接受同等水平的教育。因为这样的随机干预实验是不符合伦理要求的,也是无法开展的。
2.逻辑原因
有时候在研究者开展基线调查数据收集或者随机分配之前,已经实施了与干预类似的政策或项目方案,从逻辑上看,这种情况是不能开展随机实验的。比如,为改善农村学生营养健康状况,国家于2012年推行“农村义务教育学生营养改善计划”,主要是由中央给予经费支持,提高农村学生在校的营养状况。由于政策已经在各地学校推行,若应用随机干预实验评估营养改善对学生身体健康状况及学业成绩的影响,我们无法创造出没有推行政策的对照组样本群体。因此,我们很难通过随机干预实验方法评估已推广政策的实施效果。
(二)准实验方法在教育精准扶贫中的应用
鉴于随机干预实验自身存在一些局限,加上现实存在的环境资源等限制,并不是所有教育发展问题都适合用随机干预实验来提供解决方案。那么,遇到随机干预实验不适用的情况,如何进行教育精准扶贫政策研究国内外大量实证研究已经为我们探索出除随机干预实验外的其他验证因果关系的“准实验方法”,这些方法可以用于不适于做随机干预实验的一些领域。
随机干预实验被认为是因果推断的“黄金准则”,最关键的就在于可以通过随机实验构建“反事实”作为对照,以验证干预影响。“准实验方法”其实也一样,可以通过满足特定假设条件来构建“反事实”对照组,通过验证两组的结果变化来识别影响。准实验方法内容较多,假设不同,且不同方法在内部和外部有效性上差别较大,使用场景和方法也千变万化。对此做详细探讨已超出本文题目范围,因此本部分仅对几种常用的“准实验方法”进行简要概述,包括工具变量法、断点回归法、匹配法以及倍差分析法。
1.工具变量法(InstrumentalVariables,IV)
2.断点回归法(RegressionDiscontinuityDesign,RDD)
Park等(2015)使用断点回归法对就读重点高中如何影响学生学业表现进行了研究。在该项目中,干预方式为是否就读重点高中。区分干预组和对照组的游动变量为样本学生的中考成绩,而录取分数线则为该游动变量上的临界值:高于录取分数线的学生可以进入重点高中(即干预组),低于录取分数线的学生则只能在普通高中就读(即对照组)。为降低选择性偏误,研究者为样本分组进一步设定条件,即干预组为在重点高中就读且中考成绩略高于录取分数线的学生,而对照组则是在普通高中就读且中考成绩略低于录取分数线的学生。假设干预组和对照组学生的其他基本特征相似,其差异只在于是否就读于重点高中,那么分析两组学生在三年后高考成绩中的差异就能识别出干预对学生学业表现的影响。
该项目满足使用断点回归法的四个条件:其一,基线调研时,区别样本特征的游动变量(即学生的中考成绩)是连续的;其二,样本特征存在明显的“临界值”,即录取分数线;其三,落在录取分数线两边学生的其他基本个人特征是非常相似的,其差异只在于是否就读于重点高中;最后,在录取分数线周围的学生,其就读的高中只取决于中考分数,而不能人为操纵。使用断点回归法分析结果表明,就读重点高中比没有就读重点高中的学生高考成绩高出0.387个标准差,同时,就读重点高中可以将大学入学率显著提高27.8个百分点。
3.匹配法(Matching)
Bai等(2017)使用倾向匹配得分法评估了高中减免学费政策对提高我国农村学生高中入学率的影响。在该研究项目中,干预组的样本初中生已经受到政策干预,即事前承诺初中生若能考入高中,则减免该生的高中学费。为评估干预效果,研究者构建了对照组,即没有接受到高中减免学费政策的学生群体。考虑到干预已在一个县全面实施(即干预县),研究者选择了另一个县作为对照组样本框,被纳入的对照县与干预县在以下主要特征变量上相似:(1)与干预组样本县隶属于同一个市,且均属于国家级贫困县;(2)与干预组样本县同处于多山地带;(3)农村居民人均收入水平接近;(4)教育经费相近且均由政府承担;(5)学生初中课程内容、高中入学标准以及学费标准一致。这也就保证了对照组与干预组样本县在地理地形、政府财政支持、居民经济状况和教育体系上较为相似,可构建为干预组的“反事实”对照组。通过倾向匹配得分法分析结果表明,高中减免学费政策能显著提高初中生高中入学率21个百分点,显著降低初中生职业高中入学率11.9个百分点。
4.倍差分析法(Difference-in-Difference,DID)
Liu等人(2010)使用倍差分析法研究了中国农村地区小学合并项目对学生学业表现的影响。一些人认为,将偏远地区规模较小的小学合并到规模较大的中心小学,会对学生的学习表现产生一定的负面影响。那么是否合并小学会导致学习成绩下滑呢研究者在中国西北农村地区选取了62所小学共2446名小学生参与调研,其中,561名学生来自被关闭的小学(干预组A),820名学生来自合并前的中心小学(干预组B),其余1065名学生来自非合并小学(对照组)。该实验研究假设,如果不存在小学合并的情况,两个干预组的学生与对照组学生学习成绩的变化趋势是相同的。那么,分别研究两个干预组与对照组学生在小学合并前后学习成绩的差异就可以识别出小学合并对学生学业表现的影响。分析结果表明,合并小学并不会对学生的学习成绩产生显著的负面影响。但是,合并时的年龄与学习成绩的变化有显著关系:年龄较大的学生合并后成绩显著提高了,而年龄较小的学生成绩显著降低了。
(三)小结
需要强调的是,不管是随机干预实验还是准实验方法,均具有其适用性与局限性。研究者在开展实证研究时,更应注重社会问题本身,而非仅关心验证完美的科学实验方法。在开展教育类影响评估时,研究者需结合自己的研究问题和研究项目的实际可能性,判断是应用随机干预实验还是准实验方法来进行政策评估,从而为政府制定教育扶贫政策提供更加科学的决策依据,以进一步促进消除贫困目标的实现。
致谢:
作者感谢以下项目和机构的支持:
国家自然科学基金重点项目(项目号:71933003);国家自然科学基金青年项目(项目号:71703084,71703083,71803107,71803108);高等学校学科创新引智计划(项目号:B16031);教育部人文社会科学研究青年基金项目(19YJC790080);中央高校基本科研业务费专项资金资助项目(项目号:2017CBY017);中国博士后科学基金面上资助项目(项目号:2019M663619);陕西师范大学中央高校基本科研业务费专项资金项目(20SZYB12)。