进行一次传统的随机对照实验非常简单:设置对照组和治疗组,对治疗组进行实验,然后比较结果。这已成为判断某种事物是否有效的标准方法—无论是新药还是社会政策。
斯坦福商学院运营、信息和技术教授,Golub Capital社会影响实验室研究员Jann Spiess表示:“当我们考虑某项能够改善人们生活的政策时,尤其是在过去的十年里,一种常见的做法就是通过随机对照实验来了解哪些政策是有效的。”
这是有一定道理的:有什么比观察政策的实际效果更好的方法来确定一项政策是否对人们有所帮助呢?然而,Spiess指出,这种资源密集型的方法也有很多缺陷。实验可能会很难组织和进行。而且,尽管代价高昂,但实验结果的解释力可能有限。因为实验中关注的是对整个人群的平均影响,但却忽略了对个人的影响。
加入人工智能—具体来说,我们可以使用人工智能来处理大数据集并生成一些意料之外的预测或分类。事实证明,机器学习算法特别擅长深入挖掘现场收集的数据,然后从中找出有关干预措施如何发挥作用以及针对谁的新细节。“机器学习让我们有机会从本质上实现个性化的处理。” Spiess说。
最近,Spiess与两位斯坦福商学院的同事—领导Golub Capital社会影响实验室的经济学教授Susan Athey和前博士后学者Niall Keleher合作,将机器学习算法与实验数据结合起来,研究如何鼓励更多大学生申请助学金。Spiess和Athey也是斯坦福经济政策研究所的研究员。他们的发现不仅在这个特定案例中得到了超出预期的结果,而且还证实了将这种混合方法应用于更广泛研究的潜在可能性。
更精细的结果
研究人员与非营利组织ideas42合作进行了实地实验,看看一些细微的“推动”行为是否会鼓励纽约城市大学(CUNY)的学生申请联邦助学金。在这些实验中,通过短信或电子邮件发送的申请提醒使2017年的申请量增加了6%,2018年的申请量增加了12%。
“机器学习使我们有机会从本质上实现个性化的处理。”
– Jann Spiess
然而这些只是平均结果。为了更细致地了解哪些人对推动做出了反应,Spiess、Athey和Keleher根据现场结果训练了机器学习算法。他们发现短信和电子邮件对于原本已经有点倾向于申请助学金的学生来说最有效。那些不太可能申请的学生则大多对这些温和的提醒无动于衷。这种更具体的发现可以帮助学校管理者和政策制定者避免针对那些可能不会回应的人群进行成本更高的尝试。
“在进行这项研究之前,我们可能希望这些提醒会对那些不太可能提交申请的学生特别有效。基于实验总体上令人鼓舞的结果,我们原本可能会优先考虑推动这一群体。” Spiess说,“但是如果我们真的这样做了,就会追踪到完全错误的群体。”
与此同时,仅靠机器学习并没有足够的指导意义。正如Spiess所解释的,模型可以预测哪些人最有可能或最不可能申请经济援助。然而,这并不能证明短信或电子邮件是否真的对这些群体有帮助。通过将算法和实验相结合,研究人员就能够发现针对不同人群的处理效果的强度。
研究人员得出的最终结论是,最有效的做法是针对中间群体—既不是最有可能也不是最不可能重新申请经济援助的学生。在这个范围的任何一端,推动的力量都会减弱,特别是对于那些最不可能申请助学金的人来说。
照亮盲点
在过去的15年里,Athey和她的实验室一直致力于研究这种将实验结果和机器学习相结合的方法。他们的成果有望改善随机对照实验的过程及其结果。
目前,对随机对照实验的主要批评之一就是它们可能缺乏“外部有效性”—这些发现可能不适用于不同的背景。如果在印度进行一项实验,其结果是否适用于肯尼亚,或者导致研究结果的环境或主题是否有什么独特之处?针对纽约市大学生的政策是否可以推广到加州的同龄人?
在这方面,机器学习也可以有助于缩小差距。“不同地区之间的确存在很多差异。” Athey说,“对于宏观的、系统性的差异,我们也无能为力。但如果存在的是一些微观差异,例如收入或年龄的分布不同,那么我们就可以使用机器学习算法来调整处理效果的估算,以适应特定的人群。”
换句话说,如果机器学习算法根据实验结果进行训练,并发现可测量的差异之间存在不同的影响,例如性别或是申请经济援助的倾向,那么这些结果很可能会映射到其他地区的实验结果上,即使人口组成看起来不同。也就是说,机器学习模型可以通过将一个群体的实验结果拟合到另一个不同群体,来帮助减轻人们对实验外部有效性的担忧。
这种混合方法还有可能通过支持更快迭代来降低实验成本。在实验进行当中,机器学习可以很快辨别出哪些方法有效,并提出实时微调干预措施以产生最大影响的方法。
对于政策制定者来说,这种适应性强且有针对性的实验流程,可能比原本的成本高昂且收效甚微的包罗万象的随机实验要更好。但Athey也提醒说,这是一种数据密集型的研究方式:需要有更大的样本数据才能获得更精细的结果。
Spiess说,这种方法还可以帮助我们找出政策盲点,例如那些因某些干预措施而被抛在后面的人。以纽约大学生为例,研究表明,简单的提醒对于那些最有可能失去经济援助的人来说不起作用。这正是政策制定者可能最想要瞄准的群体。
虽然很容易想象这项技术会如何推动数字解决方案,例如更好的电子邮件提醒,但Athey更兴奋的是可以使用它来改善人与人之间的互动。
“很多工作都涉及到帮助他人,但对于助人者来说,要记住所有细节并收集提供定制建议或治疗所需的所有知识确实很困难。” 她说。这里展示的方法可以支持更加个性化的关注。“这是两全其美的。如果计算机为教练、老师或助理提供支持,那么他们就可以获得提供最佳选择所需的所有信息。”