2022世界人工智能大会(WAIC)“下一代可信AI——认知兴起,因果探路”主题论坛于上海世博中心圆满落幕。论坛现场,北京大学讲席教授、北京大学公共卫生学院生物统计系系主任、北京大学北京国际数学研究中心生物统计和信息研究室主任周晓华带来全新视角下,因果推荐系统的探索与应用。
以下为现场实录(略有编辑和删减):
北京大学讲席教授、北京大学公共卫生学院生物统计系系主任、北京大学北京国际数学研究中心生物统计和信息研究室主任周晓华
首先,什么是推荐系统?它是基于机器学习算法的信息过滤系统,可以帮助我们预测客户对产品的评估或偏好。推荐系统一般分成几大类:基于物品流行度的推荐系统、基于内容的推荐系统、协同过滤推荐系统等。
随着互联网技术的普及,用户在信息时代对信息的需求得到满足。但随着网络迅速发展带来的信息量的大幅增长,使得用户在面对海量信息时无法从中获取对自己真正有用的那部分信息,例如:亚马逊有1200万件商品,Facebook有28亿用户,Youtube每天有72万小时的视频上传等。如此一来反而降低了用户对信息的使用效率,这就是大数据时代的“信息过载”现象。推荐系统作为基于机器学习算法的信息过滤系统,可以预测客户对产品的评级或偏好,帮助用户进行购买决策,被认为是解决信息过载的有力工具,以满足个体兴趣和偏好的需求。
如果一个系统不数学化的话,就很难做出可解释性的结果。这其中也包括因果推荐系统,因此首先要将其数学化。
考虑n个用户,以及m个商品,RO是观察到的用户对商品的历史反馈,推荐系统的目的是要学习一个模型来预测每一个用户对商品的评分或者偏好。目前,大多数推荐系统是基于关联性的学习,即最小化预测值和观察到的用户对商品的反馈,实现预测值和观察值的经验风险最小化。但是,我们希望推荐系统不只是去预测观测数据,而是对所有商品、所有用户都能够预测,但很多数据是观察不到的,所以现在想要解决的问题是,能不能根据观测数据来优化所有用户、所有商品之间的预测性能。
目前大多推荐系统的学习方法都是基于关联性原则,但关联性有一个很大的缺陷——真实世界的观察性数据存在混杂因素。在实际业务中,几乎所有推荐场景都有混杂因素的存在,意味着偏差一直存在,而当我们将因果推断应用在推荐系统中,可以很好地处理混杂因素,对商业化起到很大作用。
然而,一个统一的因果分析框架还没有建立起来。一方面,现有的推荐系统的因果分析方法对感兴趣的科学问题缺乏明确的因果和数学表述,导致该领域普遍存在许多模糊的因果概念,阻碍了因果推荐方法的发展。需要澄清许多混乱的问题:到底是什么被估计,为了什么目的,在什么情况下,通过什么技术,在什么合理的假设下。另一方面,推荐系统的观察数据的一个明显特征是存在各种偏差,这是得出因果结论的主要障碍。然而,推荐系统中偏差的正式因果定义仍然不明确,尽管各种偏差已经被发现并以描述性的方式提出。由于缺乏对因果问题和偏差类型的正式阐述,很难清楚地讨论去偏方法的理论属性、优点和缺点。也很难清楚地解释这些方法背后的假设。因此,很难开发新的去偏算法。
下面介绍的是基于DonaldRubin的潜在结果推荐系统的因果框架,这里首先要介绍一般潜在成果框架的6个关键要素。
第一个重要的元素是个体(Unit),就是我们观察研究的最小单位;
第二个是目标人群(Targetpopulation),即我们感兴趣的人群;
第三个是估计目标(Estimand),选定了目标人群以后,估计目标代表的是科学问题;
在估计目标之下,需要将以下三者定义清楚:
首先是干预(treatment),比如在推荐系统里推荐或不推荐;其次是outcome,指结局变量,比如在推荐系统里用户有没有买产品等;最后是potentialoutcome,既潜在结果,比如推荐产品后用户有没有买,不推荐的话有没有行动。
下面介绍统一推荐系统框架,推荐系统有其自身的特殊性。
第一,它的基本单位是user-itempair,即用户商品对,并非一个;
第二,目标人群也不同。user-itempair对我们做因果推断提出了比较大的挑战,我们既要考虑用户是谁,又要考虑商品是什么;
第三,特征不同。因为要描述用户和商品对的特征,所以因果推荐系统的特征要复杂得多;
第四,干预不同。因为基本单位是user-itempair,干预是指对于某个商品,是否推荐对应的用户;
第五,观察到的结局变量,比如“对于某商品,用户是否购买/产生兴趣”的观察结果;
第六,潜在结果,仅通过观察是不够的,我们还需要知道“如果把这个商品推荐给用户/如果不推荐,用户是否购买”。
可以看出关联和因果的巨大差异:关联性的定义是基于观测数据的,而因果目标估计是基于潜在结果的。我们感兴趣的正是因果目标估计ru,i(1)——如果给用户(u)推荐商品(i)后,他究竟买不买我的商品。
在因果定义框架下面,我们就可以很好地用数学统计语言来定义推荐系统中常见的偏差。比如说常见的位置偏差,在运用推荐系统的排序结果中,排在前面结果代表点击率高,但并不代表产品好,但为什么大家都想上头条呢?因为大家都会去看头条,但不代表这个商品或新闻有价值。所以,如果我们在做分析的时候只分析排在前面的商品而不分析后面的,就会出现偏差,这个偏差就是位置偏差。如果要解决位置偏差,就要解决数字化商品怎么去做因果推断。再介绍一下暴露偏差,暴露偏差指训练时每个输入都来自于真实样本的标签,测试时输入却是来自上一个时刻的输出。比如使用观察数据时,如果没有给用户推荐商品,也就获取不到相应的数据,这就会产生偏差。在因果统计中,考虑每个商品推荐概率与用户推荐概率都大于0,即每个都可能推荐,如果不推荐,那么在因果推断里就不成立了,如果还用现有的统计方法,结果肯定是有偏差的。把推荐系统常见的偏差和因果假设连接起来,给我们提供了研究方向和新方法来解决这些问题。
在“OntheOpportunityofCausalLearninginRecommendationSystems:Foundation,Estimation,PredictionandChallenges(InIJCAI22)”一文中,我们旨在通过在因果推断中的潜在结果框架来克服上述限制,通过该框架我们综述并统一了现有的因果启发的推荐方法。我们通过分析现有研究中可能使用但未讨论的因果假设,为推荐系统中的偏差提供因果视角,然后讨论违反上述假设的相应推荐场景。事实上,大量的推荐任务通过应用提出的因果框架得到了严格的澄清。最后,我们对推荐系统中的许多去偏和预测任务进行了形式化,并总结了基于统计和机器学习的因果估计方法,期望为因果推荐系统社区提供新的研究机会和视角。
推荐系统因果视角的偏差形式化
下面介绍对偏差的解决。为什么偏差会影响推荐系统模型呢?在推荐系统模型学习中,损失函数的选择是很重要的步骤,不论是深度学习,还是统计方法,都要选择一个损失函数,再优化这个损失函数,通过这个损失函数把参数估计出来,这就是训练出来的推荐系统。首先定义损失函数,比较常用的方式是先预测偏好,再观察用户真正的偏好,二者的距离就是损失函数。我们以理想损失函数为例:对于每个用户商品对,都有对应的潜在结果rui(1),即推荐商品(i)给用户(u)所对应的评分。但这在现实里可能是观察不到的,如果观察到了,就定义为损失函数eui。但是理想损失函数只在oui等于1的时候能观测到,即商品(i)真的推荐给用户(u)且评了分的情况。反之则没有rui(1)。总结来说,推荐系统的目标就是用观察到的数据oui(1)的数据来近似理想损失函数,即公式2。
现有介绍三类处理这种缺失数据的方法。第一种方法是EIB,即ErrorImputationBasedEstimator,目标是恢复整个数据空间,来推断没有观察到的数据的损失函数;第二种方法是IPS(InversePropensityScoreEstimator),即通过逆概率加权方法纠偏;第三种方法是DR(DoublyRobustLearningEstimator),称为双稳健估计,通过把EIB和IPS的优势结合,只要有一个模型正确,则对理想损失的估计无偏。在下图中,上方是数学表达的不同方法,下面则是不同方法的缺陷。
为了对现有方法进行了改进,使偏差更小,我们团队完成了三个工作。
【1】《AGeneralizedDoublyRobustLearningFrameworkforDebiasingPost-ClickConversionRatePrediction》(北京大学,华为)
大多数现有的工作将CVR预测视为一个缺失数据问题,其中转化标签在点击的事件中被观察到,而在未点击的事件中缺失。一个传统和自然的策略是只根据点击的事件训练CVR模型,然后预测所有事件的CVR。然而,由于存在严重的选择偏差,这种估计方法是有偏差的,并且经常得到一个次优的结果。此外,数据稀少的问题,即点击事件的样本量远远小于非点击事件的样本量,将放大这两类事件之间的差异,从而加剧选择偏差问题。
对于考虑选择偏差的CVR的无偏估计器:基于误差推断(EIB)和逆概率加权(IPS)是CVR预测去偏的两个主要策略。此外,可以通过结合EIB和IPS方法构建双稳健(DR)估计器。一个DR估计器将具有双稳健的特性,如果推断误差或倾向性得分都是准确的,它可以保证对CVR的无偏估计。与EIB和IPS方法相比,DR方法在总体上有更好的表现。
尽管DR方法通常与EIB和IPS估计器相比更有优势,但仍有一些担忧。通过对DR估计器的理论分析表明:偏差、方差和泛化界都取决于由倾向得分的倒数加权的误差推断模型的误差偏离。这是一个令人担忧的结果,因为在未点击的事件中,倾向于使用大的倾向性加权,而由于选择偏差和数据稀少,误差推断模型的误差偏差在未点击的事件中很可能是不准确的。这表明,在未点击事件中,在不准确的推断误差下,偏差、方差和泛化边界可能仍然很大。最近,一些方法,主要包括双重稳健联合学习(DR-JL)和更加稳健的双重稳健(MRDR),已经被设计用来缓解这个问题。MRDR旨在减少DR损失的方差,以提高模型的鲁棒性,但当偏差较大时,它仍然可能有较差的泛化性。DR-JL试图减少误差推断模型的偏差,以获得更准确的CVR估计值,但这种方法不能直接控制偏差和方差。因此,如果我们能找到一种更有效的方法来直接控制偏差和方差,将会很有帮助。
各种DR方法的通用框架
在“AGeneralizedDoublyRobustLearningFrameworkforDebiasingPost-ClickConversionRatePrediction”一文中,我们揭示了CVR预测任务背后的反事实问题,并给出了CVR的正式和严格的因果定义。然后,通过分析DR估计器的偏差、方差和泛化界,我们推导出一个新颖的泛化学习框架,该框架可以通过指定不同的损失函数指标来适应广泛的CVR估计器。这个框架统一了现有的各种双稳健的CVR预测方法,如DR-JL和MRDR。最重要的是,它为设计新的估计器以适应CVR预测中不同的应用场景提供了关键的见解。基于这一框架,从偏差-方差权衡的角度,我们提出了两个新的双稳健估计器,称为DR-BIAS和DR-MSE,其目的是更灵活地控制DR损失函数的偏差和均方误差(MSE),基于我们的分析,与现有基于DR的方法相比,DR-MSE实现了更好的泛化性能。此外,我们还提出了一种新的三级联合学习优化方法,用于在CVR预测中实现灵活的DR-MSE,并提出了相应的高效训练算法。我们进行了大量的实验来验证所提出的方法与最先进的技术相比的优势。在我们实验中,DR-MSE在DCG@2中优于存在研究方法的3.22%。
基于Coat和Yahoo的性能比较
【2】《MultipleRobustLearningforRecommendation》(北京大学,华为诺亚方舟实验室)
尽管双稳健估计的优势归功于实现无偏学习的两种机会,即准确估计误差推断模型或倾向模型的机会。然而,这些模型的正确指定要求很高。即使所学的两个模型都有轻微的指定错误,那么正如现有的工作所指出的,双稳健学习的偏差会很严重。更糟糕的是,即使有正确的模型指定,要根据观察到的数据准确地学习它们也是有难度的。首先,准确的预测误差的估计很难获得,因为误差推断模型是在暴露的事件中学习的,而被用于未暴露的事件。如果暴露的事件和未暴露的事件的分布有很大的不同,这很容易造成很大的偏差。其次,收集到的数据总是包含许多偏差(例如,由未观察到的混杂因素引起的偏差),这可能导致对倾向性的不准确估计。因此,需要对无偏的学习进行更多的研究工作。
在《MultipleRobustLearningforRecommendation》一文中,我们提出了一个用于推荐系统中无偏学习的多重稳健(MR)估计器,它包含多个候选倾向模型和误差推断模型。它允许多种不同规格的倾向和误差推断模型的学习。通过理论分析,我们证明了所提出的MR估计器具有多重稳健性,如果任何一个倾向模型、误差推断模型,甚至这些模型的线性组合都能准确估计出真实的倾向或预测误差,那么它就是无偏的。因此,MR估计器通过提供更多的模型规范和学习机会,可以大大解决现有工作中单一模型所学的倾向性或推断误差不准确的问题。此外,我们特别分析了当MR只有一个倾向性模型和一个归因模型时,MR和DR之间的关系,发现我们的MR估计器实际上可以提供一个加强版的双重稳健性。
通过理论分析MR估计器的泛化误差界,我们进一步提出了一种具有稳定性的多重鲁棒性学习方法,通过添加正则化更好地控制泛化误差。在真实世界和半合成数据集上进行的大量实验表明,与最先进的方法相比,所提出的方法取得了明显的改进。
以MF和NCF为骨干模型对Coat和Yahoo进行的实验结果
在不同的误差推断模型设置下,即不同的数量和类型,MR方法对Coat的性能
在Coat数据集上不同数量和类型的倾向性模型下,MR方法的性能,其中误差推断模型和骨干预测模型都采用MF
【3】《RDLDR:RobustDebiasingLoopDoublyRobustLearningforPost-ClickConversionRatePrediction》(北京大学)
pCVR预测任务可以被看作是一个缺失数据的问题,因为我们想预测所有事件的pCVR,但转换反馈只在点击的事件中可以观察到,而在未点击的事件中缺失。在推荐系统中,用户可以自由选择要点击的项目,因此缺失不是随机的,导致点击的事件和所有事件之间的分布有明显的不同,这就是选择偏差问题。一个朴素的方法是直接使用点击的事件来训练pCVR模型。然而,由于选择偏差的存在,这种方法通常具有次有的性能。考虑选择偏差,许多研究提出了无偏学习的方法,包括基于误差推断(EIB)的方法、逆概率加权(IPS)和双稳健(DR)方法。其中,双稳健放法及其提升版本在pCVR预测方面具有最先进的性能。
EIB方法试图对未点击事件的预测误差进行推断,然后通过对所有事件的预测误差进行平均,得出一个无偏的损失函数。然而,EIB估计器在很大程度上依赖于误差推断模型的“外推性(外泛化能力)”,导致难以获得准确的误差推断,在实践中造成性能不佳。IPS方法对点击的概率进行建模,称为倾向得分,通过用倾向得分的倒数对点击事件的预测误差进行加权,得到一个无偏的损失函数。虽然倾向性估计不依赖于外推法,但IPS方法遇到了小倾向性情况下的高方差问题,由于严重的数据稀少问题,即点击事件的样本量远远小于未点击事件的样本量,这在pCVR预测任务中经常出现。通过结合EIB和IPS方法,DR估计器具有双重稳健性,也就是说,如果推断的误差或估计的倾向得分是准确的,DR就是无偏的。
尽管具有双重稳健性,现有的DR方法也继承了IPS和EIB的缺陷。DR估计器依赖于外推法,我们的理论分析表明,当存在一些极小的倾向性时,DR估计器的偏差、方差和泛化误差界会变得非常大(趋于无穷大)。自归一化的IPS(SNIPS)估计器通过归一化其权重来改进IPS估计器。与DR估计器相比,我们发现SNIPS估计器不依赖于外推法,在存在小的倾向性的情况下,它的偏差、方差和泛化误差都有界,尽管它不是双重稳健的。
比较IPS、DR和提出的DLDR估计器的外推依赖性、偏差、方差、误差界和学习方法
在《RDLDR:RobustDebiasingLoopDoublyRobustLearningforPost-ClickConversionRatePrediction》一文中,我们提出了一种新的循环去偏双稳健(DLDR)估计器,它有效地结合了SNIPS和DR估计器的优点。一方面,当学到的倾向性是准确的,DLDR估计器等同于原始的SNIPS估计器。另一方面,如果倾向性是不准确的,但推断的误差是准确的,DLDR估计器将收敛于EIB估计器。此外,我们从理论上表明,提出的DLDR估计器在存在小的倾向性的情况下具有有界的偏差、方差和泛化误差边界。DLDR估计器是一个增强的SNIPS估计器,它获得了双重稳健性的特性,并且是一个改进的DR估计器,它改善了对小倾向的稳健性,减轻了对外推法的依赖性。此外,我们提出了一种稳健的DLDR(RDLDR)三模型学习方法,以减少DLDR估计器的方差,并通过共享pCVR的参数及其误差推断模型进一步提高稳健性。
在两个半合成数据集ML-100K和ML-1M上,五个预测指标的相对误差与理想损失相比较
在Coat和Yahoo!R3的MAR数据上,以MF为基模型,DCG@2,4,6和Recall@2,4,6的评价指标
以DCG@2,4,6和Recall@2,4,6为评价指标,在Coat和Yahoo!R3对所提出的RDLDR的方法进行了消融研究
在因果推断里用到推荐系统是一个很好的应用场景,但是现在还有很多工作要做。希望方法学研究可以和实际应用结合起来,在推荐系统里面因果的方法能起到更大的作用。
谢谢大家。
参考文献
[1]PengWu*,HaoxuanLi*,YuhaoDeng,WenjieHu,QuanyuDai,ZhenhuaDong,JieSun,RuiZhang,Xiao-HuaZhou(2021),OntheOpportunityofCausalLearninginRecommendationSystems:Foundation,Estimation,PredictionandChallenges,IJCAI22.
[2]QuanyuDai,HaoxuanLi,PengWu,ZhenhuaDong,Xiao-HuaZhou,RuiZhang,XiuqiangHe,RuiZhang,andJieSun(2022),AGeneralizedDoublyRobustLearningFrameworkforDebiasingPost-ClickConversionRatePrediction,KDD22.
[3]HaoxuanLi,QuanyuDai,YuruLi,YanLyu,ZhenhuaDong,PengWu&Xiao-HuaZhou(2022),MultipleRobustLearningforRecommendation.
[4]HaoxuanLi,ChunyuanZheng,PengWu&Xiao-HuaZhou(2022),RDLDR:RobustDebiasingLoopDoublyRobustLearningforPost-ClickConversionRatePrediction.
[5]YanLyu*,HaoxuanLi*,ChunyuanZheng,PengWu&Xiao-HuaZhou(2022),AGenericUnbiasedLearningFrameworkfromExplicittoImplicitFeedbackwithUnmeasuredConfounders.