文章名称

【WSDM-2021】【University of Virginia-Google】Non-Clicks Mean Irrelevant? Propensity Ratio Scoring As a Correction

核心要点

上一节讲解了在unbias L2R的场景中，基于pairwise比较的损失函数的IPS的方法存在与真实评估指标偏离的问题，这一节讲解如何环节这一问题，并学习模型参数。

方法细节

问题引入

作者把整个排序结果数据分成了四个象限，具体结果如下图所示。在没有其他噪声的假设下，从四个象限中可以得到结论，被观测的样本（即），点击与否代表了物品与查询是否相关，即。被观测到的物品，没有被点击，表明，也就是图中的。**因此，从未点击的数据中挖掘真正不相关的物品的问题，就转化成了从未点击的物品中找到被观测到的物品（也就是预测没有被点击的物品是否被观测到了）。

quadrant

问题在于，我们不知道物品是否被观测到了，即不知道真实的。遵循propensity weighting的思路，我们可以对样本按照被观测的条件概率进行加权，经过权重调节的样本，会偏向于关注挂测到的概率更高的未被点击的物品。基于调权的样本再计算loss，最后得到的总体loss将更接于未点击物品是真实不相关物品的状态。

具体做法

Propensity-weighted Negative Samples

但是上述条件概率的估计比较困难，我们需要在给定查询的各个位置都估计这个概率，如果没有同一个查询下足够的数据，估计的结果是不可靠的。作者采用作为上述条件概率的近似值。那么未被点击数据的目标损失函数如下图所示。

loss of non-click samples with PNS

由于上式（公式7）最后等式中的第二部分，表示的是相关但未被观测到的样本带来的损失，而所有PBM的假设是随着位置的降低，被观测到的概率显著降低[2]。那么，第二部分里的会很快减小到0。因此，不会造成（太大）损失上的偏差。作者称这种方法为Propensity-weighted Negative Samples (PNS)。

值得注意的是，这里的weight不是inverse的，是用propensity score乘以样本的损失，并且这个费条件概率是在未被点击的样本上估计出来的！

Debiasing Pairwise Comparisons on Clicks

按照PBM的假设[10, 30]，点击数据和未被点击数据是相互独立的（这个假设不一定成立，后续的文章会介绍，取决于我们是不是用的PBM），因此可以整合点击和未被点击的数据得到如下图所示的整体目标损失。这里的权重是分别在点击数据和非点击数据上学习得到的被观测概率的比值，作者称之为Propensity Ratio Scoring，PRS。

Propensity Ratio Scoring Loss

在这种情况下，从期望的角度看，PRS可以大幅减少revelent-revelent元组的相互比较，推到过程如下图所示。公式第2步带入了公式7，并把替换成了。如上述讨论的结果，会很快减小到0。因此，损失基本由revelent-irrevelent元组的相互比较贡献而来。

expection of PRS loss

在这个loss的基础上，作者利用Hoeffding’s inequality给出了PRS的偏差的上界，表明PRS具有很好的收敛性质。另外，最后作者表明PRS有良好的保序性同[2]里的证明过程一样。具体内容可以参见论文原文。

心得体会

用作为的近似

个人感觉这个近似可以理解为，我们加权的是非点击数据，那么如果我们拿到的样本本身全部都是非点击的数据，这个条件是可以去掉的（如上述公式7中，最后一个等式的第一部分）。因此，这样的近似是合理的。但是，从条件概率和非条件概率的角度说，只有当“被观测”这件事在所有数据和非点击数据中的分布是一样的时候才是无偏差的，PBM的假设可以保证这一点。**显然，这是不可能的，因为被观测到和查询上下文，甚至和其他物品的相关性都有关系（后边会讲两个文章XPA和IOBM），因此，这个假设只能是近似，并且在某些数据集上可能是不work的。

文章引用

[1] Nick Craswell, Onno Zoeter, Michael Taylor, and Bill Ramsey. 2008. An Experimental Comparison of Click Position-Bias Models. In Proceedings of the 2008 International Conference on Web Search and Data Mining (WSDM ’08). ACM, 87–94.

[2] Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased Learning-to-Rank with Biased Feedback. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining (WSDM ’17). ACM, New York, NY, USA, 781–789.

[3] Xuanhui Wang, Nadav Golbandi, Michael Bendersky, Donald Metzler, and Marc Najork. 2018. Position Bias Estimation for Unbiased Learning to Rank in Personal Search. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (WSDM ’18). ACM, New York, NY, USA, 610–618.

因果推断推荐系统工具箱 - PRS（二）