【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(五)

****非斜体正文为原文献内容(也包含笔者的补充),灰色块中是对文章细节的进一步详细解释!

五、 解释评估(Explanation Evaluation)

在前面的章节中,我们介绍了不同的解释技术和它们的用途,但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类:传统微调范式的局部解释评估(第5.1节)和提示范式中自然语言CoT解释的评估(第5.2节)。

评估的两个关键维度是对人类的合理性在捕捉LLMs内部逻辑方面的忠实度 。 从技术上讲,评估解释包含人类评估(Human Evaluations)自动化评估(Automatic Evaluations)。人工评估通过模型依据(model rationales)与人类依据或主观判断之间的相似性来评估合理性。然而,这些方法通常忽略了忠实度。主观判断也可能与模型推理不一致,使这种评估不可靠。正如Jacovi和Goldberg(2020)所主张的,忠实度评估应该有一个明确的目标,并避免人类参与。通过扰乱模型依据来测试重要性,避免人类偏见。因此,制定严格的自动化指标对于公平的忠实度评估至关重要,这将在忠实度评估维度下进行讨论

模型依据"Model rationales":指的是模型在做出预测或决策时所依据的关键信息,理由或证据。这些理由通常是从输入文本中提取的一组标记(tokens)

【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(五)_第1张图片

5.1 传统微调范式中的解释评估(Explanation Evaluations in Traditional Fine-tuning Paradigms)

我们从两个方面介绍局部解释的评估:合理性(Plausibility)和忠实度(Faithfulness)。两部分主要涵盖可以应用于比较各种解释方法的通用属性和指标。我们关注定量评估属性和指标,这些指标通常比定性评估更可靠。

5.1.1 评估合理性(Evaluating plausibility)

局部解释的合理性通常在输入文本或token级别进行测量。合理性评估可以分为五个维度:语法、语义、知识、推理和计算(Shen et al., 2022)。这些维度描述了被掩盖的输入(masked input)和人类标注的解释之间的关系。不同的评估维度需要不同类型的数据集。

例如,句子“The country [MASK] was established on July 4, 1776.”,人类标注的依据是“established on July 4, 1776”。根据历史知识,我们知道美国是在1776年7月4日宣布独立的,所以正确的预测应该是“the United States”。这个预测是基于事实和知识得出的。尽管依据可能在不同的级别(如token或片段),评估程序除了多样化的指标外,其余相同。

人类标注的依据通常来自基准数据集,应满足几个标准:1)充分性:意味着依据足以让人们做出正确的预测;2)紧凑性:要求如果依据的任何部分被移除,预测将改变(Mathew等人,2021年)。解释模型随后负责预测重要的token,并使用这些token生成依据。

上述两种依据将用各种指标进行测量,常用的指标可以分为两类:

  • token级依据的指标:包括交集比(IOU)、精确度和召回率。
  • 衡量整体合理性的指标:包括离散情况下的F1分数,以及连续或软标记选择情况下的精确度召回率曲线下面积(AUPRC)(DeYoung等人,2020年)
  1. 交集比并集(Intersection-Over-Union, IOU):一种衡量两个集合重叠程度的指标,用于评估模型预测的准确性。

  2. 精确度(Precision)召回率(Recall):衡量模型预测准确性的两个指标,精确度指预测为正的样本中实际为正的比例,召回率指所有实际为正的样本中被预测为正的比例。

  3. F1分数&#

你可能感兴趣的:(人工智能,人工智能,机器学习,深度学习)