LLM归因的几种评估方式

参考A Survey of Large Language Models Attribution,LLM归因有以下几种有效的评估方式。

1 人工评估

归因错误的检测难度大,所以评估主要依赖人工评价进行归因检测。人工评估虽然精度高,但成本高也耗时。标注过程中还需要标注员谨慎对待,而且需要手工验证。

为提高可靠性,针对一个(问题, 答案,归因文本),可能需要多个标注员同时进行标注,只有大部分人认为正确归因,该(问题,答案,归因)对才能算通过。

2 基于分类的评估

早起评估方法主要采用二元分类法,即确定一个答案是否有参考支持,即归因或非归因。

还有一些细致的方法,如将参考文献支持程度划分为完全支持、部分支持、不支持。

还有更精细的归因分类:

1)可以归因,引用的参考文献完全支持生成的陈述;

2)可以推断,引用的参考文献对生成的陈述的支持不足;

3)相悖,引用的参考文献与生成的陈述相矛盾。

3 定量评价指标

归因治疗的评估从三个不同的角度进行

1)准确性,评估生成的陈述文本和提供的来源(参考文献)的一致性。

2)精确性,评估生成的归因与所要回答问题的关联性的百分比。

3)召回率,评估生成的归因捕捉关键知识的范围。

F1得分由精确性和召回率指标得出。

另外还有,引用准确性,即模型响应文本中引用网络来源的频率,n-gram重叠度用于评估生成的语句是否来源于引用的参考文献。

LLM归因的几种评估方式_第1张图片

---

归因问答-如何进行人类评估

https://blog.csdn.net/liliang199/article/details/148935474

归因问答-如何进行自动评估

https://blog.csdn.net/liliang199/article/details/149009697

A Survey of Large Language Models Attribution

https://arxiv.org/pdf/2311.03731

你可能感兴趣的:(深度学习,人工智能,语言模型,算法)