论文阅读:NeurIPS Workshop Weakly Supervised Detection of Hallucinations in LLM Activations

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Weakly Supervised Detection of Hallucinations in LLM Activations

https://arxiv.org/pdf/2312.02798

https://www.doubao.com/chat/2888021994071810

速览

这篇论文主要研究如何检测大语言模型(LLM)内部是否编码了像幻觉这样的有害模式,提出了一种弱监督审计技术,通过扫描预训练模型的激活来识别异常模式,还探讨了该技术在模型微调中的应用潜力。

  1. 研究背景:LLM广泛应用,但存在偏见、幻觉等问题。现有检测方法多基于词级表示,且需预先知道偏见类型和标记数据,实际应用受限。本文旨在提出一种无需先验知识和标记数据的方法,检测LLM句子嵌入中的偏见。
  2. 研究方法:基于深度子集扫描(DeepScan),对预训练LLM的激活进行扫描。通过计算经验p值、设计评分函数和使用高效搜索算法,找出最异常的节点激活和输入句子子集。为处理异常句子激活分布的双向偏差,引入两种新扫描方法:结合左右尾p值扫描结果的union方法(scanLR)和对双边p值进行top-k扫描的方法(scan2)。
  3. 实验设置与结果:使用包含真实和虚假陈述的英语数据集,对BERT和OPT两种预训练模型进行审计。结果表明,BERT在表示幻觉方面能力有限,OPT能在内部编码幻觉信息。在检测能力上,本文方法在某些情况下与完全监督的分布外分类器性能相当,且无需接触虚假陈述数据,更适合实际应用。
  4. 总结与展望:提出的弱监督审计技术可识别LLM内部是否编码异常模式,在幻觉数据集上表现良好。未来计划探索方法的泛化性,改进参考数据集假设,并将其应用于指导LLM的子网络微调,以减轻偏见。

你可能感兴趣的:(论文阅读)