Large Language Models Could Be Rote Learners

主要内容

  1. 研究背景:大语言模型(LLMs)发展迅速,基于选择题(MCQ)基准的评估方法广泛应用,但基准污染问题影响评估可靠性。
  2. 研究方法
    • 预调查:将MMLU基准测试集的MCQ分为记忆和非记忆子集,通过对比模型在不同子集上的准确率,发现LLMs在记忆的MCQ上表现更差,表明存在死记硬背和真正能力学习两种现象。
    • 量化记忆:提出一种基于生成序列中低概率词元的记忆量化指标 F m F_{m}

你可能感兴趣的:(LLM,Daily,语言模型,人工智能,自然语言处理)