【NLP】 28. 语言模型的评估方式:MRR, PERPLEXITY, BLEU, WER从困惑度到实际效果
语言模型的评估方式:从困惑度到实际效果评估语言模型(LLM)是否有效,并不仅仅是看它生成句子是否“听起来通顺”,我们需要定量的指标对模型性能做出系统性评价。评估方法主要分为两大类:内在评价(IntrinsicEvaluation):直接衡量模型本身的语言建模能力。外在评价(ExtrinsicEvaluation):模型作为子模块嵌入下游任务时的表现。1️⃣MeanReciprocalRank(MR