评估语言模型(LLM)是否有效,并不仅仅是看它生成句子是否“听起来通顺”,我们需要定量的指标对模型性能做出系统性评价。评估方法主要分为两大类:
用途:衡量模型在预测多个候选项时,正确答案排第几位。
公式:
M R R = 1 ∣ Q ∣ ∑ i = 1 ∣ Q ∣ 1 rank _ i MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\text{rank}\_i} MRR=∣Q∣1∑i=1∣Q∣rank_i1
其中 rank _ i \text{rank}\_i rank_i 表示第 i i i 个查询中正确答案的排序位置。
例子:
The student submitted the
report
, homework
, form
]assignment
,排名第 4优点:衡量模型排序能力;适合开放式问答、多选题预测
缺点:只关注第一个正确答案;不适合多标签预测任务
定义:衡量语言模型对测试集的平均预测难度,数值越低越好。
公式:
Perplexity = exp ( − 1 N ∑ i = 1 N log P ( w i ∣ w < i ) ) \text{Perplexity} = \exp\left(-\frac{1}{N} \sum_{i=1}^{N} \log P(w_i | w_{Perplexity=exp(−N1i=1∑NlogP(wi∣w<i))
直观理解:模型在每个位置平均“有多少个选择”。完美模型的困惑度为 1。
例子:
模型 A 预测 “The student submitted the assignment.” 中每个词概率均为 1/10
模型 B 预测大部分词准确,只有一个词较不确定(如 1/2)
优点:
缺点:
这些指标用于实际任务效果的衡量,模型不再作为主角,而是作为系统中的一环:
衡量生成句子和参考答案之间的词级错误率
WER = S + D + I N \text{WER} = \frac{S + D + I}{N} WER=NS+D+I,其中:
类型 | 示例 | 优点 | 缺点 |
---|---|---|---|
内在指标 | Perplexity, MRR | 快速、直接、易复现 | 不一定能反映实际应用中的表现 |
外在指标 | BLEU, WER | 真实任务导向,评估全面 | 与系统其他模块耦合,受上下游影响大 |
一个优秀的语言模型,不只是能“说得好”,更要能“答得对”、“用得稳”。