BLEU及一些其它的机器翻译评估指标

BLEU(Bilingual Evaluation Understudy)即双语互译质量评估辅助工具,是一种在机器翻译任务中广泛使用的评估指标。

一、原理

  1. 基于 n - gram 的匹配

    • BLEU 主要基于 n - gram(n 元语法)的概念。n - gram 是指文本中连续的 n 个单词的序列。例如,在句子 “The cat sat on the mat” 中,1 - gram(一元语法)有 “the”“cat”“sat”“on”“the”“mat”;2 - gram(二元语法)有 “the cat”“cat sat”“sat on”“on the”“the mat” 等。
    • BLEU 通过比较机器翻译的译文和参考译文(人工翻译的高质量译文)中 n - gram 的匹配情况来评估翻译质量。
  2. 精度计算

    • 对于每个 n(通常 n 取值为 1、2、3、4),计算机器翻译文本和参考译文之间 n - gram 的精度。精度是指机器翻译文本中与参考译文匹配的 n - gram 数量占机器翻译文本中 n - gram 总数的比例。
    • 例如,假设机器翻译句子为 “a dog runs”,参考译文为 “a dog is running”。对于 1 - gram,机器翻译的 1 - gram 有 “a”“dog”“runs”,参考译文的 1 - gram 有 “a”“dog”“is”“running”。匹配的 1 - gram 有 “a”“dog”,共 2 个。机器翻译的 1 - gram 总数为 3,所以 1 - gram 精度为。
  3. 修正的精度计算

    • 单纯的精度计算会有问题。比如机器翻译可能会生成一些高频但不相关的 n - gram 来提高精度。为了解决这个问题,BLEU 采用了修正的精度计算方法。
    • 它会统计参考译文中每个 n - gram 出现的最大次数,然后在计算精度时,以这个最大次数为上限。例如,如果机器翻译句子中有 3 个 “the”,但参考译文中 “the” 最多出现 2 次,那么在计算精度时,“the” 最多只能算匹配 2 次。
  4. 几何平均与惩罚因子

    • BLEU 分数是通过对不同 n 值(通常 n = 1,2,3,4)的修正精度进行几何平均得到的。几何平均可以综合考虑不同 n - gram 的匹配情况。
    • 此外,BLEU 还引入了一个简短惩罚因子(Brevity Penalty)。如果机器翻译的句子长度比参考译文短很多,那么会对 BLEU 分数进行惩罚。因为过短的翻译可能会丢失重要信息,虽然 n - gram 匹配精度可能较高,但整体质量不佳。

二、用途和局限性

  1. 用途

    • BLEU 是一种客观的机器翻译评估指标,用于比较不同机器翻译系统的性能。它可以帮助研究人员和开发者快速筛选出相对较好的翻译算法或模型。在大规模机器翻译系统的开发和优化过程中,BLEU 分数可以作为一个重要的参考指标,用于监测系统性能的变化和改进。
  2. 局限性

    • BLEU 无法完全反映翻译的语义准确性。它主要关注词汇和短语的表面匹配,对于语义正确但表达方式不同的翻译可能会给出较低的分数。例如,一个富有创意的翻译,虽然意思正确,但由于用词和参考译文差异较大,BLEU 分数可能不高。
    • 它对参考译文的依赖性较强。如果参考译文质量不高或者参考译文的风格比较单一,BLEU 评估可能会出现偏差。而且,BLEU 没有考虑句子的语法结构和语言的流畅性等因素,只是从 n - gram 匹配的角度进行评估。

三、其它机器翻译评价指标

  1. METEOR(Metric for Evaluation of Translation with Explicit ORdering)

    • 原理
      • METEOR 不仅考虑了翻译文本与参考文本之间的精确匹配,还考虑了语义相似性和单词顺序。它首先将翻译文本和参考文本进行词法匹配,包括精确匹配、词干匹配、同义词匹配等多种方式。例如,对于单词 “run” 和 “running”,通过词干匹配可以认为它们是相关的。
      • 然后,基于匹配的结果计算出一个调和平均数,其中包含了单字匹配的精度(unigram precision)和召回率(unigram recall),同时考虑了单词顺序的连贯性。通过一个对齐模块来确定翻译文本和参考文本中单词的最佳对齐方式,以更好地衡量单词顺序的相似度。
    • 用途和局限性
      • 用途:与 BLEU 相比,METEOR 能够更好地衡量语义相似性和单词顺序,更符合人类对翻译质量的直观感受。它在评估具有语义灵活度的翻译任务时表现较好,能够给予那些语义正确但表述略有差异的翻译较高的分数。
      • 局限性:METEOR 的计算依赖于外部的语言资源,如词干提取工具和同义词词典等。这些资源的质量和覆盖范围会影响评估结果。而且,它的计算相对复杂,计算速度可能不如 BLEU 快。
  2. ROUGE(Recall - Oriented Understudy for Gisting Evaluation)

    • 原理
      • ROUGE 指标主要用于评估自动文摘系统,但也可以用于机器翻译评估。它基于召回率(Recall)的概念,通过计算翻译文本与参考文本之间重叠的单元(如 n - gram)占参考文本中单元总数的比例来衡量翻译质量。与 BLEU 侧重于精度不同,ROUGE 更关注翻译文本是否能够完整地覆盖参考文本中的重要信息。
      • 常见的 ROUGE - N(N 代表 n - gram)指标计算翻译文本和参考文本之间 N - gram 的召回率。例如,ROUGE - 1 计算一元语法的召回率,ROUGE - 2 计算二元语法的召回率等。还有 ROUGE - L,它通过计算最长公共子序列(Longest Common Subsequence)来衡量翻译文本和参考文本在单词序列层面的相似度,能够更好地捕捉句子结构和顺序方面的相似性。
    • 用途和局限性
      • 用途:ROUGE 在评估翻译文本对参考文本信息的覆盖程度方面非常有效,对于那些需要准确传达原文内容的翻译任务(如技术文档翻译)是一个很好的评估指标。它能够帮助确保翻译文本不会遗漏参考文本中的关键信息。
      • 局限性:ROUGE 和 BLEU 一样,也主要关注文本的表面信息,对语义的深入理解有限。而且它侧重于召回率,可能会导致一些翻译系统为了追求高召回率而生成冗长、包含过多无关信息的翻译。
  3. TER(Translation Edit Rate)

    • 原理
      • TER 是一种基于编辑距离(Edit Distance)的评估指标。编辑距离是指将一个字符串转换为另一个字符串所需的最少编辑操作次数,编辑操作包括插入、删除、替换单词等。TER 通过计算将机器翻译文本转换为参考文本所需的编辑操作数量,然后除以参考文本的单词数来得到一个编辑率。
    • 用途和局限性
      • 用途:TER 能够直观地反映翻译文本和参考文本之间的差异程度,通过编辑操作的数量来衡量翻译的质量。它对于发现翻译中的具体错误类型(如单词插入、删除或替换错误)很有帮助,在翻译错误分析和系统改进方面具有重要价值。
      • 局限性:TER 的计算结果可能会受到参考文本长度的影响。而且,它和其他基于表面文本差异的指标一样,对语义的评估不够直接,不能完全反映翻译的语义准确性。

你可能感兴趣的:(VLNM,机器翻译,人工智能,自然语言处理)