WordPiece、BPE详解及代码

1.BPE是干什么用的?

WordPiece字面理解是把word拆成piece一片一片,其实就是这个意思。
WordPiece的一种主要的实现方式叫做BPE(Byte-Pair Encoding)双字节编码。
“loved”,“loving”,“loves"这三个单词。其实本身的语义都是“爱”的意思,但是如果我们以单词为单位,那它们就算不一样的词,在英语中不同后缀的词非常的多,就会使得词表变的很大,训练速度变慢,训练的效果也不是太好。
BPE算法通过训练,能够把上面的3个单词拆分成"lov”,“ed”,“ing”,"es"几部分,这样可以把词的本身的意思和时态分开,有效的减少了词表的数量。

BPE的作用如下:

1.传统词表示方法无法很好的处理未知或罕见的词汇(OOV问题:out of vocabulary)

2.传统词tokenization方法不利于模型学习词缀之前的关系

3.Character embedding作为OOV的解决方法粒度太细

4.Subword粒度在词与字符之间,能够较好的平衡OOV问题

2.BPE算法

1.准备足够大的训练语料

2.确定期望的subword词表大小

3.将单词拆分为字符序列并在末尾添加后缀“ ”,统计单词频率。本阶段的subword的粒度是字符。例如,“ low”的频率为5,那么我们将其改写为“ l o w ”:5
(备注:为什么加入"< /w >"在解码阶段有说明)

4.统计每一个连续字节对的出现频率,选择最高频者合并成新的subword

5.重复第4步直到达到第2步设定的subword词表大小或下一个最高频的字节对出现频率为1

例子

{
   
   'l o w ': 5, 'l o w e r ': 2, 'n e w e s t ': 6, 'w i d e s t ': 3}

Iter 1, 最高频连续字节对"e""s"出现了6+3=9次,合并成"es"。输出:
{
   
   'l o w ': 5, 'l o w e r ': 2, 'n e w es t ': 6, 'w i d es t ': 3}

Iter 2, 最高频连续字节对"es""t"出现了6+3=9, 合并成"est"。输出:
{
   
   'l o w &

你可能感兴趣的:(WordPiece、BPE详解及代码)