大模型系列——长度外推

1.长度外推存在的问题

1.长度外推存在不能识别的

2.长度外推存在熵变问题

3.长度内插入存在缩小距离分布

2.直接使用外推技巧

1.窗口局部关注+最终输出全局注意

2.熵变+✖系数

3.keynorm,增加模型识别距离能力

4.增加bias,类似于Sandwich

Transformer升级之路:16、“复盘”长度外推技术

你可能感兴趣的:(深度学习)