为什么现在的LLM都是Decoder only的架构

结论:

LLM之所以主要都用Decoder-only架构,除了训练效率和工程实现上的优势外,在理论上是因为Encoder的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好,大概只是因为它多了一倍参数。所以,在同等参数量、同等推理成本下,Decoder-only架构就是最优选择了。




为什么现在的LLM都是Decoder-only的架构? - 科学空间|Scientific Spaces

为什么现在的LLM都是Decoder only的架构? - 知乎 

你可能感兴趣的:(LLM,人工智能,深度学习)