论文笔记:Enhancing Sentence Embeddings in Generative Language Models

2024 ICIC

1 INTRO

  • 对于文本嵌入,过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。
    • 这些模型固有的语义空间各向异性,往往需要通过大量数据集进行微调,才能生成高质量的句子嵌入。
    • ——>需要较大的训练批次,这会消耗大量的计算资源
  • 一些前沿的工作将焦点转向了最近开发的生成模型,期望利用其先进的文本理解能力,直接对输入句子进行编码,而无需额外的反向传播
    • 由于句子表示和自回归语言建模之间的差异,这一任务需要精心设计的提示
    • PromptEOL发现,通过在提示中引入显式单词限制(EOL),并构建类似于“这个句子:“[X]”在一个词中意味着:”的模板,可以显著提高从生成模型获得的嵌入。
      • 尽管采用了像QLoRA这样的高效微调策略,用一个7B规模的LLM作为骨干训练神经网络,仍然消耗比完全微调一个110M规模的BERT更多的GPU内存。
      • 论文阐明,EOL主要有利于生成模型的原始嵌入,而对判别模型或微调生成模型并非必需
  • ——>为了平衡对高质量句子嵌入的需求与计算资源节约的需求,建议采用参数规模较大的PLMs,同时避免梯度更新
    • 设计了两种简单但有效的提示工程方法:假设思维链(Pretended Chain of Thought, CoT)和知识增强(Knowledge Enhancement),以改善生成模型在直接推理设置下的句子表示能力
    • 这两种技术都涉及在EOL前添加固定前缀,以充分利用PLMs的上下文学习能力。2

2 方法

  • 假设思维链(Pretended CoT)借鉴了零样本思维链(Zero-shot CoT)的设计
  • 知识增强(Knowledge Enhancement)旨在通过定制的提示,明确将人类的文本总结经验融入模型中。
  • 论文笔记:Enhancing Sentence Embeddings in Generative Language Models_第1张图片

3 实验

论文笔记:Enhancing Sentence Embeddings in Generative Language Models_第2张图片

你可能感兴趣的:(论文阅读,语言模型,人工智能)