领域大模型之微调技术和最佳实践

BERT和 GPT-3 等语言模型针对语言任务进行了预训练。微调使它们适应特定领域,如营销、医疗保健、金融。在本指南中,您将了解 LLM 架构、微调过程以及如何为 NLP 任务微调自己的预训练模型。

-介绍-

大型语言模型 (LLM) 的特别之处可以概括为两个关键词——大型和通用。“大”是指它们训练的海量数据集及其参数的大小,即模型在训练过程中学习的记忆和知识;“通用”意味着他们具有广泛的语言任务能力。

更明确地说,LLM 是 ChatGPT 或 Bard 等聊天机器人背后的一种新型 AI 技术,与通常针对单个任务进行训练的典型神经网络不同,LLM 是在尽可能大的数据集上训练的,就像整个互联网一样,以学习生成文本、代码等各种语言技能。

领域大模型之微调技术和最佳实践_第1张图片

模型尺寸

然而,它们广泛的非专业基础意味着它们可能会在利基行业应用中失败。

例如,在医学领域,虽然LLM大模型可能擅长通过日常的基础训练总结通用文章,但它缺乏专业的医学知识来准确总结包含复杂技术细节和术语的专业外科手术文件。这就有了微调的用武之地——对LLM进行医学概述数据的进一步训练,教给它高质量医学摘要所需的专业知识和词汇。

好奇这种微调是如何完成的?嗯,这就是本指南的重点。请继续阅读,我们将更深入地研究使这些模型专业化的技术!

▶根据新技能训练模型

大型语言模型位于转换器架构上。近年来,这种结构极大地推动了自然语言处理的进步。在 2017 年的论文“Attention is All You Need”中首次引入,转换器架构通过其基于注意力的机制来理解语言上下文,标志着 NLP 的转折点。

领域大模型之微调技术和最佳实践_第2张图片

Transformers architecture

转换器的核心由编码器和解码器组成。编码器读取输入序列(如句子),并创建其抽象表示形式。该向量捕获单词背后的上下文和含义,然后解码器使用该表示来生成输出。

领域大模型之微调技术和最佳实践_第3张图片

转换器通过注意力机制工作。允许模型专注于输入句子中最重要的单词。该模型根据每个单词在短语或句子中的上下文为每个单词分配权重和重要性。

了解微调及其工作原理

转换器架构的突破通过对大量文本数据(包括书籍、网站等)进行训练,使创建功能非常强大的基础模型成为可能。T5、Roberta 和 GPT-3 等流行示例通过接触大量信息来培养强大的通用语言能力。然而,专业领域需要对广泛培训所遗漏的内容进行调整。

例如,我最近参与了一个项目,构建了一个 Web 应用程序,可以检测用户语音中的情感。从语音模式中识别快乐、沮丧或悲伤等感觉,只能通过在情绪数据集上微调预先训练的模型来实现。您可以在此处了解有关应用微调的更多信息。

弥合这种从宽到窄的差距是微调的用武之地。就像持续学习一样,微调可以通过吸收新信息来增强优势。通过使用特定领域的数据(例如医学期刊或客户对话)训练模型,它们的能力得到了提升,不仅可以匹配,而且可以在这些特定领域表现出色。

现在让我们来探讨一些可用于微调 LLM 的技巧。

  • 微调技术

随着模型变得越来越大,微调所有模型参数可能效率低下,但有一些先进的方法可以只更新关键区域,同时保留有用的知识。让我们来看看其中的一些:

PEFT

PEFT(Parameter Efficient Fine-Tuning)是一个用于高效适应预训练语言模型的库。它可以通过仅更新一小部分内部参数而不是所有权重来适应大型预训练语言模型。这有选择地指导定制,大大降低了微调的计算和存储需求。

LoRa

LoRA是一种通过仅更新小的关键部分而不是直接更新所有大量内部参数来有效微调巨型模型的方法.

它的工作原理是在模型架构中添加薄的可训练层,将训练重点放在需要新知识的内容上,同时保留大多数现有的嵌入式学习。

QloRa

QLoRa通过大幅降低内存需求,允许在消费级GPU 上微调具有数十亿个参数的巨型模型。

它的工作原理是在训练期间将模型大小缩小到微小的 4 位精度。压缩格式显著减少了计算内存的使用量,确保在必要时将精度重新计算为完整格式。此外,微调过程只关注 LoRA 插入的小适配器层, 而不是直接对整个扩展模型进行更改.

  • 微调在行动

现在我们已经了解了微调模型,让我们通过实际微调预训练模型来获得实践经验。在本教程中,我们将微调医学领域命名实体识别任务的模型。

这里使用的模型是xlm-roberta-base ,它是RoBERTa的多语言版本&#

你可能感兴趣的:(人工智能,深度学习,语言模型,金融)