Python&LLM 第85页

LLM系列 | 19 : Llama 2实战(上篇)-本地部署(附代码)

紧接前文：万字长文细说ChatGPT的前世今生，后续会尝试以理论+实践的方式逐步对主流的各大LLM进行实测和汉化。

JasonLiu1919·2023-09-23 00:53

LLM系列 | 20 : Llama2 实战(下篇)-中文语料微调(附完整代码)

简介紧接前文：万字长文细说ChatGPT的前世今生Llama2实战(上篇):本地部署(附代码)上篇主要介绍Llama2的基本情况和基于官方模型实测Llama2在中英上的效果，包括单轮和多轮对话。今天这篇小作文作为Llama2的下篇，主要介绍如何用中文语料对Llama2的基座模型(7B版)进行微调并实测微调后模型的效果。本文实验完整代码请找小编索取。后续将实战CodeLlama感兴趣的小伙伴可以关注

JasonLiu1919·2023-09-23 00:49

大模型从入门到应用——LangChain：代理（Agents）-[工具（Tools）：人工确认工具验证和Tools作为OpenAI函数]

总目录LangChain系列文章：基础知识快速入门安装与环境配置链（Chains）、代理（Agent:）和记忆（Memory）快速开发聊天模型模型（Models）基础知识大型语言模型（LLMs）基础知识LLM

von Neumann·2023-09-22 18:55

AIGC之常见LLM免费使用

文章目录1.前言2.常见LLM免费使用方法(部分网站需要使用魔法)2.1GPT-4/GPT-3.5-16k国内镜像2.2GPT-3.5国内镜像2.3LLM国外综合网站3.总结1.前言自从ChatGPT在

Albert Darren·2023-09-22 18:13

大模型微调方法

LoRALoRA名为大语言模型的低阶适应，最初设计用于微调LLM，但却在文生图领域大放异彩，并逐渐被人数知。

transformer_WSZ·2023-09-22 18:09

Learn Prompt-Prompt 高级技巧:AI-town 虚拟小镇

我们经常讨论单个LLM的突现能力，但Agents突现在大规模下可能会更复杂和迷人。一个AI的种群可以展现出整个文明的演化。开始阅读前，如果你对其他文章感兴趣，可以到欢迎页关注我们！

xiaoshun007～·2023-09-22 15:05

微调GPT-3.5 Turbo是空中楼阁吗？

大型语言模型（LLM）领域不断演变，日新月异.OpenAI发布了GPT-3.5Turbo的微调，标志着一个即将载入史册的里程碑。

·2023-09-22 15:43

LLM各层参数详细分析（以LLaMA为例）

网上大多分析LLM参数的文章都比较粗粒度，对于LLM的精确部署不太友好，在这里记录一下分析LLM参数的过程。首先看QKV。

Αλήθεια·2023-09-22 14:10

微调大型语言模型(一)：为什么要微调(Why finetune)?

我们知道像GPT-3.5这样的大型语言模型(LLM)它所学到的知识截止到2021年9月，那么如果我们向ChatGPT询问2022年以后发生的事情，它可能会产生“幻觉”从而给出错误的答案，再比如我们有一些关于企业的某些产品的业务数据

-派神-·2023-09-22 12:54

[论文笔记]Prefix Tuning

引言今天带来微调LLM的第二篇论文笔记Prefix-Tuning。

愤怒的可乐·2023-09-22 09:51

RLHF优化

LLM优化方向有益性：LLM在需要时遵循说明、执行任务、提供答案，以实现对用户意图理解并提供有益帮助。真实性：LLM提供真实、准确信息并承认其自身不确定性和局限性的能力。

zhurui_xiaozhuzaizai·2023-09-22 03:51

论文笔记：TEST: Text Prototype Aligned Embedding to ActivateLLM’s Ability for Time Series

1intro1.1背景时间序列TS和大模型LLM的结合设想了两种实现TS+LLM的范例LLM-for-TS针对TS数据，从头开始设计并预训练一个基本的大型模型，然后为各种下游任务相应地微调模型TS-for-LLM

UQI-LIUWJ·2023-09-22 00:41

NExT-GPT: Any-to-Any Multimodal LLM论文笔记

论文https://arxiv.org/pdf/2309.05519.pdf代码https://github.com/NExT-GPT/NExT-GPT/tree/main1.Motivation现有的多模态大模型大都只是支持输入端的多模态（Text、Image、Video、Audio等），但是输出端都是Text。也有一些现有的输入输出都是多模态的工作，如CoDi、Visual-ChatGPT、H

Nick Blog·2023-09-21 18:35

FastGPT，知识库AI ！保姆级教程，5分钟上手

尤其是GPT-3.5接口全面放开后，LLM应用雨后春笋般快速涌现。企业信息化1.0是电算化，2.0是移动化，3.0就是AI智能化了。企业AI化时代，员工关心是如何提高写作效率、工作效

·2023-09-21 14:55

AI究竟能提升多少效率？哈佛已揭秘量化结果

大型语言模型（LLM）的公开发布引发了人们对人工智能（AI）在各种任务中的应用方式产生了巨大兴趣。

AI 研习所·2023-09-21 12:03

“传统技术”快速搭建AI产品的利器——LLM技术

文章首发地址LLM原理LLM（Learning,Localization,andMapping）技术的原理是将学习、定位和建图结合起来，实现机器人对环境的感知、定位和地图构建。

Walter Sun·2023-09-21 12:00

【整理】text2kgbench: 语言模型根据本体生成知识图谱的能力

概述该论文的研究背景是大型语言模型（LLM）和基于本体的知识图谱（KG）在自然语言处理（NLP）任务中的性能提升。

YoungerChina·2023-09-21 11:59

Rasa：使用大语言模型进行意图分类

Rasa：使用大语言模型进行意图分类在Rasa的最新版本（3.x）中，引入了一种新的意图分类方法，即使用大型语言模型（LLM）和一种称为检索增强生成（RAG）的方法进行意图分类。

段智华·2023-09-21 11:17

Semantic Kernel 入门系列：突破提示词的限制

无尽的上下文LLM对自然语言的理解和掌握在知识内容的解读和总结方面提供了强大的能力。但是由于训练数据本身来自于公共领域，也就注定了无法在一些小众或者私有的领域能够足够的好的应答。

dotNET跨平台·2023-09-21 08:24

AI 时代的向量数据库、关系型数据库与 Serverless 技术丨TiDB Hackathon 2023 随想

大规模语言模型（LLM）的问世使得个人开发者能够在短短5分钟内为程序赋予推理能力，而这在以往，几乎只有超大型团队才能胜任。从应用开发者的角度来看，AI时代也已经到来了。

TiDB_PingCAP·2023-09-21 04:09

LLM-2-ChatGLM2

1训练1.1训练参数配置理解训练的输入长度=source的长度+target的长度–pre_seq_len：pre_seq_len的取值范围一般是1到512，它表示自然语言指令的长度，即输入序列中的前pre_seq_len个token，具体的值需要根据自然语言指令的长度和复杂度来确定。一般来说，指令越长越复杂，pre_seq_len就需要越大，以便模型能够充分理解指令的含义。但是，pre_seq_

愚昧之山绝望之谷开悟之坡·2023-09-21 04:53

MHA、MQA、GQA区别和联系

TFATS·2023-09-21 00:53

LLM预训练之RLHF（一）：RLHF及其变种

不过RLHF也早已更新换代，我们以如下目录进行详细讲述RLHF及其变种：LLM的经典预训练PipelineLla

wshzd·2023-09-20 20:02

LLM微调（一）| 单GPU使用QLoRA微调Llama 2.0实战

最近LLaMA2在LLaMA1的基础上做了很多优化，比如上下文从2048扩展到4096，使用了Grouped-QueryAttention（GQA）共享多头注意力的key和value矩阵，具体可以参考：关于LLaMA2的细节，可以参考如下文章：Meta发布升级大模型LLaMA2：开源可商用揭秘最领先的Llama2中文大模型！使用QLoRA微调LLaMA2安装环境pipinstalltransfor

wshzd·2023-09-20 20:30

大型语言模型 (LLM) 初学者指南

踏上人工智能的演变之旅和自然语言处理(NLP)领域取得的惊人进步。一眨眼的功夫，人工智能已经崛起，塑造了我们的世界。训练大型语言模型的巨大影响彻底改变了NLP，彻底改变了我们的技术交互。时间回到2017年，这是一个以“注意力就是你所需要的”为标志的关键时刻，开创性的“Transformer”架构诞生了。该架构现在构成了NLP的基石，是每个大型语言模型配方中不可替代的成分-包括著名的ChatGPT。

·2023-09-20 14:38

ChatGLM2-6B模型上线wisemodel社区，国内最具影响力的开源LM模型之一

ChatGLM2-6B模型由智谱AI及清华KEG实验室共同研发，2023年6月25日发布，上一代ChatGLM-6B模型于2023年3月14日发布，基本是国内最具影响力的开源LLM模型之一。

·2023-09-20 12:53

Through the Lens of Core Competency: Survey on Evaluation of Large Language Models

本文是LLM系列文章，针对《ThroughtheLensofCoreCompetency:SurveyonEvaluationofLargeLanguageModels》的翻译。

UnknownBody·2023-09-20 10:47

A Survey on Fairness in Large Language Models

本文是LLM系列文章，针对《ASurveyonFairnessinLargeLanguageModels》的翻译。

UnknownBody·2023-09-20 10:47

EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

本文是LLM系列文章，针对《EdgeMoE:FastOn-DeviceInferenceofMoE-basedLargeLanguageModels》的翻译。

UnknownBody·2023-09-20 10:47

EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models

本文是LLM系列文章，针对《EasyEdit:AnEasy-to-useKnowledgeEditingFrameworkforLargeLanguageModels》的翻译。

UnknownBody·2023-09-20 10:46

【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs

主要利用一个Prompt，来指示LLMs一次性输出相应的多个指标原文地址：LLM-Eval:UnifiedMulti-DimensionalAutomaticEvaluationforOpen-DomainConversationswithLargeLanguageModels

长命百岁️·2023-09-20 09:17

AIGC入门 - LLM 信息概览

本文将介绍以下LLMOPTLLaMaAlpacaVicunaMosschatGLMBaichuanOpenbuddy一、OPT1、背景OPT全称OpenPre-trainedTransformerLanguageModels，即“开放的预训练Transformer语言模型”，是MetaAI团队在2022年5月发布了开源大模型OPT-175B，媲美GPT-3，但是只需要1/7carbonfootpr

TFATS·2023-09-20 09:30

大模型从入门到应用——LangChain：代理（Agents）-[计划与执行]

规划几乎总是由一个LLM（语言模型）来完成。执行通常由一个单独的代理（配备工具）来完成。

von Neumann·2023-09-20 01:48

LLM-4-Langchain-Chatchat

FP16精度训练PRE_SEQ_LEN=128LR=2e-2NUM_GPUS=2torchrun--standalone--nnodes=1--nproc-per-node=$NUM_GPUSmain.py\--do_train\--train_filedatas/service_worksheet/data_8_14_normal_new/train.json\--validation_file

愚昧之山绝望之谷开悟之坡·2023-09-20 00:43

揭秘英伟达A100、A800、H100、H800 GPU如何实现高性能大模型的百倍训练加速

关键词：Transformer；PLM；SLM；NLM；LLM；Galactica；OPT；OPT-IML；BLOOM；BLOOMZ；GLM；Reddit；H100；H800；A100；A800；MI200

·2023-09-19 17:01

Text2Cypher：大语言模型驱动的图查询生成

话接上文《图技术在LLM下的应用：知识图谱驱动的大语言模型LlamaIndex》同大家简单介绍过LLM和图、知识图谱相关的结合，现在我来和大家分享下最新的成果。

·2023-09-19 17:24

三分钟使用Google Bard模型：搭建实时聊天页面

GoogleBard中文版已经正式上线Bard是GoogleAI开发的大型语言模型(LLM)聊天机器人，虽然GoogleBard相比于ChatGPT、Claude、文心一言语言理解，代码解释还存在差距但是

·2023-09-19 17:18

知识图谱实战导论：从什么是KG到LLM与KG/DB的结合实战

前言本文侧重讲解：什么是知识图谱LLM与langchain/数据库/知识图谱的结合应用比如，虽说基于知识图谱的问答早在2019年之前就有很多研究了，但谁会想到今年KBQA因为LLM如此突飞猛进呢第一部分知识图谱入门导论

v_JULY_v·2023-09-19 16:31

使用 Elasticsearch、OpenAI 和 LangChain 进行语义搜索

它是一个旨在帮助你与大型语言模型(LLM)交互的库。LangChain简化了与LLMs相关的许多日常任务，例如从文档中提取文本或在向量数据库中对它们建立索引。

Elastic 中国社区官方博客·2023-09-19 16:46

PAI BladeLLM推理引擎: 超长上下文、更高性能

BladeLLM对LLM推理和服务的全链路进行了深度的性能优化和工程优化，确保不同模型在不同设备上都达到最优性价比。

·2023-09-19 15:05

大模型从入门到应用——LangChain：回调函数（Callbacks）]

分类目录：《大模型从入门到应用》总目录LangChain提供了一个回调函数系统，允许我们在LLM应用的各个阶段进行钩子处理。这对于日志记录、监控、流处理和其他任务非常有用。

von Neumann·2023-09-19 15:08

Learn Prompt-Prompt 高级技巧:思维链 Chain of Thought Prompting

目的是为了提高大型语言模型（LLM）进行复杂推理的能力。思维链通常是伴随着算术，常识和符号推理等复杂推理任务出现的。

xiaoshun007～·2023-09-19 15:03

[NLP] LLM---＜训练中文LLama2(三)＞对LLama2进行中文预料预训练

预训练预训练部分可以为两个阶段：第一阶段：冻结transformer参数，仅训练embedding，在尽量不干扰原模型的情况下适配新增的中文词向量。第二阶段：使用LoRA技术，为模型添加LoRA权重（adapter），训练embedding的同时也更新LoRA参数。第一阶段预训练由于第一阶段预训练会冻结transformer参数，仅训练embedding模型，因此，收敛速度较慢，如果不是有特别充裕

舒克与贝克·2023-09-19 14:55

MATLAB算法实战应用案例精讲-【大模型】LLM算法（最终篇）

目录知识杂谈1.transformer八股文2.attention计算方式以及参数量3.NLU以及NLG各种任务的差异

林聪木·2023-09-19 13:25

LLM 07-大模型训练

LLM07-大模型训练上一章中，我们讨论了大语言模型（例如，Transformer）的模型结构。在本章中，我们将讨论如何训练大语言模型。本章分成目标函数和优化算法两部分。

Gocara·2023-09-19 11:27

LLM 08-分布式训练

LLM08-分布式训练8.1为什么分布式训练越来越流行近年来，深度学习被广泛应用到各个领域，包括计算机视觉、语言理解、语音识别、广告推荐等。

Gocara·2023-09-19 11:27

向量数据库（第 2 部分）：了解其内部结构

大型语言模型（LLM）的时代在2022年11

沃趣数据库管理平台·2023-09-19 11:22

AI Studio星河社区生产力实践：基于文心一言快速搭建知识库问答

相信对于大语言模型（LLM）有所涉猎的朋友，对于“老网红”知识库问答不会陌生。

飞桨PaddlePaddle·2023-09-19 10:13

如何利用 Agent 构建AI服务

以LLM（大型语言模型）作为其核心控制器构建代理是一个很酷的概念。它模拟人类的工作流程，能够自主进行信息搜索、分析、利用，以完成目标。

·2023-09-19 10:04

ChatGLM 通俗理解大模型的各大微调方法：从LoRA、QLoRA到P-Tuning V1/V2

前言PEFT方法仅微调少量(额外)模型参数，同时冻结预训练LLM的大部分参数第一部分高效参数微调的发展史1.1Google之AdapterTuning：嵌入在transformer里原有参数不变只微调新增的

张志翔的博客·2023-09-19 09:40

推荐频道

Python&LLM

LLM系列 | 19 : Llama 2实战(上篇)-本地部署(附代码)

LLM系列 | 20 : Llama2 实战(下篇)-中文语料微调(附完整代码)

大模型从入门到应用——LangChain：代理（Agents）-[工具（Tools）：人工确认工具验证和Tools作为OpenAI函数]

AIGC之常见LLM免费使用

大模型微调方法

Learn Prompt-Prompt 高级技巧:AI-town 虚拟小镇

微调GPT-3.5 Turbo是空中楼阁吗？

LLM各层参数详细分析（以LLaMA为例）

微调大型语言模型(一)：为什么要微调(Why finetune)?

[论文笔记]Prefix Tuning

RLHF优化

论文笔记：TEST: Text Prototype Aligned Embedding to ActivateLLM’s Ability for Time Series

NExT-GPT: Any-to-Any Multimodal LLM论文笔记

FastGPT，知识库AI ！保姆级教程，5分钟上手

AI究竟能提升多少效率？哈佛已揭秘量化结果

“传统技术”快速搭建AI产品的利器——LLM技术

【整理】text2kgbench: 语言模型根据本体生成知识图谱的能力

Rasa：使用大语言模型进行意图分类

Semantic Kernel 入门系列：突破提示词的限制

AI 时代的向量数据库、关系型数据库与 Serverless 技术丨TiDB Hackathon 2023 随想

LLM-2-ChatGLM2

MHA、MQA、GQA区别和联系

LLM预训练之RLHF（一）：RLHF及其变种

LLM微调（一）| 单GPU使用QLoRA微调Llama 2.0实战

大型语言模型 (LLM) 初学者指南

ChatGLM2-6B模型上线wisemodel社区，国内最具影响力的开源LM模型之一

Through the Lens of Core Competency: Survey on Evaluation of Large Language Models

A Survey on Fairness in Large Language Models

EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models

【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs

AIGC入门 - LLM 信息概览

大模型从入门到应用——LangChain：代理（Agents）-[计划与执行]

LLM-4-Langchain-Chatchat

揭秘英伟达A100、A800、H100、H800 GPU如何实现高性能大模型的百倍训练加速

Text2Cypher：大语言模型驱动的图查询生成

三分钟使用Google Bard模型：搭建实时聊天页面

知识图谱实战导论：从什么是KG到LLM与KG/DB的结合实战

使用 Elasticsearch、OpenAI 和 LangChain 进行语义搜索

PAI BladeLLM推理引擎: 超长上下文、更高性能

大模型从入门到应用——LangChain：回调函数（Callbacks）]

Learn Prompt-Prompt 高级技巧:思维链 Chain of Thought Prompting

[NLP] LLM---＜训练中文LLama2(三)＞对LLama2进行中文预料预训练

MATLAB算法实战应用案例精讲-【大模型】LLM算法（最终篇）

LLM 07-大模型训练

LLM 08-分布式训练

向量数据库（第 2 部分）：了解其内部结构

AI Studio星河社区生产力实践：基于文心一言快速搭建知识库问答

如何利用 Agent 构建AI服务

ChatGLM 通俗理解大模型的各大微调方法：从LoRA、QLoRA到P-Tuning V1/V2