Python&LLM 第58页

XTuner 大模型单卡低成本微调实战

简介增量预训练微调指令跟随微调LoRAXTuner介绍功能亮点8GB显存玩转LLMFlashAttentionDeepSpeedZeRO上手操作平台激活环境微调参考教程：XTunerFinetune简介LLM

桑_榆·2024-01-13 17:16

基于 InternLM 和 LangChain 搭建你的知识库

基于InternLM和LangChain搭建你的知识库大模型开发范式LLM的局限性：RAG检索增强生成LangChain简介构建向量数据库搭建知识库助手WebDemo部署环境配置下载NLTK相关资源下载本项目代码大模型开发范式

桑_榆·2024-01-13 17:16

基于书生·浦语大模型应用开发范式介绍

通用大模型局限性：知识时效性受限：如何让LLM能够获取最新的知识专业能力有限：如何打造垂域大模型定制化成本高：如何打造个人专属的LLM应用两种核心开发范式：检索增强

爱科研的瞌睡虫·2024-01-13 13:20

基于InternLM 和 LangChain 搭建你的知识库Demo

模型部署InternLM模型下载LangChain环境配置下载NLTK相关资源知识库搭建数据收集加载数据构建向量数据库脚本整合InternLM接入LangChain构建检索问答链加载向量数据库实例化自定义LLM

爱科研的瞌睡虫·2024-01-13 13:19

【书生·浦语】大模型实战营——第四课笔记

vd_source=5d94ee72ede352cb2dfc19e4694f7622本次视频的内容分为以下四部分：目录微调简介微调会使LLM在具体的领域中输出更好的

Horace_01·2024-01-13 13:27

大语言模型LLM的原理，bert、GPT、GLM三者的对比

本次任务：1、大语言模型原理、2、演示1：单一文档摘要、3、演示2：多文档+langchain摘要4、演示3：微调训练本地知识库：美食、菜谱大模型....一、大语言模型介绍：主要、技术依赖：transformer架构、主要点：self-attention自注意力--机制编码器+解码器，不同公司的技术路线不同：有二者选其一的，也有兼备的！..谷歌重磅论文，《attentionisallyouneed

金城武555·2024-01-13 10:49

谈谈 NLP中大语言模型 LLM的In-Context Learning(ICL) 能力

In-ContextLearning(ICL)传送门：https://github.com/wzzzd/LLM_Learning_Note/blob/main/Tuning/In-context-learning.md1

Neleuska·2024-01-13 10:23

LLM_InterLM-Demo学习

referenceGithub:https://github.com/InternLM/tutorial/blob/main/helloworld/hello_world.md1-环境配置之前都是用科学上网在huggingFace进行的模型下载，同时还需要进行一些配置importosos.environ['CURL_CA_BUNDLE']=''在本次的学习中发现可以设置镜像或者是通过modelsc

Scc_hy·2024-01-13 10:21

2024 年必读的 10 篇人工智能安全文章

ChatGPT等大型语言模型(LLM)已经风靡一时，这引发了人们对人工智能安全的担忧。特别是，一些常见的人工智能漏洞和新出现的威胁是什么？

网络研究院·2024-01-13 05:19

用通俗易懂的方式讲解：一文讲透最热的大模型开发框架 LangChain

特别是大型语言模型（LLM），如ChatGPT，已经成为科技领域的热门话题，并受到广泛认可。

机器学习社区·2024-01-13 02:45

LLM之长度外推（一）| 基于位置编码的长度外推研究综述

论文：LengthExtrapolationofTransformers:ASurveyfromthePerspectiveofPositionEncoding地址：https://arxiv.org/abs/2312.17044Transformer自诞生以来就席卷了NLP领域，因为它具有对序列中复杂依赖关系进行建模的优越能力。尽管基于Transformer的预训练语言模型(PLM)在几乎所有N

wshzd·2024-01-13 00:59

LLM之长度外推（二）| Self-Extend：无需微调的自扩展大模型上下文窗口

论文链接：https://simg.baai.ac.cn/paperfile/a34ae7f4-f0ce-4f8f-b8f2-e8e4d84bbee5.pdf目前大模型基本都采用transformer结构，而transformer中attention机制的计算复杂度与序列长度呈平方关系，因此大模型在训练时候通常会设置固定的上下文窗口，而且也不会太大，比如GPT-4支持32K上下文，但这会限制大模型

wshzd·2024-01-13 00:28

程序员想拿高薪，这3个工具你还不知道？

1.LangChainLangChain由HarrisonChase开发，于2022年10月首次亮相，是一个开源平台，旨在构建由大语言模型（LLM）支持的强大应用程序，如ChatGPT等聊

SoFlu软件机器人·2024-01-12 22:51

OpenAI 发布 GPT 提示词工程指南，你不会是最后一个才知道吧？

许多策略都基于LLM（语言模型）研究的结果，例如链式思维提示词或递归摘要。Op

SoFlu软件机器人·2024-01-12 22:18

大模型学习与实践笔记（四）

一、大模型开发范式RAG（RetrievalAugmentedGeneration）检索增强生成，即大模型LLM在回答问题或生成文本时，会先从大量的文档中检索出相关信息，然后基于这些检索出的信息进行回答或生成文本

AllYoung_362·2024-01-12 20:48

LangChain+glm3原理解析及本地知识库部署搭建

前期准备：在部署LangChain之前，需要先下载chatglm3模型，如何下载可以查看我的上一篇文章chatglm3本地部署本地知识库和微调的区别：知识库是使用向量数据库存储数据，可以外挂，作为LLM

牛像话·2024-01-12 19:29

用通俗易懂的方式讲解：大模型 RAG 技术，从入门到精通

简而言之，RAG是搜索+LLM提示的结合，即在有搜索算法找到的信息作为上下文的情况下，让模型回答提出的查询。查询和检索到的上下文都被注入到

Python算法实战·2024-01-12 17:29

评估LLM在细胞数据上的实用性(2)-细胞层面的评估

本文衔接上一篇：评估LLM在细胞数据上的实用性(1)-基本概述目录定义参数和任务批次整合多模态整合细胞类型注释细胞层面的评估批次整合多模态整合细胞类型注释定义我们考虑一个预训练LLM表示为M(x,θ)M

tzc_fly·2024-01-12 17:27

LLM大模型显存计算

一、目录模型参数单位内存计算案例显卡算力推理显存计算训练显存计算huggface官网计算模型推理/训练需要的显存大模型输入长度与显存的关系大模型推理多线程与显存的关系参考：https://blog.csdn.net/Johntill/article/details/132629075二、实现模型参数单位“10b”、“13b”、"70b"等术语通常指的是大型神经网络模型的参数数量。“10b”意味着模

云帆@·2024-01-12 14:02

经典算法-模拟退火算法的python实现

LLM大模型相关文章：大模型查询工具助手之股票免费查询接口GPT实战系

Alex_StarSky·2024-01-12 13:02

RAG 详解

前景严峻的挑战多式联运扩展RAG的生态系统RAG论文清单增强阶段预训练微调推理增强源非结构化数据结构化数据LLM生成的内容增强过程一次检索迭代检索递归检索自适应检索杂项可视化确认什么是RAG？

javastart·2024-01-12 12:07

RLHF与LLM训练的碰撞：寻找最佳实践之路！

wwlsm_zql·2024-01-12 09:50

数据驱动下的LLM优化：如何从数据集中发掘最大价值？

来源，公众号：芝士AI吃鱼本文聚焦于通过使用精心策划的数据集对LLM进行微调，以提升其建模性能。具体来说，本文强调了涉及修改、使用或操纵数据集进行基于指令的微调的策略，而不是改变模型架构或训练算法。

wwlsm_zql·2024-01-12 09:50

NLP（十八）：LLM 的推理优化技术纵览

原文：NLP（十八）：LLM的推理优化技术纵览-知乎目录收起一、子图融合（subgraphfusion）1.1FasterTransformerbyNVIDIA1.2DeepSpeedInferencebyMicrosoft1.3MLCLLMbyTVM

javastart·2024-01-12 09:46

编码器与解码器LLM全解析：掌握NLP核心技术的关键！

让我们深入了解：基于编码器和基于解码器的模型有什么区别？编码器与解码器风格的Transformer从根本上说，编码器和解码器风格的架构都使用相同的自注意力层来编码词汇标记。然而，主要区别在于编码器旨在学习可以用于各种预测建模任务（如分类）的嵌入表示。相比之下，解码器则设计用于生成新文本，例如回答用户查询。原始的Transformer2017年开发的原始Transformer架构，旨在进行英译法和英

wwlsm_zql·2024-01-12 09:15

从 RAG 到 Self-RAG —— LLM 的知识增强

作者：紫气东来（上海交大工学硕士）一、RAG及其必要性1.1初识RAGRAG（RetrievalAugmentedGeneration,检索增强生成），即LLM在回答问题或生成文本时，先会从大量文档中检索出相关的信息

人工智能与算法学习·2024-01-12 09:10

大模型内容分享(十二)：图解大语言模型：从操作系统的视角

目录内核：LLM存储体系I/O外设：多模态工具使用安全性LLM大语言模型的未来结论如今的大语言模型(LLM)可以用“日日新，又日新”来形容了，不到五年，发展速度和规模相当惊人。

之乎者也··2024-01-12 09:38

1.RAG（检索增强生成）

本质将用户输入的信息补充到大语言模型LLM中。LLM可以使用这些信息来增强其生成的回答或响应。先检索，后生成传统RAG实现过程对知识库进行索引。

cookieswolf·2024-01-12 09:03

使用CLIP和LLM构建多模态RAG系统

在本文中我们将探讨使用开源大型语言多模态模型(LargeLanguageMulti-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlamaindex的情况下实现这一目标，这样可以避免更多的框架依赖。什么是RAG在人工智能领域，检索增强生成(retrieve-augmentedGeneration,RAG)作为一种变革性技术改进了大型语言模型(LargeLa

deephub·2024-01-12 08:59

DeepSeek 发布全新开源大模型，数学推理能力超越 LLaMA-2

自从LLaMA被提出以来，开源大型语言模型（LLM）的快速发展就引起了广泛研究关注，随后的一些研究就主要集中于训练固定大小和高质量的模型，但这往往忽略了对LLM缩放规律的深入探索。

夕小瑶·2024-01-12 05:44

论文阅读_训练大模型用于角色扮演

英文名称:Character-LLM:ATrainableAgentforRole-Playing中文名称:角色-LLM：训练Agent用于角色扮演文章: [https://arxiv.org/abs/

xieyan0811·2024-01-12 03:05

大模型LLM Agent在 Text2SQL 应用上的实践

本文将从以下4个方面探讨通过AIAgent来优化LLM的Text2SQL转换效果。1Agent概述2LangChain中的Agent模块3Agent优化Text2SQL效果的实践4后续计划Text

机器学习社区·2024-01-12 00:43

大模型 LLM RAG在 Text2SQL 上的应用实践

1.前言在上篇文章中「LLMAgent在Text2SQL应用上的实践」介绍了基于AIAgent来优化LLM的Text2SQL转换效果的实践，除此之外我们还可以使用RAG（Retrieval-AugmentedGeneration

机器学习社区·2024-01-12 00:43

如何通过 Prompt 优化大模型 Text2SQL 的效果

前言在上篇文章中「大模型LLM在Text2SQL上的应用实践」介绍了基于SQLDatabaseChain的Text2SQL实践，但对于逻辑复杂的查询在稳定性、可靠性、安全性方面可能无法达到预期，比如输出幻觉

机器学习社区·2024-01-12 00:42

大模型LLM在 Text2SQL 上的应用实践

本文将从以下四个方面介绍LLM在Text2SQL应用上的基础实践。

机器学习社区·2024-01-12 00:11

大模型学习第三课

InternLM和LangChain搭建你的知识库学习内容1，大模型卡法范式2，LangChain简介3，构建向量数据库4，搭建知识库助手5，WebDemo部署6，动手实战环节学习时间：10240110学习产出：LLM

敲键盘的喵桑·2024-01-11 21:41

大模型学习第四课

学习目标：XTuner大模型单卡低成本微调实战学习内容：Finetune简介XTuner介绍8GB显卡玩转LLM动手实战环节学习时间：20240110学习产出：Finetune简介增量预训练微调指令跟随微调

敲键盘的喵桑·2024-01-11 21:38

如何解决LLM（大型语言模型）幻觉问题

LLM幻觉问题是什么？LLM（大型语言模型）幻觉问题指的是当大型语言模型（如我这样的）在处理请求时产生的不准确或虚构的信息。

sagima_sdu·2024-01-11 21:41

SFT会改善LLM性能，RLHF可能会损害性能

SFT（StructuredFine-Tuning）是一种模型优化技术，它通过在预训练的语言模型上进行有针对性的微调，以适应特定任务或领域。SFT可以提高性能的原因有几个：领域自适应：预训练的语言模型通常在大规模通用语料库上进行训练，而SFT可以通过在特定领域的数据上微调模型，使其更好地适应该领域的特定模式、术语和上下文。这种领域自适应可以提高模型在特定任务或领域中的性能。数据增强：SFT通常会使

小草cys·2024-01-11 19:26

02.构建和使用的大型语言模型（LLMs）阶段

LLM从头开始编码是了解其机制和局限性的绝佳练习。此外，它还为我们提供了必要的知识，可以保留或微调现有的开源LLM架构，以适应我们自己的特定领域的数据集或任务。

这就是编程·2024-01-11 14:26

当大型语言模型（LLM）遇上知识图谱：两大技术优势互补

1引言大型语言模型（LLM）已经很强了，但还可以更强。通过结合知识图谱，LLM有望解决缺乏事实知识、幻觉和可解释性等诸多问题；而反过来LLM也能助益知识图谱，让其具备强大的文本和语言理解能力。

智慧医疗探索者·2024-01-11 13:35

LLM实现图片关键信息提取与交互

本期文心开发者说邀请到飞桨开发者技术专家徐嘉祁，主要介绍了如何通过小模型与大模型的结合，解决数据分析中的问题。项目背景在智能涌现的大模型时代，越来越多的企业和研究机构开始探索如何利用大模型来提升工作效率，助力业务智能化转型。但其实小模型与大模型结合后，能够更加高效、低成本地解决业务中出现的问题，带给用户不一样的体验。我想分享的内容是小模型与大模型结合后产生的理解记忆逻辑和生成能力。在工作场景下，普

飞桨PaddlePaddle·2024-01-11 12:11

经典算法-遗传算法的解走迷宫例子

Alex_StarSky·2024-01-11 12:07

序列模型（3）—— LLM的参数量和计算量

本文说明以下重要结论设模型参数量为NNN，训练数据量（Token）为DDD，LLM训练中计算量（FLOPs）C≈6NDC\approx6NDC≈6ND参考：模型训练计算量到底怎么算分析transformer

云端FFF·2024-01-11 07:38

序列模型（4）—— Scaling Laws

本文介绍LLM训练过程中重要的ScalingLaws，这是一个经验规律，指出了固定训练成本（总计算量FLOPs）CCC时，如何调配模型规模（参数量）NNN和训练Token数据量DDD，才能实现最高的效率

云端FFF·2024-01-11 07:26

圣诞老人遇见 GenAI：利用大语言模型、LangChain 和 Elasticsearch 破译手写的圣诞信件

我们的目标既简单又雄心勃勃：利用生成式人工智能和LLM的力量来解释手写字母并提取必要的数据，并将其组织在Elasticsearch中。安装安

Elastic 中国社区官方博客·2024-01-11 07:23

一文读懂「Prompt Engineering」提示词工程

提示工程（PromptEngingering），也被称为上下文提示（In-ContextPrompting），指的是通过结构化文本等方式来完善提示词，引导LLM输出我们期望的结果。

女王の专属领地·2024-01-11 06:38

【Copilot使用】

Copilot是微软365Copilot，是一种AI支持的生产力工具，可协调大型语言模型（LLM）、MicrosoftGraph中的内容以及日常

深竹清风·2024-01-11 05:02

用于生成信息提取的大型语言模型综述

论文地址：https://arxiv.org/pdf/2312.17617.pdf代码仓库：https://github.com/quqxui/Awesome-LLM4IE-Papers信息抽取（IE）

AI知识图谱大本营·2024-01-11 04:27

免费的实时AI编程助手：Amazon CodeWhisperer使用体验

AmazonCodeWhispererAmazonCodeWhisperer功能特性AmazonCodeWhisperer安装配置AmazonCodeWhisperer本地初体验AWSCodeWhisperer的云端生态整合总结前言随着大型语言模型（LLM

李子lll·2024-01-11 03:17

推荐频道

Python&LLM