Python&LLM 第80页

CodePlan

CodePlan论文解读最近在看老师给的LLM-Agent论文，在这记录一下CodePlan:Repository-levelCodingusingLLMsandPlanning【论文】旨在解决储存库级别的

oveZ·2023-10-18 07:38

大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm

10LLMs位置编码篇10.1.1什么是位置编码？位置编码是一种用于在序列数据中为每个位置添加位置信息的技术。在自然语言处理中，位置编码通常用于处理文本序列。由于传统的神经网络无法直接捕捉输入序列中的位置信息，位置编码的引入可以帮助模型更好地理解和处理序列数据。在Transformer模型中，位置编码通过为输入序列中的每个位置分配一个固定的向量来实现。这些向量会与输入序列中的词向量相加，以融合位置

zhurui_xiaozhuzaizai·2023-10-18 05:19

大模型LLM相关面试题整理-PEFT

5大模型（LLMs）参数高效微调(PEFT)5.1PEFT基础5.1.1微调方法是啥？如何微调？微调（Fine-tuning）是一种迁移学习的技术，用于在一个已经预训练好的模型基础上，通过进一步训练来适应特定的任务或数据集。微调可以在具有相似特征的任务之间共享知识，从而加快训练速度并提高模型性能。以下是一般的微调步骤：选择预训练模型：选择一个在大规模数据集上预训练好的模型，如ImageNet上的预

zhurui_xiaozhuzaizai·2023-10-18 05:49

大模型LLM相关面试题整理-训练集-训练经验-微调

3大模型（LLMs）微调3.1如果想要在某个模型基础上做全参数微调，究竟需要多少显存？要确定全参数微调所需的显存量，需要考虑以下几个因素：模型的大小：模型的大小是指模型参数的数量。通常，参数越多，模型的大小就越大。大型的预训练模型如Bert、GPT等通常有数亿到数十亿个参数，而较小的模型可能只有数百万到数千万个参数。模型的大小直接影响了所需的显存量。批量大小：批量大小是指在每次训练迭代中一次性输入

zhurui_xiaozhuzaizai·2023-10-18 05:44

大模型Agent最新论文及源码合集，覆盖构建、应用、评估

不过值得高兴的是，在今年的各大顶会中，有关自主智能体的研究有了许多突破性进展，以往困扰AIAgent研究者的社会交互性和智能性问题都随着大语言模型（LLM）的发展有了新的解决方向。为方

深度之眼·2023-10-18 03:50

【LangChain系列文章】1. LangChain：一个可以让你变强大的开源框架

一、LangChain介绍二、LangChain原理1.向量数据库2.与LLM合作三、LangChain组件四、学习路径为什么？

哟哟-·2023-10-18 03:17

LLM大模型训练加速利器FlashAttention详解

FlashAttention论文地址：https://arxiv.org/pdf/2205.14135.pdf1.背景介绍因为Transformer的自注意力机制(self-attention)的计算的时间复杂度和空间复杂度都与序列长度有关，所以在处理长序列的时候会变的更慢，同时内存会增长更多。通常的优化是针对计算复杂度(通过FLOPsFLOPsFLOPs数衡量),优化会权衡模型质量和计算速度。在

MLTalks·2023-10-18 02:20

FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for Task-Oriented Dialogue

本文是LLM系列文章，针对《FutureTOD:TeachingFutureKnowledgetoPre-trainedLanguageModelforTask-OrientedDialogue》的翻译

UnknownBody·2023-10-18 02:12

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference

本文是LLM系列文章，针对《NarrowBERT:AcceleratingMaskedLanguageModelPretrainingandInference》的翻译。

UnknownBody·2023-10-18 02:12

ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained Language Models

本文是LLM系列文章，针对《ReAugKD:Retrieval-AugmentedKnowledgeDistillationForPre-trainedLanguageModels》的翻译。

UnknownBody·2023-10-18 02:11

A Close Look into the Calibration of Pre-trained Language Models

本文是LLM系列文章，针对《ACloseLookintotheCalibrationofPre-trainedLanguageModels》的翻译。

UnknownBody·2023-10-18 02:40

LLM 系列 | 21 : Code Llama实战(上篇) : 模型简介与评测

引言小伙伴们好，我是《小窗幽记机器学习》的小编：卖热干面的小女孩。个人CSDN首页：JasonLiu1919_面向对象的程序设计,深度学习,C++-CSDN博客今天开始以2篇小作文介绍代码大语言模型CodeLlama。上篇主要介绍CodeLlama的基本情况并基于HuggingFace上部署的Demo快速体验下CodeLlama的实战效果，下篇则主要介绍如何在本地部署CodeLlama。感兴趣的小

JasonLiu1919·2023-10-18 01:56

李航：关于大模型的思考及研究热点

本文阐述李航老师对LLM的一些看法，主要观点如下：ChatGPT的突破主要在于规模带来的质变和模型调教方式的发明。LLM融合了实现人工智能的三条路径。LLM的开发需要结合第三者体验和第一者体验。

机器学习社区·2023-10-17 23:52

盘点GPT-4，大语言模型最新综述来了

如今的大语言模型（LLM）发展到了什么程度？未来短时间内，AGI的发展路线又将如何？自20世纪50年代图灵测试提出以来，人们始终在探索机器处理语言智能的能力。

Datawhale·2023-10-17 23:29

如何选择最适合你的LLM优化方法：全面微调、PEFT、提示工程和RAG对比分析

虽然LLMs具有巨大的潜力，但存在一个问题：即使是最强大的预训练LLM也可能无法直接满足你的特定需求。

技术狂潮AI·2023-10-17 19:56

这三大爆款开源项目竟出自同一个20人的小公司？

FastGPT：与Laf的Star数量接近，它是一个基于LLM大模

米开朗基杨·2023-10-17 18:40

使用 FastGPT 和智能微秘书，打造你的超级微信助手！

特别是在GPT-3.5全面开放API接口后，基于语言模型（LLM）的各种应用如雨后春笋般涌现，显示了无限的可能性和创新。

米开朗基杨·2023-10-17 17:08

langchain到底该怎么使用，大家在项目中实践有成功的案例吗?

-知乎链接：https://www.zhihu.com/question/609483833/answer/31463793161、LangChain是什么LangChain是一个框架，用于开发由LLM

javastart·2023-10-17 14:14

LangChain与大型语言模型(LLMs)应用基础教程:神奇的Agent

原文：LangChain与大型语言模型(LLMs)应用基础教程:神奇的Agent-CSDN博客LangChain是大型语言模型(LLM)的应用框架,LangChain可以直接与OpenAI的text-davinci

javastart·2023-10-17 14:41

Reasoning with Language Model Prompting: A Survey

本文是LLM系列的文章，针对《ReasoningwithLanguageModelPrompting:ASurvey》的翻译。

UnknownBody·2023-10-17 13:05

Large Language Models Meet NL2Code: A Survey

本文是LLM系列文章，针对《LargeLanguageModelsMeetNL2Code:ASurvey》的翻译。

UnknownBody·2023-10-17 13:33

智能微秘书+FastGPT，打造你的超级微信助手！

特别是在GPT-3.5全面开放API接口后，基于语言模型（LLM）的各种应用如雨后春笋般涌现，显示了无限的可能性和创新。

Qiya_leo·2023-10-17 11:36

kaggle大模型竞赛优胜方案总结与思考

LLM的Reward模型该如何训练呢？

HxShine·2023-10-17 10:04

kaggle大模型竞赛优胜方案总结与思考

LLM的Reward模型该如何训练呢？

HxShine·2023-10-17 10:57

flask基础开发知识学习

之前做了一些LLM的demo，接口用flask写的，但是涉及到后端的一些业务就感觉逻辑写的很乱，代码变成屎山，于是借助官方文档和GPT迅速补了一些知识，总结一下一个很小的模板于是决定边学边重构之前的代码

临风而眠·2023-10-17 05:11

LLM-微调-全参数微调：Full-Param Fine-tuning（100% parameters）

fine-tuning的过程就是用训练好的参数（从已训练好的模型中获得）初始化自己的网络，然后用自己的数据接着训练，参数的调整方法与fromscratch训练过程一样（梯度下降）。对于初始化过程，我们可以称自己的网络为目标网络，训练好的模型对应网络为源网络，要求目标网络待初始化的层要与源网络的层相同（层的名字、类型以及层的设置参数等等均相同）。fine-tuning已经成为了使用DL网络的一个常用

u013250861·2023-10-17 03:16

【论文笔记】LLM-Augmenter

github：https://github.com/pengbaolin/LLM-Augmenter（暂无处readme外其他文件）paper：https://arxiv.org/pdf/2302.12813

夏离·2023-10-17 03:43

Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk

本文是LLM系列文章，针对《CanLanguageModelsMakeFun?ACaseStudyinChineseComicalCrosstalk》的翻译。语言模型能制造乐趣吗?

UnknownBody·2023-10-17 00:56

Evaluating Open-Domain Question Answering in the Era of Large Language Models

本文是LLM系列文章，针对《EvaluatingOpen-DomainQuestionAnsweringintheEraofLargeLanguageModels》的翻译。

UnknownBody·2023-10-17 00:56

Pruning Pre-trained Language Models Without Fine-Tuning

本文是LLM系列文章，针对《PruningPre-trainedLanguageModelsWithoutFine-Tuning》的翻译。

UnknownBody·2023-10-17 00:26

Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor

本文是LLM系列文章，针对《UnnaturalInstructions:TuningLanguageModelswith(Almost)NoHumanLabor》的翻译。

UnknownBody·2023-10-17 00:23

七个 LLM 的狼人杀之夜；马斯克的星链残骸会“砸死人”？OpenAI 安全漏洞曝光丨RTE开发者日报 Vol.66

开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（RealTimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。本期编辑：@Asui，@CY01有话题的新闻1、OpenAI安全漏洞曝光，使用不常见语言可轻易绕过

声网·2023-10-16 18:30

LLMs AWS Sagemaker JumpStart

现在您已经探讨了使用LLM构建应用程序的基础知识，我想向您展示一项名为AmazonSagemakerJumpStart的AWS服务，它可以帮助您快速进入生产并进行大规模操作。

AI架构师易筋·2023-10-16 08:22

利用大语言模型做多模态任务

作者：胡安文（人大在读多模态、NLP）大型语言模型LLM（LargeLanguageModel）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。

人工智能与算法学习·2023-10-16 07:49

基于GPT搭建私有知识库聊天机器人（二）环境安装

搭建私有知识库聊天机器人（三）向量数据训练基于GPT搭建私有知识库聊天机器人（四）问答实现1、需要安装的包pip3installflask//python开发web框架pip3installlangchain//LLM

夕阳也是醉了·2023-10-16 06:23

开源LLM微调训练指南：如何打造属于自己的LLM模型

一、介绍今天我们来聊一聊关于LLM的微调训练，LLM应该算是目前当之无愧的最有影响力的AI技术。尽管它只是一个语言模型，但它具备理解和生成人类语言的能力，非常厉害！

技术狂潮AI·2023-10-16 06:15

未来展望：大型语言模型与 SQL 数据库集成的前景与挑战

一、前言随着GPT-3、PaLM和Anthropic的Claude等大型语言模型(LLM)的出现引发了自然语言在人工智能领域的一场革命。这些模型可以理解复杂的语言、推理概念并生成连贯的文本。

技术狂潮AI·2023-10-16 06:44

Self-Instruct

本篇工作利用LLM的生成能力，来产生大量指令数据集（指令、输入、输出），无需人工标注数据。

transformer_WSZ·2023-10-16 05:24

解密Prompt系列3. 冻结LM微调Prompt: Prefix-Tuning & Prompt-Tuning & P-Tuning

这类模型的优势很直观就是微调的参数量小，能大幅降低LLM的微调参数量，是轻量级的微调替代品。

野生的狒狒·2023-10-16 01:42

prefix-tuning: optimizing continuous prompt for generation

论文链接：https://arxiv.org/pdf/2101.00190.pdf保持LLM不变，调整一小部分参数continuoustask-specificvector，即prefix。

onlyxinbaby·2023-10-16 01:42

【LLM微调范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation

论文标题：Prefix-Tuning:OptimizingContinuousPromptsforGeneration论文作者：XiangLisaLi,PercyLiang论文原文：https://arxiv.org/abs/2101.00190论文出处：ACL2021论文被引：1588（2023/10/14）论文代码：https://github.com/XiangLi1999/PrefixTu

datamonday·2023-10-16 01:12

mlc-llm 推理优化和大语言模型搭建解析

0x0.前言本文解析一下mlc-llm（https://github.com/mlc-ai/mlc-llm）对大模型推理的流程以及使用的图优化，算子优化策略。

just_sort·2023-10-16 00:59

Windows 中环境变量的查看与设置

接触了LLM应用开发后，经常要用到环境变量的设置（openAIapikey啥的）但是老忘记，今天来学习和总结一下主要用到以下几种：使用PowerShell、CMD和Python来查看和设置环境变量文章目录

临风而眠·2023-10-15 23:56

LLM Tech Map 大模型技术图谱

LLMTechMap大模型技术图谱从基础设施、大模型、Agent、AI编程、工具和平台，以及算力几个方面，为开发者整理了当前LLM中最为热门和硬核的技术领域以及相关的软件产品和开源项目。

rongyili88·2023-10-15 22:34

【大模型应用开发教程】01_大模型简介

C1大模型简介一.什么是LLM（大语言模型）？

Taylor_29511·2023-10-15 22:11

【LLM】浅谈 StreamingLLM中的attention sink和sink token

前言Softmax函数SoftMax(x)i=exiex1+∑j=2Nexj,x1≫xj,j∈2,…,N\text{SoftMax}(x)_i=\frac{e^{x_i}}{e^{x_1}+\sum_{j=2}^{N}e^{x_j}},\quadx_1\ggx_j,j\in2,\dots,NSoftMax(x)i=ex1+∑j=2Nexjexi,x1≫xj,j∈2,…,NSoftmax通常用于多类

余俊晖·2023-10-15 19:44

GPTQ 和 AWQ：LLM 量化方法的比较

大语言模型（LLM）在自然语言处理（NLP）任务中取得了显著的进展。然而，LLM通常具有非常大的模型大小和计算复杂度，这限制了它们在实际应用中的部署。

Archer阿茶·2023-10-15 18:06

abc324 d

includeusingnamespacestd;usingll=longlong;usingVI=vector;intn;strings;intct=0;intmain(){cin>>n>>s;sort(s.begin(),s.end());llm

stay fool·2023-10-15 16:42

基于 Amazon SageMaker 的大语言模型 / LLM 的微调和推理实践

本期视频，亚马逊云科技解决方案架构师GaoYu为我们带来有关“基于AmazonSageMaker的大语言模型/LLM的微调和推理实践”的精彩分享。

亚马逊云开发者·2023-10-15 15:50

语言模型编码中/英文句子格式详解

文章目录前言一、Bert的vocab.txt内容查看二、BERT模型转换方法(vocab.txt)三、vocab内容与模型转换对比四、中文编码总结前言最近一直在学习多模态大模型相关内容，特别是图像CV与语言LLM

tangjunjun-owen·2023-10-15 14:30

推荐频道

Python&LLM

CodePlan

大模型LLM相关面试题整理-位置编码-tokenizer-激活函数-layernorm

大模型LLM相关面试题整理-PEFT

大模型LLM相关面试题整理-训练集-训练经验-微调

大模型Agent最新论文及源码合集，覆盖构建、应用、评估

【LangChain系列文章】1. LangChain：一个可以让你变强大的开源框架

LLM大模型训练加速利器FlashAttention详解

FutureTOD: Teaching Future Knowledge to Pre-trained Language Model for Task-Oriented Dialogue

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference

ReAugKD: Retrieval-Augmented Knowledge Distillation For Pre-trained Language Models

A Close Look into the Calibration of Pre-trained Language Models

LLM 系列 | 21 : Code Llama实战(上篇) : 模型简介与评测

李航：关于大模型的思考及研究热点

盘点GPT-4，大语言模型最新综述来了

如何选择最适合你的LLM优化方法：全面微调、PEFT、提示工程和RAG对比分析

这三大爆款开源项目竟出自同一个20人的小公司？

使用 FastGPT 和智能微秘书，打造你的超级微信助手！

langchain到底该怎么使用，大家在项目中实践有成功的案例吗?

LangChain与大型语言模型(LLMs)应用基础教程:神奇的Agent

Reasoning with Language Model Prompting: A Survey

Large Language Models Meet NL2Code: A Survey

智能微秘书+FastGPT，打造你的超级微信助手！

kaggle大模型竞赛优胜方案总结与思考

kaggle大模型竞赛优胜方案总结与思考

flask基础开发知识学习

LLM-微调-全参数微调：Full-Param Fine-tuning（100% parameters）

【论文笔记】LLM-Augmenter

Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk

Evaluating Open-Domain Question Answering in the Era of Large Language Models

Pruning Pre-trained Language Models Without Fine-Tuning

Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor

七个 LLM 的狼人杀之夜；马斯克的星链残骸会“砸死人”？OpenAI 安全漏洞曝光丨RTE开发者日报 Vol.66

LLMs AWS Sagemaker JumpStart

利用大语言模型做多模态任务

基于GPT搭建私有知识库聊天机器人（二）环境安装

开源LLM微调训练指南：如何打造属于自己的LLM模型

未来展望：大型语言模型与 SQL 数据库集成的前景与挑战

Self-Instruct

解密Prompt系列3. 冻结LM微调Prompt: Prefix-Tuning & Prompt-Tuning & P-Tuning

prefix-tuning: optimizing continuous prompt for generation

【LLM微调范式1】Prefix-Tuning: Optimizing Continuous Prompts for Generation

mlc-llm 推理优化和大语言模型搭建解析

Windows 中环境变量的查看与设置

LLM Tech Map 大模型技术图谱

【大模型应用开发教程】01_大模型简介

【LLM】浅谈 StreamingLLM中的attention sink和sink token

GPTQ 和 AWQ：LLM 量化方法的比较

abc324 d

基于 Amazon SageMaker 的大语言模型 / LLM 的微调和推理实践

语言模型编码中/英文句子格式详解