transformer注意力第7页

[AI笔记]-LLM中的3种架构:Encoder-Only、Decoder-Only、Encoder-Decoder

在这种架构中，所有的注意力机制和网络层都集中在编码输入数据上，其输出通常是关于输入的复杂语义表示。谷歌的BERT、智谱AI发布的第四代基座大语言模型GLM4Decoder-Only也被称为

Micheal超·2025-07-02 23:29

CVPR2024无监督Unsupervised论文17篇速览

为了解决这一问题，我们提出了一种引导式槽注意力网络，以加强空间结构信息并获得更好的前景-背景分离。初始化时带有查询引导的前景和背景

木木阳·2025-07-02 23:28

SOTA是什么意思？

最近看到一篇关于Transformer模型的论文，谷歌推出的BERT模型在11项NLP（naturallanguageprocessing）任务中夺得SOTA结果，引爆了整个NLP界。

有奇妙能力吗·2025-07-02 21:45

AttnRNN：参数更少，却断档碾压LSTM/GRU的新RNN

新型注意力RNN（AttnRNN）在长序列任务中全面超越传统RNN模型在深度学习领域，循环神经网络（RNN）及其变体GRU和LSTM长期以来一直是处理序列数据的首选架构。

wq舞s·2025-07-02 19:26

AI人工智能领域深度学习的跨模态检索技术

AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。

AI学长带你学AI·2025-07-02 18:20

Dimba: Transformer-Mamba Diffusion Models————3 Methodology

图解图片中的每个模块详解1.文本输入(Text)描述：输入的文本描述了一个具有具体特征的场景。功能：提供关于要生成图像的详细信息。2.T5模型(TexttoFeature)描述：使用T5模型将文本转换为特征向量。功能：提取文本中的语义信息，为后续的图像生成提供条件。3.图像输入(Image)描述：输入图像通过变分自编码器(VAE)编码器处理。功能：将图像转换为潜在表示，用于添加噪声并进行扩散过程。

·2025-07-02 12:05

从零开始理解Transformer模型：架构与应用

引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。

淮橘√·2025-07-02 11:29

『大模型笔记』KV缓存：Transformer中的内存使用！

『大模型笔记』KV缓存：Transformer中的内存使用！文章目录一.KV缓存：Transformer中的内存使用！

AI大模型前沿研究·2025-07-02 05:46

大语言模型（LLM）笔记

LLM（LargeLanguageModel）是基于Transformer架构构建，并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。

笑衬人心。·2025-07-02 03:59

【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示

文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架

Wwwilling·2025-07-01 13:24

告别GPU焦虑：如何在纯CPU服务器上，打造高性能Embedding服务？

一开始，我们图方便，直接从HuggingFace上拉了当时效果最好的BAAI/bge-m3模型，用transformers库一把梭。结果呢？

ezl1fe·2025-07-01 10:02

创客匠人深度解析：创始人 IP 定位的认知革命与产品哲学

一、定位减法的认知科学本质“定位最核心的逻辑是做减法”的底层，是认知心理学中的“注意力稀缺”原理。当用户每天面临海量信息冲击时，唯有聚焦单一价值点才能突破记忆壁垒。某法律IP放弃“泛法

创小匠·2025-07-01 07:16

当前最好的0样本文本转语音是哪个模型？

MegaTTS3（字节跳动&浙江大学）‌‌核心优势‌：仅需‌3-10秒‌参考音频即可精准克隆音色，支持中英混合语音自然切换1112轻量化设计（0.45B参数），实时生成延迟低于400ms11采用‌DiffusionTransformer

skywalk8163·2025-07-01 05:00

YOLOv12 正式发布 | 检测效果超越YOLO11！！

Attention-CentricReal-TimeObjectDetectors代码地址：https://github.com/sunsmarterjie/yolov12提升YOLO框架的网络架构一直至关重要，尽管注意力机制在建模能力方面已被证明具有优越性

·2025-07-01 03:54

【LLaMA 3实战】2、LLaMA 3对话能力全解析：从架构革新到多智能体实战指南

这款拥有128K上下文窗口的开源模型，不仅在MT-Bench评测中超越GPT-3.5，更通过分组查询注意力(GQA)等架构创新，实现了推理速度30%的提升。

无心水·2025-06-30 18:14

DiNA：扩张邻域注意力 Transformer

摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。

AI专题精讲·2025-06-30 13:44

Java使用documents4j将word和excel转pdf

pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3&

药岩·2025-06-30 12:37

【LLaMA 3实战】6、LLaMA 3上下文学习指南：从少样本提示到企业级应用实战

LLaMA3的ICL架构通过以下机制实现突破：任务抽象：从示例中提取输入输出映射规则，如情感分析中的正负向判断模式模式泛化：将规则迁移到新输入，支持跨领域知识迁移动态适应：实时调整注意力分布

无心水·2025-06-30 12:03

DeepSeek：AI驱动的效率革命与实战案例解

一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复

weixin_45788582·2025-06-30 10:52

【嵌入式硬件实例】-555定时器实现警灯LED闪烁效果

闪烁的警灯设计为以不同的闪光率运行，通常在不同的颜色之间交替，最常见的是红色和蓝色，以吸引公众的注意力，并在视觉上传达紧迫感和谨慎性。闪烁的警灯是公认的权威和秩序的象征。当警灯闪烁时，

视觉与物联智能·2025-06-30 08:44

nlp遇到的问题

1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError

·2025-06-30 04:49

【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论

Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？

全栈追梦人·2025-06-29 23:21

番外篇 | SEAM-YOLO：引入SEAM系列注意力机制，提升遮挡小目标的检测性能

SEAM(Squeeze-and-ExcitationAttentionModule)系列注意力机制是一种高效的特征增强方法，特别适合处理遮挡和小目标检测问题。

小哥谈·2025-06-29 16:00

【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective

摘要近期，轻量级视觉Transformer（ViT）在资源受限的移动设备上表现出比轻量级卷积神经网络（CNN）更优异的性能和更低的延迟。

无敌悦悦王·2025-06-29 10:45

《三生原理》如何优化注意力机制？

AI辅助创作：《三生原理》通过融合《周易》哲学的数理模型，对注意力机制进行了多维度优化，主要体现在动态计算重构、位置编码革新与训练效率提升三方面，具体路径如下：‌一、动态筛网替代传统注意力计算‌‌三级筛网分层过滤‌‌初级筛网‌

·2025-06-29 07:53

使用vllm部署 Nanonets-OCR-s

一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35

没刮胡子·2025-06-28 23:20

LLaMA Factory 微调后，迁移模型

方法1：使用HuggingFaceHub（最推荐）fromtransformersimportAutoModelForCausalLM,AutoTokenizer#在源服务器上保存模型到Hubmodel.push_to_hub

激进小猪1002·2025-06-28 18:17

AI写作实战：从零开始撰写项目提案

我发现数千份项目提案中，有超过80%在开头几分钟就失去了读者的注意力。更残酷的是，决策者通常只会花60秒浏览你的提案，如果没有在这短暂时

SuperMale-zxq·2025-06-28 16:58

Transformer底层原理解析及基于pytorch的代码实现

1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。

LiRuiJie·2025-06-28 11:24

大模型笔记10：LoRA微调

Transformer中微调哪些参数：LoRA的改进版本

errorwarn·2025-06-28 09:41

大语言模型(LLM)量化基础知识(一)

随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer

-派神-·2025-06-27 23:42

基于Transformer实现机器翻译

目录一、前言1.1什么是Transformer?

yyyyurina.·2025-06-27 20:17

LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM

文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成：system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑

ctrl A_ctrl C_ctrl V·2025-06-27 17:57

用生活例子讲透Transformer，大模型为何强大

想象一下，你现在是个翻译员，手头有一本厚厚的英文书，要把它翻译成中文。这可不是个轻松活儿！以前的翻译方法（老派翻译官：RNNs）过去，我们的电脑（也就是老模型，比如RNNs）是这样翻译的：就像一个超级认真的翻译官，他会逐字逐句地读英文书。他读到一个英文词时，会琢磨这个词之前讲了什么，以及他到现在为止记住了多少内容，然后才决定怎么翻译。这种方法有两个大毛病：太慢，不能分工合作：就像一个翻译官，他必须

九章云极DataCanvas·2025-06-27 15:13

GRU与Transformer结合：新一代序列模型

GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。

AI大模型应用工坊·2025-06-27 11:48

⼤模型（LLMs）基础⾯

⽬前主流的开源LLM（语⾔模型）模型体系包括以下⼏个：1.GPT（GenerativePre-trainedTransformer）系列：由OpenAI发布的⼀系列基于Transformer架构的语⾔模型

cv2016_DL·2025-06-27 01:04

PD分离与EP分离技术

一、Prefill与Decode的底层原理剖析1.1Prefill阶段的数学本质（以Transformer架构为例）计算密集型的核心原因：#自注意力计算伪代码Q=X@W_Q#[batch,seq_len

静谧之心·2025-06-27 00:33

Java如何导出word(根据模板生成),通过word转成pdf,放压缩包

betaorg.apache.poipoi4.1.2org.apache.poipoi-ooxml4.1.2org.apache.poipoi-scratchpad4.1.2com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-wor

R-sz·2025-06-26 20:31

生成1个token，需要多少KV Cache开销？

Multi-HeadAttention)、MQA(Multi-QueryAttention)、GQA(Grouped-QueryAttention)和MLA(Multi-HeadLatentAttention)这4种注意力机制时

JasonLiu1919·2025-06-26 19:54

什么是注意力机制？注意力机制的核心组件（Query、 Key、 Value）

注意力机制注意力机制是深度学习中一种模仿人类视觉注意力机制的模型设计，它允许神经网络在处理输入信息时‌有选择地关注最重要的部分，而忽略次要信息。其核心思想是：‌不是所有输入信息都同等重要。

大模型本地部署_·2025-06-26 19:52

智能手机是人类的寄生物

智能手机寄生于我们的时间、注意力和个人信息，为科技公司及其广告商谋利。从演化和寄生的角度看，智能手机对社会构成了独一无二的风险。

CIb0la·2025-06-26 19:21

使用Hugging Face的Sentence Transformers进行文本嵌入

概述HuggingFace的SentenceTransformers是一种用于生成文本和图像嵌入的Python框架，提供了最新的技术。

2501_92325368·2025-06-26 11:34

媒体发稿软文：新闻稿撰写发布攻略

要求在第yi时间吸引读者注意力，激发其阅读兴趣。二、主要内容1.正文主体是对基本信息的进一步扩展和详述。可以采用多种方式展开，如按照事件发展的时间顺序或者按照逻辑顺序。2.在描

mycm0304·2025-06-26 05:21

Kaggle金牌方案复现：CGO-Transformer-GRU多模态融合预测实战

1背景分析在2023年Kaggle"GlobalMultimodalDemandForecastingChallenge"竞赛中，CGO-Transformer-GRU方案以领先第二名1.8个百分点的绝对优势夺冠

·2025-06-26 03:04

LSTM、GRU 与 Transformer网络模型参数计算

hidden_size+hidden_size²+hidden_size)4个门控结构GRU3×(embed_dim×hidden_size+hidden_size²+hidden_size)3个门控结构Transformer

suixinm·2025-06-26 00:44

注意力机制详解：从基础到CBAM模块—含代码

注意力机制详解：从基础到CBAM模块一、什么是注意力机制？

博导ai君·2025-06-25 23:42

多头注意力机制中全连接函数

在神经网络（特别是Transformer中的多头注意力机制）中，全连接函数（FullyConnectedLayer,FCLayer）通常指的是一个线性变换层，即nn.Linear在PyTorch中的实现

不知更鸟·2025-06-25 23:05

大语言模型全流程开发技术详解：从架构、训练到对齐与量化

github.com/mlabonne/llm-course大语言模型全流程开发技术详解：从架构、训练到对齐与量化大模型实战指南：多模型生态实战与论文解读一、LLM架构（TheLLMarchitecture）不需要对Transformer

艾墨舟启航·2025-06-25 20:46

预训练语言模型

1.1Encoder-onlyPLMEncoder-only架构是Transformer的重要分支，专注于自然语言理解（NLU）任务，核心代表是BERT及其优化模型（RoBERTa、ALBERT）。

lynnzon·2025-06-25 11:10

大模型学习（Datawhale_Happy-LLM）笔记4: 预训练语言模型

大模型学习（Datawhale_Happy-LLM）笔记4:预训练语言模型一、概述本章按Encoder-Only、Encoder-Decoder、Decoder-Only的顺序来依次介绍Transformer

lxltom·2025-06-25 11:09

推荐频道

transformer注意力