BUAA～冬之恋

GPT语言模型：通过生成式预训练改善语言理解 OpenAI 2018

论文链接：https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
代码链接：https://github.com/openai/finetune-transformer-lm
参考文档：https://mp.weixin.qq.com/s/VI5hvcZejJL9ftdDcgMZQA

导读

今天阅读的是 OpenAI 2018 年的论文《Improving Language Understanding by Generative Pre-Training》，截止目前共有 600 多引用。

在这篇论文中，作者提出了一种半监督学习方法——Generative Pre-Training（以下简称 GPT），GPT 采用无监督学习的 Pre-training 充分利用大量未标注的文本数据，利用监督学习的 Fine-tuning 来适配具体的具体的 NLP 任务（如机器翻译），并在 12 个 NLP 任务中刷新了 9 个记录。

1、引言

NLP 领域中只有小部分标注过的数据，而有大量的数据是未标注，如何只使用标注数据将会大大影响深度学习的性能，所以为了充分利用大量未标注的原始文本数据，需要利用无监督学习来从文本中提取特征，最经典的例子莫过于词嵌入技术。

但是词嵌入只能 word-level 级别的任务（同义词等），没法解决句子、句对级别的任务（翻译、推理等）。出现这种问题原因有两个：

首先，是因为不清楚下游任务，所以也就没法针对性的进行行优化；
其次，就算知道了下游任务，如果每次都要大改模型也会得不偿失。

为了解决以上问题，作者提出了 GPT 框架，用一种半监督学习的方法来完成语言理解任务，GPT 的训练过程分为两个阶段：Pre-training 和 Fine-tuning。目的是学习一种通用的 Representation 方法，针对不同种类的任务只需略作修改便能适应。

2、论文动机与创新点

现实世界中，无标签的文本语料库非常巨大，而带有标签的数据则显得十分匮乏，如何有效利用无标签的原始文本，对缓解自然语言处理相关任务对有监督学习方式的依赖显得至关重要。
有效的从无标签文本中利用超单词级信息有两个主要的难点：
①无法确定什么样的优化目标能学到最有效的文本表征，使之更好的用于迁移目的。
②对于学习到的文本表征，采用何种方式将其迁移到目标任务上，目前尚无共识。
论文中提出了半监督的方式来做语言理解，也就是无监督的pre-train，和有监督的fine-tune。该方法首先利用无监督的pre−train模型，学习到更加普遍、更适用的表征，然后模型以很小的微调迁移到众多特定的有监督学习任务上。在实验效果上，大幅超过了众多任务的state-of-art。不同于word Embedding、ELMo 以无监督的方式学习到一些特征，然后利用这些特征喂给一些特定的有监督模型，这里是先无监督的pre−train模型，然后直接fine-tune预训练后的模型，迁移到一些特定的有监督任务上。
ELMo方法中，训练基于LSTM的双向语言模型能结合上下文内容学习到语义更丰富的词表征，而本论文中预训练的语言模型中使用了transformer（Masked Multi-Head Attention，单向）结构，相对而言，transformer更加鲁棒，在长距离依赖上的效果更好，迁移效果也更好。
适用场景：无标签样本量（只有X）远大于有标签样本量的数据集（同时有X，y），如果只用这少量的带标签样本训练出的模型泛化能力肯定比较弱，这个时候我们可以先用无标签样本（也就是只用X）预训练好一个语言模型，然后在该语言模型基础上用少量带标签的样本（同时有X，y）进行fine-tune，有监督的训练。

3、GPT模型

GPT 训练过程分为两个阶段：第一个阶段是 Pre-training 阶段，主要利用大型语料库完成非监督学习；第二阶段是 Fine-tuning，针对特定任务在相应数据集中进行监督学习，通过 Fine-tuning 技术来适配具体任务。下图为 GPT 的架构图：

上图中，每一层的所有Trm属于一个自左向右的单向transformer，故在embedding输入和上一层的输出到下一层的输入时，都会做self attention操作，而这个self attention操作相当于当前位置cell会结合上一层所有位置的状态信息，这样就相当于双向连接了，因此需要乘以一个mask矩阵，用来屏蔽当前位置后面的位置的隐藏层状态信息。这是transformer decoder的一个关键。可看代码：

def mask_attn_weights(w):
    n = shape_list(w)[-1]
    b = tf.matrix_band_part(tf.ones([n, n]), -1, 0)## 下三角
    b = tf.reshape(b, [1, 1, n, n])
    w = w*b + -1e9*(1-b)
    return w

如果不做这样的一个屏蔽操作，那么就变成双向的了。

分两步走，第一步：利用海量无标签的样本集预训练一个语言模型；第二步：利用预训练后的模型通过fine-tuning迁移到有监督的任务上。

3.1、Pre-train

从上图我们可以看出，GPT 采用 Transformer 来代替 LSTM 作为特征提取器，并基于语言模型进行训练。这里只使用了 Transformer 的 Decoder 部分，并且每个子层只有一个 Masked Multi Self-Attention（768 维向量和 12 个 Attention Head）和一个 Feed Forward，共叠加使用了 12 层的 Decoder。

这里简单解释下为什么只用 Decoder 部分：语言模型是利用上文预测下一个单词的，因为 Decoder 使用了 Masked Multi Self-Attention 屏蔽了单词的后面内容，所以 Decoder 是现成的语言模型。又因为没有使用 Encoder，所以也就不需要 encoder-decoder attention 了。

对于给定的非监督语料库的 Token 序列，基于语言模型的目标函数： $max\space L_1(U)=\sum_i\log P(u_i|u_{i-k},\cdots,u_{i-1};\Theta)$ 其中， $k$ 是上下文窗口的大小， $P$ 为条件概率， $\Theta$ 为条件概率的参数，参数更新采用 SGD。

GPT 输入文本和位置 Embedding（采用使用 one-hot 编码），经过 12 层的 Transformer 的 Decoder 后通过 Softmax 得到输出： $h_0=UW_e+W_p$ $h_l=transformer\_block(h_{l-1})\space\forall l\in[1,n]$ $P(u)=softmax(h_nW_e^T)$ 其中， $U=\{u_{-k},\cdots,u_{-1}\}$ 是当前单词的前面 $k$ 个 Token， $n$ 为神经网络的层数， $W_e$ 是 Token 的 Embedding 矩阵， $W_p$ 是位置编码的 Embedding 矩阵。

3.2、Fine-tuning

完成预训练后，我们会得到一个训练好的 Transformer 模型，接下来我们要用这个训练好的模型来完成特定的监督学习的任务。

假设我们有个带标签的数据集 $C$ ，即每一个 Token 序列 $x^1,x^2,\cdots,x^m$ 都有一个标签 $y$ 。我们将 Token 序列输入，并通过 Transformer 模型得到输出的状态，然后将这个加到线性层进行输出并预测标签 y： $P(y|x^1,x^2,\cdots,x^m)=softmax(h_l^mW_y)$ 其中， $W_y$ 是线性层的权重。

所以针对该监督学习，我们也有新的目标函数： $L_2(C)=\sum_{(x,y)}\log P(y|x^1,\cdots,x^m)$ 另外，将预训练好的语言模型作为辅助目标进行 Fine-tuning 不仅可以使监督模型更具泛化性，还可以加速收敛。于是我们有： $L_3(C)=L_2(C)+\lambda L_1(C)$ 其中， $\lambda$ 为权重。

3.3、Task-specific input transformations

对于某些任务如文本分类等 word-level 的任务，我们可以像上述描述的方式来 Fine-tuning 模型；但是有些任务如问题回答等句子、句子对等结构化输入的任务需要稍作修改才能应用。

针对这种情况，作者提出了一种遍历式的方法（traversal-style），将结构化输入转换成预训练模型可以处理得到有序序列。

对输入转换避免了兼容不同任务，防止对模型进行大量更改，所有的转换包括添加随机初始化的开始标记（ $< s >$ ）和结束标记( $< e >$ )。下图提供了一个可视化说明：

上图是对不同任务进行微调的输入转换。将所有的结构化输入转换为 Token 序列，然后使用预训练模型（Transformer）进行处理，最后使用线性和 Softmax 层完成特定的监督学习任务。

对于文本蕴涵（Text Entailment）来说，作者将前提 p 和假设 h 令牌序列连接起来，并使用分隔符（$）分开。

文本蕴含是指两个文本片段有指向关系。当认为一个文本片段真实时，可以推断出另一个文本片断的真实性。也就是说一个文本片段蕴涵了另一个文本片段的知识，可以分别称蕴涵的文本为前提，被蕴涵的文本为假设。

对于句子相似（Similarity）来说，为了消除两个句子之间的内在的顺序，作者以不同顺序合并了两个句子并以分隔符进行分割，然后独立地处理每一种顺序并得到两个句子的表征，对两个句子进行元素求和后送给 Linear 层。

对于问答和常识推理（Question Answering and Commonsense Reasoning）来说，有上下文文档 $z$ 、问题 $q$ 和可能答案的集合 ${a_k\}$ ，作者将上下文和问题与每个可能的答案连接起来并在中间添加分隔符令牌$[z;q;$;a_k]$ 。每个序列都将由模型独立处理，然后通过 Linear 层和 Softmax 层，从而在可能的答案上产生一个输出分布。

4、实验

下图展示了推理任务的实验结果：

下图展示了问题回答和常识推理的实验结果：

下图展示了语义相似度和分类的实验结果：

下图左边展示的预训练语言模型中 Transformer 层数对结果的影响；右图展示了预训练不用 Fine-tuning 而直接使用预训练网络来解决多种类型任务的结果，横坐标为更新次数，纵坐标为模型相对表现：

5、关键代码分析

def clf(x, ny, w_init=tf.random_normal_initializer(stddev=0.02), b_init=tf.constant_initializer(0), train=False): with tf.variable_scope('clf'): nx = shape_list(x)[-1] w = tf.get_variable("w", [nx, ny], initializer=w_init) b = tf.get_variable("b", [ny], initializer=b_init) return tf.matmul(x, w)+b def model(X, M, Y, train=False, reuse=False): with tf.variable_scope('model', reuse=reuse): we = tf.get_variable("we", [n_vocab+n_special+n_ctx, n_embd], initializer=tf.random_normal_initializer(stddev=0.02)) we = dropout(we, embd_pdrop, train) X = tf.reshape(X, [-1, n_ctx, 2]) M = tf.reshape(M, [-1, n_ctx]) h = embed(X, we) for layer in range(n_layer): h = block(h, 'h%d'%layer, train=train, scale=True) lm_h = tf.reshape(h[:, :-1], [-1, n_embd]) ##得到最后一个block的输出，也就是上面所说的$h_l^m$ lm_logits = tf.matmul(lm_h, we, transpose_b=True) lm_losses = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=lm_logits, labels=tf.reshape(X[:, 1:, 0], [-1])) ## 注意看预训练的语言模型的label只是将x向后移了一步 lm_losses = tf.reshape(lm_losses, [shape_list(X)[0], shape_list(X)[1]-1]) lm_losses = tf.reduce_sum(lm_losses*M[:, 1:], 1)/tf.reduce_sum(M[:, 1:], 1) ## 得到预训练模型的损失函数 clf_h = tf.reshape(h, [-1, n_embd]) // h 为transformer中最后一个block的输出 pool_idx = tf.cast(tf.argmax(tf.cast(tf.equal(X[:, :, 0], clf_token), tf.float32), 1), tf.int32) clf_h = tf.gather(clf_h, tf.range(shape_list(X)[0], dtype=tf.int32)*n_ctx+pool_idx) clf_h = tf.reshape(clf_h, [-1, 2, n_embd]) if train and clf_pdrop > 0: shape = shape_list(clf_h) shape[1] = 1 clf_h = tf.nn.dropout(clf_h, 1-clf_pdrop, shape) clf_h = tf.reshape(clf_h, [-1, n_embd]) clf_logits = clf(clf_h, 1, train=train) ## 执行上面公式中$softmax(h_l^m *W_y)$ clf_logits = tf.reshape(clf_logits, [-1, 2]) clf_losses = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=clf_logits, labels=Y) ## 得到监督学习的损失函数 return clf_logits, clf_losses, lm_losses

最终的loss函数为：

train_loss = tf.reduce_mean(clf_losses) + lm_coef*tf.reduce_mean(lm_losses)

6、结论

GPT 是一种半监督学习，采用两阶段任务模型，通过使用无监督的 Pre-training 和有监督的 Fine-tuning 来实现强大的自然语言理解。在 Pre-training 中采用了 12 层的修改过的 Transformer Decoder 结构，在 Fine-tuning 中会根据不同任务提出不同的微调方式，从而达到适配各类 NLP 任务的目的。

GPT 与 ELMo 有很多相似的地方，比如说都采用了预训练的方式，但是 ELMo 是针对某一任务定制了一个架构，而 GPT 的目的在于适配多种任务；此外 ELMo 使用了 2 层的双向的 LSTM 结构而 GPT 使用了 12 层单向的 Transformer Dncoder 结构，更大的深度也加强了模型的学习能力（ELMo 不是不想用更深的，而是再深的话就学不动了）。

【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》柠石榴 text2sql 论文论文阅读笔记语言模型
文章目录一、论文基本信息1.文章标题2.所属刊物/会议3.发表年份4.作者列表5.发表单位二、摘要三、解决问题四、创新点五、自己的见解和感想六、研究背景七、研究方法模型实验数据评估指标八、总结九、相关重要文献一、论文基本信息1.文章标题CodeS:TowardsBuildingOpen-sourceLanguageModelsforText-to-SQL2.所属刊物/会议未明确标注（会议缩写为“C
【论文阅读笔记】HaDes幻觉检测benchmark zsq 论文分享论文阅读笔记 NLP 大语言模型幻觉
0论文信息题目：AToken-levelReference-freeHallucinationDetectionBenchmarkforFree-formTextGeneration作者：TianyuLiu,YizheZhang,ChrisBrockett,YiMao,ZhifangSui,WeizhuChen,BillDolan会议：ACL，2022链接：https://arxiv.org/ab
论文阅读笔记—— Multi-attentional Deepfake Detection jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录Multi-attentionalDeepfakeDetection背景创新贡献方法注意图正则化的区域独立性损失注意力引导的数据增强实验Multi-attentionalDeepfakeDetection来源：CVPR2021作者：HanqingZhao1WenboZhou1,†DongdongChen2TianyiWei1WeimingZhang1,†NenghaiYu1单位：Unive
[论文阅读笔记] Learning Transferable Visual Models From Natural Language Supervision Heartache Doctor 笔记论文阅读笔记
Abstract将LLM带来的语言zero-shot能力扩展到图像领域，让图像pretrain不再局限于由数据集定义的类别，从而大幅度提升在downstream任务zero-shot的精度。文章提供了从零预训练的CLIP模型，用以训练的大数据集，以及基于对比学习的对齐方案。IntroductionNLP领域下，使用大量数据pretrain>使用高质量标注数据集。→\rightarrow→CV是否也
GLIDE论文阅读笔记与DDPM（Diffusion model）的原理推导大写-凌祁论文阅读笔记人工智能深度学习 python 机器学习计算机视觉
Abstract扩散模型（Diffusionmodel）最近被证明可以生成高质量的合成图像，尤其是当它们与某种引导技术结合使用时，可以在生成结果的多样性与保真度之间进行权衡。本文探讨了在文本条件图像生成任务中使用扩散模型，并比较了两种不同的引导策略：CLIP引导和无分类器引导。我们发现，人类评估者更倾向于使用无分类器引导方法，无论是在照片真实感还是与文本描述的匹配度方面，该方法通常都能生成具有高度
论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELING 寻丶幽风 Background 论文阅读笔记流匹配扩散模型人工智能
FlowMatching论文扩散模型：根据中心极限定理，对原始图像不断加高斯噪声，最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布，形成离散的马尔科夫链。再通过逐步去噪得到原始图像。Flowmatching采取直接将已知分布（如白噪声）转换为真实数据分布来生成数据，并且Flow是基于NormalizingFlow，故而是可微双射。生成过程中变化的概率密度构成一个集合，称为概
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing 寻丶幽风论文阅读笔记论文阅读笔记理解生成模型多模态人工智能
Step1X-Edit论文当前图像编辑数据集规模小，质量差，由此构建了如下数据构造管线。高质量三元组数据（源图像、编辑指令、目标图像）。主体添加与移除：使用Florence-2对专有数据集标注，然后使用SAM2进行分割，再使用ObjectRemovalAlpha进行修复。编辑指令结合Step-1o和GPT-4o生成，然后人工审查有效性。主体替换与背景更改：使用Florence-2对专有数据集标注，
论文阅读笔记——Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing 寻丶幽风论文阅读笔记论文阅读笔记多模态理解生成自回归扩散模型
Nexus-Gen论文Nexus-Gen采用预测图像嵌入作为中间条件，链接自回归模型和扩散模型，通过预填充自回归避免嵌入误差传播，突破传统外界LLM因条件压缩导致信息丢失，提高理解生成模型在理解任务和生成任务上的性能表现。传统的图像生成任务往往局限于Text-to-Image场景，模型侧重于图像质量或局部内容填充。而Nexus-Gen的架构设计突破了这一范式，不仅具备高质量图像生成能力，还可以执行
论文阅读笔记——PixArt-α，PixArt-δ 寻丶幽风论文阅读笔记论文阅读笔记 T2I 扩散模型文生图
PixArt-αPixArt-α论文仅使用28400美元，28M训练数据，训练时长为SD1.5的10.8%，只有0.6B参数量，达到接近商业应用的水准。现有数据集存在的缺陷：图文匹配偏差、描述信息不完整、词汇多样性不足（长尾效应显著）、低质量数据。为了实现低成本训练，华为采用了三阶段的训练策略：第一个阶段是学习像素依赖关系，简单来说是先学习生成真实的图像，这里是用ImageNet数据集训练一个基于
《XMK-CKKS: Extended Multiple Key Homomorphic Encryption over CKKS》论文阅读笔记 stupidyccc 同态加密论文阅读笔记安全
《XMK-CKKS:ExtendedMultipleKeyHomomorphicEncryptionoverCKKS》中科院2区总结提出了xMK-CKKS,一种多密钥同态方案。客户端使用聚合公钥加密梯度，解密的时候需要所有客户端提供解密份额，协助服务器解密总和。基于FadAvg和XMK-CKKS提出一个ppfl模型。在半诚实模型下可以防止n-1个客户端和服务器的勾结。xMK-CKKS###setu
Adversarial examples based on object detection tasks: A survey》论文阅读笔记 2301_80355452 目标检测论文阅读笔记
这是一篇关于目标检测任务中对抗样本攻击的综述论文。文章介绍了深度学习在计算机中的应用，以及对抗样本攻击的相关概念和方法，其中重点讨论了目标检测任务中基于分类和回归的对抗样本攻击，并对其他相关攻击方法进行了总结，最后得出结论并展望未来研究方向。1.引言深度学习背景：深度学习在处理图像或视频数据方面具有优势，广泛应用于计算机视觉任务，但由于深度网络的复杂结构，其存在脆弱性，容易受到攻击。目标检测任务：
论文阅读笔记—— AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-d L jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录AdvFilter:PredictivePerturbation-awareFilteringagainstAdversarialAttackviaMulti-domainLearning背景贡献相关工作对抗性去噪防御对抗性训练防御其他对抗性防御方法一般图像去噪创新公式方法多域学习实验AdvFilter:PredictivePerturbation-awareFilteringagains
【论文阅读笔记】Attention Is All You Need 时光机ﾟ论文阅读笔记
论文小结这是17年的老论文了，Transformer的出处，刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。在此论文之前，序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构，是完全基于注意力机制的模型。Transformer在序列转换上具有高并行度，在两个机器翻译的任务上都得到了卓越的成果，且其训练
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
深度学习重要论文阅读笔记 ResNet （2025.2.26）北岛寒沫逐界星辰2025 计算机科研深度学习论文阅读笔记
文章目录问题背景数据预处理神经网络模型模型性能知识点积累英语单词积累问题背景随着神经网络变得更深（层数变多），模型的训练过程也会变得更加困难。当神经网络的深度增加，就会出现梯度消失和梯度下降现象，妨碍模型的收敛。不过，这种情况可以通过归一化的模型初始化和中间的归一化层基本解决。但是，尽管在增加了归一化技术的情况下很深的神经网络可以收敛，又出现了另外一个问题，即随着模型深度的增加，模型的准确率反而下
论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
【CCM-SLAM论文阅读笔记】随机取名字协同SLAM论文阅读 slam
CCM-SLAM论文阅读笔记整体框架结构如图所示：单智能体只负责采集图像数据，运行实时视觉里程计VO以估计当前位姿和环境地图，由于单智能体计算资源有限，负责生成的局部地图只包含当前N个最近的关键帧。服务器负责地图管理、地点识别、地图融合和全局BA优化。所有局部地图使用本地里程计框架，地图信息在从一个本地里程计到另一个本地里程计框架的相对坐标中进行交换。CCM-SLAM不假设任何关于智能体初始位置的
【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext Rose sait 论文阅读笔记
论文题目：DemoSG:Demonstration-enhancedSchema-guidedGenerationforLow-resourceEventExtraction论文来源：EMNLP2023论文链接：2023.findings-emnlp.121.pdf(aclanthology.org)代码链接：https://github.com/GangZhao98/DemoSG0摘要当前大多数
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

GPT语言模型：通过生成式预训练改善语言理解 OpenAI 2018

导读

1、引言

2、论文动机与创新点

3、GPT模型

3.1、Pre-train

3.2、Fine-tuning

3.3、Task-specific input transformations

4、实验

5、关键代码分析

6、结论

你可能感兴趣的:(论文阅读笔记)