你的名字5686

基于深度学习的自然语言处理——神经网络训练

基于深度学习的自然语言处理——神经网络训练

神经网络训练

计算图

计算图的概念
前向计算
反向计算
软件实现
实现流程
网络构成

实践经验

优化算法选择
初始化
重启与集成
梯度消失与梯度爆炸
饱和神经元与死亡神经元
随机打乱
学习率
minibatch

参考文献

神经网络训练

神经网络也是可微分的参数化函数，常用的训练方法就是基于梯度的优化方法。

计算图

计算图的概念

计算图是任意数学表达式的一种图表达结构
计算图是一个有向无环图，其中结点对应数学变量或运算，边对应节点间的计算流。
示例： $\left( {a * b + 1} \right) * \left( {a * b + 2} \right)$
神经网络也可以表示为计算图的形式

前向计算

前向计算就是计算图中每个节点的输出，
假设 $f_i$ 为结点 $i$ 的计算函数， $\pi\left(i\right)$ 为结点 $i$ 的父节点， $\pi^{-1}\left(i\right)$ 为结点 $i$ 的子节点， $v_i\left(i\right)$ 为结点 $i$ 的输出，则前向计算可以表示为：

for $i = 1$ to $N$ do
令 $a_1,...,a_m=\pi^{-1}\left(i\right)$
$v\left( i \right) \leftarrow {f_i}\left( {v\left( {{a_1}} \right), \cdots ,v\left( {{a_m}} \right)} \right)$

反向计算

反向传播过程开始于损失结点 $N$ ，向前传播，指定 $d\left(i\right)$ 为 $\frac{{\partial N}}{{\partial i}}$ ，可以表示为：

$d\left( N \right) \leftarrow 1$ $(\frac{{\partial N}}{{\partial N}} = 1)$
for $i = N - 1$ to $1$ do
$d\left( i \right) \leftarrow \sum\nolimits_{j \in \pi \left( i \right)} {d\left( j \right) \cdot \frac{{\partial {f_j}}}{{\partial i}}}$ ${\frac{{\partial N}}{{\partial i}} = \sum\limits_{j \in \pi \left( i \right)} {\frac{{\partial N}}{{\partial j}}\frac{{\partial j}}{{\partial i}}} })$

软件实现

在Python中使用DyNet架构创建图

import dynet as dy

#模型初始化
model=dy.Model()
mW1=model.add_parameters((20,150))   #向模型添加权重参数
mb1=model.add_parameters(20)
mW2=model.add_parameters((17,20))
mb2=model.add_parameters(17)
lookup=model.add_lookup_parameters((100,50))   #向模型添加查找参数
trainer=dy.SimpleSGDTrainer(model)   #定义训练器

def get_index(x):
    pass 
#将词映射为索引值

#构建图结构并执行
#更新模型参数
#只显示一个数据点，实践中应该运行一个数据填充循环

#建立计算图
dy.renew_cg()  #创建一个新图
#将模型参数创建
W1=dy.parameter(mW1)
b1=dy.parameter(mb1)
W2=dy.parameter(mW2)
b2=dy.parameter(mb2)

#生成embeddings层
vthe=dy.lookup[get_index("the")]
vblack=dy.lookup[get_index("black")]
vdog=dy.lookup[get_index("dog")]

#将叶子结点连接成完整的图
x=dy.concatenate([vthe,vblack,vdog])
output=dy.softmax(W2*(dy.tanh(W1*x+b1))+b2)
loss=-dy.log(dy.pick(output,5))
loss_value=loss.forward()
loss.backward()   #计算参数并存储
trainer.update()   #通过梯度进行参数更新

在Python中通过Tensorflow实现

#TensorFlow

import tensorflow as tf

W1=tf.get_variable("W1",[20,150])
b1=tf.get_variable("b1",[20])
W2=tf.get_variable("W2",[17,20])
b2=tf.get_variable("b2",[17])

def get_index(x):
    pass

p1=tf.placeholder(tf.int32,[])
p2=tf.placeholder(tf.int32,[])
p3=tf.placeholder(tf.int32,[])
target=tf.placeholder(tf.int32,[])

v_w1=tf.nn.embedding_lookup(lookup,p1)
v_w2=tf.nn.embedding_lookup(lookup,p2)
v_w3=tf.nn.embedding_lookup(lookup,p3)

x=tf.concat([v_w1,v_w2.v_w3],0)
output=tf.nn.softmax(tf.einsum("ij,j->i",W2,tf.tanh(tf.einsum("ij,j->i",W1,x)+b1))+b2)
loss=-tf.log(output[target])
trainer=tf.train.GradientDescentOptimizer(0.1).minimize(losss)

#完成图的初始化工作，编译并赋予具体数据
#只显示一个数据点，实践中我们将使用一个数据输入环
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    feed_dict={
        p1:get_index("the"),
        p2:get_index("black"),
        p3:get_index("dog"),
        
        target:5
    }
    loss_value=sess.run(loss,feed_dict)
    sess.run(trainer,feed_dict)

两者的区别
- DyNet使用动态图结构，为每个训练样本创建不同的计算图进行前传和反传
- TensorFlow使用静态图结构，每一个训练样本都输入到同一张图中。

实现流程

具有计算图概念的神经网络训练

for iteration=1 to T do
     for 数据集中训练样本(x_i,y_i) do
     	loss_node<-build_computation_graph(x_i,y_i,parameters)   #用户自定义函数，给定输入、输出和网络结构可自动生成计算图
     	loss_node.forward()
     	gradients<-loss_node().backward()
     	parameters<-update_parameters(parameters,gradients)  #优化器特定更新规则
return parameters

网络构成

实践经验

优化算法选择

虽然SGD算法效果很好，但是收敛速度慢，在训练大型网络时Adam算法非常有效。

初始化

xavier初始化（针对 $t a n h$ 函数）
建议权重矩阵 $W$ 以如下公式初始化：
$\sim U\left[ { - \frac{{\sqrt 6 }}{{\sqrt {{d_{in}} + {d_{out}}} }}, + \frac{{\sqrt 6 }}{{\sqrt {{d_{in}} + {d_{out}}} }}} \right]$
其中 $U\left[ {a,b} \right]$ 是范围 $\left[ {a,b} \right]$ 的一个均值采样。
针对 $R e L U$ 函数
从均值为 $0$ ，方差为 $\sqrt {\frac{2}{{{d_{in}}}}}$ 的高斯分布采样进行权重初始化。

重启与集成

随即重启：多次进行训练过程，每次都进行随机初始化，并选择最好的一个。
模式集成：一旦有了多个模型，可以根据模型的集成进行预测。

梯度消失与梯度爆炸

梯度消失（非常接近0）
- 网络变浅
- 逐步训练
- batch-normalization方法
- 使用特定结构帮助梯度流动
梯度爆炸（变得非常高）
- 如果范数大于阈值，就剪掉
  $\hat g$ 表示网络中所有参数的梯度， $\left\| {\hat g} \right\|$ 为其 $L_2$ 范数，如果 $\left\| {\hat g} \right\|>threshold$ ，则令 $\hat g$ 为 $\frac{{threshold}}{{\left\| {\hat g} \right\|}}$ 。

饱和神经元与死亡神经元

饱和神经元
- 特点
  - 造成该层的输出都接近于 $1$
  - 带有 $t a n h$ 和 $s i g m o i d$ 激活函数的网络层往往容易饱和
  - 饱和神经元具有很小的梯度
- 起因
  - 由值太大的输入层造成
- 处理
  - 更改初始化
  - 缩放输入值范围
  - 改变学习速率
  - 归一激活函数后的饱和值：如使用 $g\left( h \right) = \frac{{\tanh \left( h \right)}}{{\left\| {\tanh \left( h \right)} \right\|}}$
  - batch normalization：对每一层激活函数后的值均进行归一化，每个mini-batch中均值为 $0$ ，方差为 $1$ 。
死亡神经元
- 特点
  - 大部分甚至所有的值都为负值
  - 带有 $R e L U$ 激活函数的网络不会饱和，但会死掉
  - 该层梯度全为 $0$
- 起因
  - 由进入网络的负值引起
- 处理
  - 减少学习速率

随机打乱

网络读入训练样本的顺序是很重要的。

学习率

实验应该从 $\left[ {0,1} \right]$ 内尝试初始学习率，观察网络 $l o s s$ 值，一旦 $l o s s$ 值停止改进则降低学习率。

建议使用 ${\eta _t} = {\eta _0}{\left( {1 + {\eta _0}\lambda t} \right)^{ - 1}}$ 作为学习率的表达式， $\eta_0$ 为初始学习率， $\eta_t$ 为第 $t$ 个训练样例的学习率， $\lambda$ 为超参。

minibatch

在每训练 $1$ 个训练样例( $m i n i b a t c h = 1$ )或 $k$ 个训练样例( $m i n i b a t c h = k$ )后更新参数。
大的 $m i n i b a t c h$ 对训练是有益的。

参考文献

《基于深度学习的自然语言处理》

你可能感兴趣的:(自然语言处理)

AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
30 秒生成旅行计划！AI 代理帮你规划完美行程
在快节奏的现代生活中，高效规划旅行成为大众需求，AI代理凭借技术优势，实现30秒生成旅行计划。本文从技术原理、场景适配、优势亮点、潜在问题及未来趋势五个方面，解析AI代理规划行程的运作机制、适用场景、核心优势，探讨面临的挑战与发展方向，为读者呈现这一便捷工具的全貌，助其了解如何借助AI让旅行规划更轻松。正文一、技术原理：AI代理高效规划的核心支撑AI代理能快速生成旅行计划，背后是自然语言处理技术的
使用中转API在Python中调用大型语言模型 (LLM) 的实践** qq_37836323 python 语言模型开发语言
**在人工智能技术中，大型语言模型(LLM)已成为自然语言处理(NLP)和生成任务的重要工具。然而，由于网络限制，直接访问OpenAI的API在中国可能面临挑战。因此，本文将介绍如何使用中转API地址http://api.wlai.vip来调用LLM，并提供相关的demo代码。什么是大型语言模型(LLM)？大型语言模型是一种深度学习模型，训练于大量文本数据上，能够生成、总结、翻译和回答问题等。Op
使用中转API调用OpenAI大模型的指南
引言近年来，人工智能（AI）技术的飞速发展使得各种大模型（如GPT-4）在自然语言处理领域表现出色。然而，中国用户访问OpenAI的API时经常会遇到网络限制问题。本文将介绍如何通过中转API地址（http://api.wlai.vip）调用OpenAI的大模型，并提供示例代码以供参考。使用中转API调用OpenAI大模型步骤一：安装所需的Python库首先，确保你已安装了openai库。可以通过
《揭秘AI应用架构师在智能虚拟人设计系统中的创新思维》 SuperAGI架构师的AI实验室人工智能 ai
揭秘AI应用架构师在智能虚拟人设计系统中的创新思维关键词：AI应用架构师、智能虚拟人、系统设计、创新思维、自然语言处理、计算机视觉、实时交互摘要：智能虚拟人已从科幻走进现实，无论是直播间的虚拟主播、手机里的智能助手，还是元宇宙中的数字分身，它们背后都离不开AI应用架构师的“隐形设计”。本文将以“总设计师视角”，用生活化的比喻和实例，拆解AI应用架构师在智能虚拟人系统设计中的创新思维——从“让虚拟人
AIGC 领域 AI 写作在电商文案中的应用技巧 SuperAGI架构师的AI实验室 AI大模型应用开发宝典 AIGC 人工智能 easyui ai
AIGC领域AI写作在电商文案中的应用技巧关键词：AIGC、AI写作、电商文案、内容生成、自然语言处理、营销自动化、个性化推荐摘要：本文深入探讨了AIGC（人工智能生成内容）技术在电商文案创作中的应用技巧。文章首先介绍了AIGC的基本概念和发展现状，然后详细分析了AI写作在电商领域的核心应用场景和技术原理。通过具体的算法解析、数学模型和实际案例，展示了如何利用AI技术提升电商文案的创作效率和质量。
Rouge：面向摘要自动评估的召回导向型指标——原理、演进与应用全景大千AI助手深度学习人工智能神经网络 Rouge 文本摘要 Summary 评估
“以n-gram重叠量化文本生成质量，为摘要评估提供可计算标尺”Rouge（Recall-OrientedUnderstudyforGistingEvaluation）是由南加州大学信息科学研究所（ISI）的Chin-YewLin于2004年提出的自动文本摘要评估指标，其核心思想是通过计算生成文本与参考摘要之间的n-gram重叠率，量化摘要的内容覆盖度与忠实度。作为自然语言处理（NLP）领域最权威
Python金融分析：情感分析在量化价值投资中的完整实现 AI量化价值投资入门到精通 python 金融开发语言 ai
Python金融分析：情感分析在量化价值投资中的完整实现关键词：Python金融分析、情感分析、量化投资、价值投资、自然语言处理、机器学习、金融文本挖掘摘要：本文系统解析如何将情感分析技术深度整合到量化价值投资体系中，通过Python实现从金融文本数据采集、预处理、情感建模到策略回测的完整流程。详细阐述基于规则引擎、机器学习和深度学习的多维度情感分析方法，结合财务指标构建复合投资模型，并通过实战案
Rufus算法驱动转化革命：亚马逊卖家的低成本流量破局之道
在亚马逊精细化运营的下半场，流量竞争从“烧钱买量”转向“技术借势”，随着平台内部AI算法Rufus的深度应用，其衍生的“超级转化标签”正成为卖家提升转化率的秘密武器，这项由AI驱动的功能不仅重构了消费者决策路径，更以“零广告成本”的优势，为卖家开辟了一条弯道超车的新赛道。Rufus算法解码：AI如何重塑消费决策路径（一）超级转化标签的技术内核Rufus算法的核心是“评论智能提炼”，通过自然语言处理
打造专属知识库：手把手教你构建RAG系统
RAG通常指的是"Retrieval-AugmentedGeneration"，即“检索增强的生成”。这是一种结合了检索（Retrieval）和生成（Generation）的机器学习模型，通常用于自然语言处理任务，如文本生成、问答系统等。我们通过一下几个步骤来完成一个基于京东云官网文档的RAG系统数据收集建立知识库向量检索提示词与模型数据收集数据的收集再整个RAG实施过程中无疑是最耗人工的，涉及到
大模型微调：从零到实践，掌握AI大模型的核心技能之之为知知 12 大模型人工智能机器学习特征工程 pytorch 深度学习大模型微调
大模型微调：从零到实践，掌握AI大模型的核心技能引言大规模语言模型（如DeepSeek、通义千问）的出现，彻底改变了自然语言处理的格局。这些模型不仅在学术界取得了突破性进展，在工业界也得到了广泛应用。对于许多初学者来说，直接训练一个完整的大型语言模型可能显得遥不可及。幸运的是，微调（Fine-tuning）技术为我们提供了一条捷径，让我们可以基于已有的预训练模型，针对特定任务进行调整，从而快速实现
百度文心大模型ERNIE全面解析 KENYCHEN奉孝 python实践大全 AI ERNIE 人工智能后端文心大模型 python
百度文心大模型ERNIE概述百度推出的文心大模型（ERNIE，EnhancedRepresentationthroughkNowledgeIntEgration）系列是结合知识增强技术的预训练大模型，涵盖自然语言处理（NLP）、跨模态、行业应用等多个方向。其开源版本为开发者提供了可商用的大模型能力支持。ERNIE的核心技术特点知识增强：通过多源知识图谱（如百度百科、专业领域数据）注入，提升模型对实
AI办公（综合）课程内容框架建模中… AI-native
AI办公（综合）课程内容框架：深度挖掘与分析一、课程定位深化：从“技能学习”到“价值创造体系构建”传统办公课程聚焦单点工具，本课程定位突破技能培训边界，构建“技术-场景-价值”闭环：-技术穿透性：不局限于AI工具表层操作，深入讲解自然语言处理（NLP）、生成式对抗网络（GANs）等技术在办公场景的底层逻辑，让学员理解“AI为何能优化流程”，而非仅知“如何用工具”。-场景延展性：覆盖内容运营、协作管
人工智能自然语言处理：Transformer 模型详解大力出奇迹985 人工智能自然语言处理 transformer
一、Transformer模型的诞生背景在自然语言处理的漫长征程中，早期的传统模型，如循环神经网络（RNN）及其变体长短时记忆网络（LSTM），曾占据主导地位。RNN试图通过依次处理序列中的每个元素，来捕捉上下文信息。但它存在一个致命弱点，在处理长序列时，会面临梯度消失或梯度爆炸的问题，就像一个长途跋涉的旅人，随着路程的增加，逐渐忘记了出发时的目标和重要信息。LSTM虽然在一定程度上缓解了这个问题
跨境电商 ai架构设计 Java程序员拥抱ai ai 人工智能
一、核心理论基础AI生成知识库的本质是**“数据驱动的知识结构化与智能化生产”**，核心依赖三大理论支撑：知识工程理论将跨境电商业务中分散的“非结构化信息”（如产品参数、用户评价、物流规则、合规条款）转化为“结构化知识”（如实体关系、规则库、决策树），通过AI实现知识的自动提取、关联与更新。例：家具用品的“材质-环保标准-目标市场合规要求”（如欧盟E1级板材认证）可形成关联知识链。自然语言处理（N
字节跳动Coze平台：零代码打造AI智能体小小怪 @ 人工智能
Coze，这是一个由字节跳动推出的AIBot开发平台。它允许用户快速构建、部署和管理自定义的AI聊天机器人（智能体），支持多种功能，如自然语言处理、知识库集成和任务自动化。1.什么是智能体Coze？定义：Coze是一个低代码/无代码的AI开发平台，专注于创建“智能体”（即AIagent）。这些智能体可以模拟人类对话、执行任务（如信息查询或自动化流程），并通过API或插件集成到各种应用中。核心优势：
深度剖析AI人工智能情感分析的算法原理 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构人工智能算法 easyui ai
深度剖析AI人工智能情感分析的算法原理关键词：情感分析、自然语言处理、机器学习、深度学习、文本分类、情感词典、BERT摘要：本文将深入浅出地讲解AI情感分析的技术原理，从基础概念到核心算法，再到实际应用。我们将探索计算机如何理解人类情感，分析文本背后的情绪色彩，并介绍当前最先进的情感分析技术。通过生活化的比喻和代码实例，帮助读者全面理解这一AI领域的重要应用。背景介绍目的和范围情感分析(Senti
数据分析领域如何借助AI人工智能升级 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶数据分析人工智能数据挖掘 ai
数据分析领域如何借助AI人工智能升级关键词：数据分析、人工智能、机器学习、自动化分析、智能决策、数据预处理、预测分析摘要：本文系统阐述数据分析领域如何通过人工智能实现技术升级。从传统数据分析的瓶颈出发，解析AI驱动的核心技术架构，包括自动化数据预处理、智能特征工程、预测分析模型、自然语言处理在数据分析中的应用。通过具体算法实现、数学模型推导和项目实战案例，展示AI如何提升数据分析效率、挖掘数据深度
进阶向:基于Python的电脑硬件监控工具（GUI + 系统信息采集）超级小识 Python进阶有趣的项目 python php 开发语言
引言在科技飞速发展的今天，人工智能已经渗透到我们生活的方方面面，从基础的日常沟通到复杂的商业决策，智能技术的影响力正在以惊人的速度扩大。以自然语言处理为例，智能助手不仅能理解人类的日常对话，还能通过情感分析提供个性化的回应；在医疗领域，AI辅助诊断系统的准确率已达到专业医师水平，极大地提高了早期疾病筛查的效率。面对这场深刻的技术变革，理解其背后的逻辑与应用场景变得至关重要。从技术角度看，机器学习算
自然语言处理技术应用领域深度解析：从理论到实践的全面探索
1.引言：自然语言处理的技术革命与应用前景自然语言处理（NaturalLanguageProcessing，NLP）作为人工智能领域的核心分支，正在以前所未有的速度改变着我们的数字化生活。从最初的规则基础系统到如今基于深度学习的大语言模型，NLP技术经历了从理论探索到实际应用的深刻变革。在当今信息爆炸的时代，人类每天产生的文本数据量达到了惊人的规模，如何让计算机理解、处理和生成人类语言，已经成为推
大语言模型原理与工程实践：RLHF 实战框架 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：RLHF实战框架1.背景介绍1.1人工智能的崛起人工智能(AI)技术在过去几年中取得了令人瞩目的进展,尤其是在自然语言处理(NLP)和计算机视觉(CV)等领域。大型语言模型(LLM)的出现,使得人工智能系统能够生成逼真的自然语言输出,从而在多个应用场景中发挥重要作用。1.2大语言模型的挑战然而,训练出高质量的大语言模型并非易事。传统的监督学习方法需要大量高质量的标注数据,
浅谈生成式AI语言模型的现状与展望
摘要生成式人工智能语言模型作为当前人工智能领域最具突破性的技术之一，正在深刻改变着自然语言处理的技术范式和应用格局。本文从学术文献综述的角度，系统梳理了从Transformer架构到大语言模型的技术演进历程，深入分析了当前生成式AI语言模型的核心技术特征、应用现状以及面临的主要挑战，并展望了未来发展趋势。研究表明，生成式AI语言模型在参数规模扩展、多模态融合、推理能力提升等方面取得了显著进展，但仍
主要分布在背侧海马体（dHPC）CA1区域（dCA1）的时空联合细胞对NLP中的深层语义分析的积极影响和启示金井PRATHAMA 脑神经科学与NLP 自然语言处理人工智能神经网络
时空联合细胞（SpatiotemporalConjunctiveCells）主要分布在背侧海马体CA1区（dCA1），其核心功能是同步编码空间位置、时间信息和行为意图，形成动态的情景记忆表征。这种神经机制为自然语言处理（NLP）中的深层语义分析提供了突破性的启示，尤其在解决语义连贯性、上下文建模和长期依赖等核心挑战上。以下是具体影响和技术实现路径：一、时空联合细胞的核心机制及其NLP关联背侧海马体
Transformer：颠覆NLP的自注意力革命 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python transformer 自然语言处理深度学习
Transformer：颠覆NLP的自注意力革命Transformer是自然语言处理领域中极具影响力的深度学习模型架构，以下是对其的详细介绍：提出背景与应用：2017年，Vaswani等人在《AttentionIsAllYouNeed》论文中首次提出Transformer架构，它主要用于处理序列到序列的任务，如机器翻译、文本生成等。核心原理：文本生成的Transformer模型原理是“预测下一个词
Swin Transformer原理与代码精讲 bai666ai 深度学习之计算机视觉 transformer swin CV 深度学习图像分类
课程链接：SwinTransformer原理与代码精讲--计算机视觉视频教程-人工智能-CSDN程序员研修院Transformer在许多NLP(自然语言处理)任务中取得了最先进的成果。SwinTransformer是在ViT基础上发展而来，是Transformer应用于CV（计算机视觉）领域又一里程碑式的工作。它可以作为通用的骨干网络，用于图片分类的CV任务，以及下游的CV任务，如目标检测、实例分
Transformer Masked loss原理精讲及其PyTorch逐行实现
MaskedLoss的核心原理是：在计算损失函数时，只考虑真实有意义的词元（token），而忽略掉为了数据对齐而填充的无意义的填充词元（paddingtoken）。这是重要的技术，可以确保模型专注于学习有意义的任务，并得到一个正确的性能评估。1.原理精讲为什么需要MaskedLoss？在训练神经网络时，我们通常会用一个批次（batch）的数据进行训练，而不是一次只用一个样本。对于自然语言处理任务，
深入探讨 Transformer 模型架构年纪轻轻头已凉 transformer 深度学习人工智能
```html深入探讨Transformer模型架构深入探讨Transformer模型架构Transformer是一种革命性的神经网络架构，由Vaswani等人在2017年提出，并在自然语言处理（NLP）领域取得了显著的成功。与传统的循环神经网络（RNN）和卷积神经网络（CNN）不同，Transformer完全依赖于自注意力机制（Self-AttentionMechanism），这使得它在处理长序
星图云开发者平台新功能速递|AI大模型赋能开发应用效率提升三倍！星图易码人工智能
还在为技术文档检索耗费数小时？还在重复编写基础CRUD代码？星图云开发者平台发布「三大AI核心能力」，将自然语言大模型深度融入开发全流程。这不是替代开发者，而是让每位工程师拥有超级辅助——从此复杂算法封装、接口调试、业务逻辑设计效率全面跃升。一、智能化多源知识问答技术当开发者以自然语言形式提出技术问题时，多模态自然语言处理（NLP）模型与知识图谱融合技术，实现三重突破：1.跨域知识检索：联动平台专
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他