【论文笔记】Unsupervised Learning of Video Representations using LSTMs

摘要翻译

我们使用长短时记忆（Long Short Term Memory, LSTM）网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个LSTM解码器解码这个表征向量来实现不同的任务，比如重建输入序列、预测未来序列。我们对两种输入序列——原始的图像小块和预训练卷积网络提取的高层表征向量——都做了实验。我们探索不同的设计选择，例如解码器的LSTM是否应该取决于生产的输出。我们定量地分析模型的输出来探讨学习模型对过去和未来视频序列的表征能力。我们尝试可视化和解释学习的功能。我们通过在更长的时间范围和域外数据上运行模型来对模型进行压力测试。我们通过监督学习任务——UCF101和HMDB-51数据集动作识别——微调学习的表征向量来进一步评估表征能力。我们发现这些表征提高了分类准确度，尤其是当只有少量训练样本的情况下。即使模型通过不相关的数据集(300 hours of YouTube videos)预训练，也能够提高动作识别的性能。

1.Introduction

理解时间序列对于解决AI集中的许多问题很重要。最近，使用LSTM的RNN架构（Hochreiter＆Schmidhuber，1997）已成功地用于各种监督序列学习任务，如语音识别（Graves＆Jaitly，2014），机器翻译（Sutskever等，2014; Cho等，2014）和图像字幕生成（Vinyals等，2014）。它们也被应用于视频中的动作识别和产生自然语言描述（Donahue等，2014）。 Sutskever et al（2014）描述了一个通用的seq-seq学习框架，其中使用RNN将输入序列编码为固定长度的表示，然后使用另一个RNN对该表示解码出一个输出序列。在本文中，我们应用和扩展这个框架，来学习图像序列的表示。我们选择在无监督设置下工作，因为我们只能访问未标记的视频的数据集。
视频是视觉信息的丰富来源，可以被看作是进入我们生活的世界的物理窗口，向我们展示了，什么构成了对象，对象如何在背景上运动，如果摄像机移动会发生什么以及物体如何遮挡。能够学习代表这些因素的代表将有助于使智能机器能够在其环境中理解和行动。此外，学习好的视频表示对于许多有用的任务是必要的，例如识别动作和手势。

1.1 Why Unsupervised Learning?
监督学习在学习良好的视觉表示方面非常成功，不仅在受过训练的任务中产生了良好的效果，而且在其他任务和数据集上迁移学习的很好。因此，将同样的方法扩展到学习视频表示是很自然的。这导致了3D卷积网络的研究（Ji et al，2013; Tran et al，2014），different temporal fusion strategies(Karpathy et al., 2014) and exploring different ways of presenting visual information to convolutional nets (Simonyan& Zisserman, 2014a). 然而，与单个图像相比，视频是更高维度的实体。因此，除非我们收集更多的标签数据或进行大量的特征工程（例如计算正确的流特征）以保持维度较低，否则变得越来越难以进行credit分配和学习远程结构。收集更多标签数据的昂贵工作以及进行更聪明的工程的繁琐工作在解决特定问题方面有很长的路要走，但最终不能像机器学习解决方案那样。这突出了使用无监督学习来发现和表示视频结构的需要。此外，视频具有很多结构（空间和时间规律），使得它们特别适合作为建立无监督学习模型的领域。
1.2. Our Approach
在设计任何无监督学习模型时，具有正确的inductive biases并选择正确的目标函数至关重要，以便学习信号将模型指向学习有用的特征。在本文中，我们使用LSTM编码器 - 解码器框架来学习视频表示。这里的关键inductive biases在于，必须在每个时间步骤中执行相同的操作以将信息传播到下一步。这证明了一个事实，即物理世界保持不变，与输入无关。在任何时候，对任何状态，物理行为都必须产生下一个状态。我们的模型工作如下。编码器LSTM在帧序列上运行，来产生一个表示。然后通过另一个LSTM对该表示进行解码以产生目标序列。我们考虑目标序列的不同选择。一个选择是预测与输入相同的序列。动机类似于自动编码器 - 我们希望捕获对于重现输入是需要的，但同时通过inductive biases，由模型强加的。另一个选择是预测未来的帧。这里的动机是学习一个表示，提取所有需要推断的运动和外观超出所观察到的。这两个自然的选择也可以组合起来。在这种情况下，有两个解码器LSTM - 一个将表示解码为输入序列，另一个解码相同的表示以预测未来。
原理上，模型的输入可以是单个视频帧的任何表示。但是，为了本文工作的目的，我们把注意力限制在两种输入。第一个是图像块。为此，我们使用自然图像块以及移动MNIST数字的数据集。第二个是通过在ImageNet上训练的卷积网络来提取的高级“感知”。这些感知是卷积神经网络模型的最后（和/或第二 - 最后）层的状态。
为了评估学习的表示，我们对模型进行的重构和预测进行了定性分析。为了进行更多的定量评估，我们将这些LSTM作为监督动作识别任务的初始化。如果无监督的学习模型产生了有用的表示，那么分类器应该能够表现更好，特别是当只有几个标记的样本。我们发现事实确实如此。
1.3. Related Work
以无监督的方式学习视频表示的第一种方法是基于ICA（van Hateren＆Ruderman，1998; Hurri＆Hyvarinen¨，2003）。Le et al（2011）使用多层独立子空间分析模块来解决这个问题。用于理解连续成对图像之间的变换的生成模型也被很好地研究（Memisevic，2013; Memisevic＆Hinton，2010; Susskind等，2011）。这项工作最近由Michalski等人（2014）扩展，以建模更长的序列。
最近，Ranzato等（2014）提出了视频的生成模型。该模型使用RNN来预测下一帧或帧之间的内插。在这项工作中，作者强调了选择正确的损失函数的重要性。有人认为，输入空间的平方损失不是正确的目标函数，因为它对输入空间的小失真反应不好。提出的解决方案是将图像块量化为大型字典，并训练模型以预测目标块的身份。这样做解决了平方损失的一些问题，但是它将任意的字典大小引入到图片中，并且完全消除了图像块的想法，相似或不相似。设计一个尊重我们的视觉相似性概念的适当的损失函数是一个非常困难的问题（在某种意义上，与我们首先要解决的建模问题几乎一样困难）。因此，本文以简单平方损失目标函数为起点，着重设计可用于任何损失函数的编码器 - 解码器RNN架构。

原文链接：https://blog.csdn.net/xiaofei0801/article/details/72961535

2. Model Description

在本节中，我们将介绍LSTM编解码器模型的几种变体。我们网络的基本单元是LSTM小区块。我们对LSTM的实现与Graves（2013）所讨论的一致。

2.1. Long Short Term Memory
在本节中，我们将简要介绍LSTM单元

2.2 LSTM Autoencoder Model
模型中有两个递归神经网络，编码器LSTM和解码器LSTM，如下图。模型的输入是向量序列（图像小块或者特征向量）。当最后一个输入被读入之后，编码器的内部状态和输出状态将会被直接给入decoder。Decoder输入目标序列或者预测序列，目标序列是和输入序列一样的，只不过在顺序上是反向，把顺序反向可以使得优化更简单因为LSTM的输出就是反过来的嘛。解码器decoder既可以是有条件约束的也可以是无条件约束的。有条件约束的decoder就是decoder接受生成的最后一帧作为输入，即下图中的虚线框。无条件约束的decoder就不接受这个输入。

在encoder读入最后视频最后一帧之后LSTM的状态就是输入视频的表征。因为decoder就是需要用到这个表征向量来重建序列，所以这个表征向量需要包含目标、背景以及运动等信息。但是所有自编码器结构的模型都面临着一个问题，就是直接把输入和输出进行对比来实现无监督学习，很难学习到表征能力特别强的简单映射关系。主要两个原因，一个是空间上神经元的数量固定，所以不可能学习到无限长度输入序列的映射；另一个原因是动态单元的数目必须递归地用在表征向量上，这也使得模型很难学习一个通用统一的映射。

2.3 LSTM Future Predictor Model
预测模型和自编码器几乎是一样的，差别就在于最后训练的输出，预测模型用的是未来几帧的图像，只不过输出是正序，而不是倒序的，这里作者没有解释，但其实也很好理解，预测的正序和自编码器的倒序是统一的，因为encoder-decoder模型都是从最近的时刻想最远的时刻逐渐解码。自编码器从1,2,3到3,2,1是从近到远，预测的1,2,3到4,5,6也是从近到远。和自编码器类似，预测模型也有条件约束和非条件约束两种，所以最后的预测模型如下图

2.4 Conditional Decoder
条件解码器是否使用，还需要进一步思考

2.5 A Composite Model
作者把上面两种模型组合成一个模型，这个模型可以同时实现重建输入和预测输出的功能。上面的两种模型都有各自的缺点，自编码器倾向记住输入序列的信息，而预测模型倾向记住未来几帧的信息。而组合模型把两部分的损失用来训练网络，所以最后得到的表征向量既有过去的记忆也有预测未来的能力，其模型如下图。

模型描述

作者设计实验来实现以下目的：

定性的了解LSTM到底学会了什么
用无监督学习训练的参数去初始化有监督学习的参数，尤其是小样本训练的无监督网络，测试下这样做是否对有监督学习有益
比较提出的不同模型——自编码器、预测模型和融合模型以及它们是否有条件约束的情况
和最领先动作识别的基准进行比较

训练

训练使用RMSProp+monentum基友组合方式。（PS:通常Adam系的训练函数能够更快的收敛，而RMSProp+monentum这个组合通常能得到更好的全局最优解）

数据集

数据集使用的是UCF-101和HMDB-51的监督学习数据集。为了训练无监督的模型，作者还使用Sports-1M中的Youtube视频子集。作者发现和仅仅使用Youtube数据集做无监督训练相比，使用Youtube和UCF-101以及HMDB-51三个数据集做无监督训练并没有提高性能（从侧面验证了上面四个目标中的第二个）。原始的RGB图像使用的网络是Simonyan & Zisserman (2014b)，而提取的运动光流使用网络是Simonyan & Zisserman (2014a).另外作者发现fc6全连接层的性能比fc7全连接层要好，所以最后选择了fc6的4096维输出作为视频的表征向量。另外作者提到论文只用了图像中一个小patch做实验，也许用多个patches并且做些畸变加些噪声的预处理或者去除水平偏移等能提高性能。

可视化和定量分析

为了可视化分析三种模型的性能，作者首先利用移动的Mnist数据集训练模型，每个视频含有20帧图像，包含了2个在移动的数字，图像块大小为64×64像素。这些数字及其出现的位置都是随机的，每个数字的运动方向也是在均匀分割的单位圆内随机选一个。如果数字碰到了边缘就反弹，就和打砖块差不多，如果重合了就叠加。
作者首先训练了融合模型，LSTM拥有2048个神经元，编码器输入10帧序列，解码器重建10帧输入序列和预测未来10帧序列。输出使用sigmoid激活函数，损失使用交叉熵损失函数。下图是结果，通过一层模型和两层模型来验证增加深度是否能提高性能，通过增加条件约束来验证条件约束是否能提高性能。

之后对于实际的视频也做了实验，作者从UCF-101数据集的视频中提取了32×32像素的小块，输出用identity激活函数，损失用最小二乘损失函数，输入是16帧，输出重建输入的16帧序列和预测未来的13帧。实验用了2048个神经网络和4096个神经元做对比，结果显示重建序列的图像更加清晰，预测的图像很快就变得模糊。

UCF-101/hmdb-51动作识别

这一部分主要是探讨无监督学习的特征是否有助于提高监督学习任务。大致思路是用Youtube的视频训练融合模型，网络输入是16帧视频，网络输出是重建16帧和预测未来的13帧。之后用这个网络的encoder部分的参数去初始化有监督学习任务的网络，并在最后一次加一层softmax分类层。测试时用的是所有时间step输出的平均，因为LSTM每个时间step都会有一次预测。最后和几个主流的baseline网络进行对比，结果显示本文的方法在各种情况下都提高了准确度，包括利用光流信息的情况。具体数字就不重复了，可以看图表。

不同模型的比较

作者提到，虽然本文的方法有效的降低了重建序列的损失，但是这并不能用来衡量方法的好坏，真正能够衡量方法好坏的应该是动作识别的性能以及预测未来序列的性能。于是作者就用Mnist数据集的交叉熵损失和视频图像的最小二乘损失来衡量未来序列预测的好坏（为什么Mnist可以用交叉熵而视频序列要用最小二乘呢，我猜测是因为Mnist数据集是二值图像，所以等效为分类问题会更好一点，所以用交叉熵，而实际的视频图像是连续的像素值，所以用最小二乘误差）。Table2显示用条件约束的融合模型是最好的。

和动作识别基准的对比

总结

其实这篇论文要说很华丽倒也没有很华丽，实验放到现在来看也是比较简单，甚至比较粗糙的，论文的篇幅虽然有好几页其实最后都是在重复的表述着同一些东西，或者叙述图表的数字。但是这篇文章的贡献意义非常大，虽然不敢完全肯定是否是第一篇，但至少这是我看到的最早的一篇把LSTM引入视频分析的论文，并且文中作者提到，为了提高监督学习任务的准确度，可以引入卷积网络，并且堆叠多层本文的方法。于是这一句话开创了视频分析任务的新天地，成功预测出（或者说是指明）了CNN+LSTM网络在视频分析领域的王者地位。毕竟是带着Hinton血脉的文章，所以引用量也是非常高的。

原文链接：https://blog.csdn.net/qq_21190081/article/details/64160465

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神经网络量化小厂程序猿人工智能
神经网络量化（NeuralNetworkQuantization）是一种技术，旨在减少神经网络模型的计算和存储资源需求，同时保持其性能。在深度学习中，神经网络模型通常使用高精度的参数（例如32位浮点数）来表示权重和激活值。然而，这种表示方式可能会占用大量的内存和计算资源，特别是在部署到资源受限的设备（如移动设备或嵌入式系统）时会受到限制。神经网络量化通过将模型参数和激活值从高精度表示（例如32位浮
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
自然语言处理概念以及发展黑夜照亮前行的路自然语言处理
自然语言概念总结自然语言处理（NaturalLanguageProcessing，简称NLP）是计算机科学领域与人工智能领域的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理旨在帮助计算机理解和处理自然语言，使计算机能够像人类一样处理和生成语言。从概念上讲，自然语言处理融合了语言学、计算机科学和数学等多学科的知识。它并不仅仅是一般地研究自然语言，而是侧重
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
线性代数在卷积神经网络（CNN）中的体现科学的N次方人工智能线性代数 cnn 人工智能
案例：深度学习中的卷积神经网络（CNN）在图像识别领域，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一个广泛应用深度学习模型，它在人脸识别、物体识别、医学图像分析等方面取得了显著成效。CNN中的核心操作——卷积，就是一个直接体现线性代数应用的例子。假设我们正在训练一个用于识别猫和狗的图像分类器，原始输入是一幅RGB彩色图片，可以将其视为一个高度、宽度和通道数（R
自然语言处理（NLP）技术的概念及优势刘小董学习心得自然语言处理
自然语言处理（NLP）是人工智能领域的一个重要分支，其目标是使计算机能够理解、处理和生成人类自然语言的形式和含义。NLP技术的优势包括：实现人机交互：NLP技术可以使计算机与人类之间实现自然的语言交互，使人们可以通过语音识别、语义理解等方式与计算机进行交流。大规模文本处理：NLP技术可以对大规模文本进行自动化处理和分析，提取关键信息和知识，从而实现文本分类、情感分析、信息检索等任务。自动化翻译：N
【PyTorch】成功解决ModuleNotFoundError: No module named ‘torch’ 高斯小哥 PyTorch零基础入门教程 pytorch 人工智能 python conda debug 深度学习机器学习
【PyTorch】成功解决ModuleNotFoundError:Nomodulenamed‘torch’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录
今日无更新我的昵称违规了
学校的一个会忙得昏天黑地。明天有自己的一个发表，还要准备PPT，根据原来的改改就好……这周真的是有点繁杂了，搞定之后连着四五月份要写两篇论文，再加上五月底的课程论文还有紧接着的文献综述，看样子要疯……现在梳理一下自己手里的锤子：转到Pytorch，使用AllenNLP了解Transformer、了解LSTM了解jieba等分词工具了解Gensim等NLP处理工具接下来要做的：基于AllenNLP搞
大型语言模型RAG（检索增强生成）：检索技术的应用与挑战 in_tsz 语言模型人工智能自然语言处理
摘要检索增强生成（RAG）系统通过结合传统的语言模型生成能力和结构化数据检索，为复杂的问题提供精确的答案。本文深入探讨了RAG系统中检索技术的工作原理、实现方式以及面临的挑战，并对未来的发展方向提出了展望。随着大型预训练语言模型（LLMs）如GPT-3和BERT的出现，自然语言处理（NLP）领域取得了显著进展。然而，这些模型在处理知识密集型任务时仍存在局限性，特别是在需要最新或特定领域知识的情况下
深度学习pytorch——索引与切片 Echo-J AI 深度学习 pytorch 人工智能
indexingimporttorcha=torch.rand(4,3,28,28)#表示4张28*28的rgb图print(a[0].shape)#a[0]获得第一张图片print(a[0,0].shape)#a[0,0]获得第一张图片的r图print(a[0,0,2,4])#获得第一张图片第一个通道的一个像素点，因此得到的是一个标量selectfirst/lastN#selectfirst/l
Pytorch nn.Module 霖大侠 pytorch 人工智能 python 深度学习 cnn 神经网络卷积神经网络
一、torch.nn简介torch.nn是PyTorch中用于构建神经网络的模块。它提供了一系列的类和函数，用于定义神经网络的各种层、损失函数、优化器等。torch.nn提供的类：Module:所有神经网络模型的基类，用于定义自定义神经网络模型。Linear:线性层，进行线性变换。Conv2d:二维卷积层。RNN,LSTM,GRU:循环神经网络层，分别对应简单RNN、长短时记忆网络（LSTM）、门
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &