first_adam

手势识别论文解读

Learning to Estimate 3D Hand Pose from Single RGB Images20173
- 主要流程
- 代码细节解读
- 训练流程解读
Two-Stream Convolutional Networks for Action Recognition in Videos2014
- 框架
- 两个stream
  - Spatial stream ConvNet
  - Optical flow ConvNets
- train要点
Convolutional Two-Stream Network Fusion for Video Action Recognition2015
- 框架
Online Detection and Classification of Dynamic Hand Gestures with Recurrent 3D Convolutional Neural Networks201611
- 框架
- 细节
  - 数据源
  - 3D-CNN
  - RNN
  - 实现
Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields20166
- 目标
- 框架
  - 检测部分
  - 匹配部分
- 两个子问题
Convolutional Pose Machines2016
- 目标
- 框架
- 要点
Model-based Deep Hand Pose Estimation2016
- 主要流程
- Loss
- 要点与改进点
Multimodal Gesture Recognition Using 3D Convolution and Convolutional LSTM20173
- 框架
- 值得一提的子模块
  - convolutional LSTM
  - Spatial Pyramid Pooling
VideoLSTM Convolves Attends and Flows for Action Recognition20167
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition20146
- 目标
- 框架
- train方法
  - single-size training
  - multi-size training
Gesture Recognition with a Convolutional Long Short-Term Memory Recurrent Neural Network2016
Real time gesture recognition using Continuous Time Recurrent Neural Networks
- 有意思的亮点

《Learning to Estimate 3D Hand Pose from Single RGB Images》2017.3

本文介绍了从2D彩色图像进行3D hand pose estimation的一种方法，总体来说方法很直观
project page

主要流程

如图所示，依次有以下几个环节：

1）HandSegNet，输入256x256x3, 输出256x256x1的一个hand mask。用一个FCN网络进行手的语义分割，分割之后的结果用来对手附近区域进行截图，以减少计算量及提高准确性
2）PoseNet，用来计算手的21个keypoint，输入256x256x3，输出32x32x21，即21张不同keypoint的score map
3）PosePrior，有两个子stream，每个的网络结构除了最后一层不一样其他都一样，输入32x32x21，输出两个层。一个是正则化的手的坐标，以手掌的点为原点，且长度进行了normalize，即维度为21x3。另一个是相对于实际图片的空间的变换关系，即维度为3

在论文中还用这个结构进行了手语识别，手语识别的网络直接根据手的指示来，是一个3层的全连接网络，输入维度63，输出维度35

代码细节解读

使用自带的工具tfprof进行性能分析，发现主要的耗时在于， 2/3耗时在single_obj_scoremap中的tf.nn.dilation2d操作, 1/6耗时在HandSegNet，1/6耗时在PoseNet2D。
同时，为了复用前人训练好的网络参数，将手部截图重新上采样到256x256来使用PoseNet。可见整个网络还有很大的优化空间。cpu上做到实时也不是没有希望。

训练流程解读

《Two-Stream Convolutional Networks for Action Recognition in Videos》2014

框架

如上图所示，采用两个stream，一个用静态的单张图片来分类，另一个stream用累积的多张图片的信息来分类

两个stream

Spatial stream ConvNet

非常直观，直接用每张图片过cnn

Optical flow ConvNets

文中提到了两种方法，一种是光流Optical flow stacking，一种是轨迹Trajectory stacking

光流采用x，y两个方向的光流，顾如果stack一共L张图片的信息，则有2L张的光流图
轨迹也分x，y的两张图，但是区别是轨迹追踪的是同个点在不同帧上的位移，个人感觉没啥区别，对框架没有影响。

文中还讨论了一些方便用在学习中的特征，可以参考一下

train要点

对于Spatial stream ConvNet，可以在imageNet等大数据集上进行训练
对于Optical flow ConvNets，需要在video数据集上训练，文中用了UCF-101 ，HMDB-51这两个，如果你直接采用着两个数据集，需要手工去重，防止某些动作特别多照成过拟合，文中提到了multi-task learning这种方法。参考《A unified architecture for natural language processing: deep neural networks with multitask learning》

《Convolutional Two-Stream Network Fusion for Video Action Recognition》2015

code
这篇文章主要是在《Two-Stream Convolutional Networks for Action Recognition in Videos》的基础上进行改进。主要针对其中的两个缺点：
* spatial 和 temporal 的feature没有在pixel层面上进行合作，只用了最后的score
* temporal的操作基本还是基于2d的conv

核心在于引入3d-conv ， 3d-pooling，以及对网络结构进行fusion

框架

TODO

《Online Detection and Classification of Dynamic Hand Gestures with Recurrent 3D Convolutional Neural Networks》2016.11

这篇文章的思路就不一样，它主要在于训练一个end-to-end的手势识别结果，不进行具体的hand pose estimation。从视频效果来看也不错
大道至简，对于近距离的手势识别，觉得这个方案应该是目前比较靠谱的。
project page

框架

如上图所示基本框架很简单
3D-CNN + RNN + Softmax + CTC loss
文中采用了多模态数据，比如RGB，深度，红外，光流，但本身基于单数据源也效果很好

细节

数据源

在 project page上，有他们自制的训练数据，大概30G，包含25个预定义动作，20个训练人员，10秒不到的短视频，每个视频一个动作，视频中包含无动作开始+动作+无动作结尾。除此之外，在训练过程中还做了data augment，比如从120x160的尺寸中随机取112x112大小的数据，还有random spatial rotation (±15◦) and scal- ing (±20%), temporal scaling (±20%), and jittering (±3 frames).

3D-CNN

经过测试他们选取了一个clip 8帧来兼顾性能和速度，3D-CNN使用pretrain自C3D的一个比较大的运动数据集。然后在pretrain的weights的基础上直接加softmax算cross entropy的loss来fine tune 3D-CNN的参数。
用了8层conv和2层的全连接。

RNN

在准备好3D-CNN之后，加上RNN，用back-propagation-through-time(BPTT)来做gradient descent就行了。需要注意的是，在训练的过程中，我们主要考虑两个loss

cross entropy的loss, 用在entire video上，每段视频按照其中的概率的平均来算
CTC（Connectionist temporal classification）的loss，用在online sequence。由于需要在分类结果中添加一个{no gesture}的类别，如果用在segmented video的分类时，需要去掉这歌类（因为视频总属于某个类）
CTC常用在NLP当中，解决的问题是连续训练的时候不好标数据的问题。比如一段”This is a new world”的语音辨识训练样本，往往不能或者代价太大去辨识出具体哪个字母或者音素在什么位置出现或者终结，CTC提供了一种统计方法，只需要给整体进行标注，并不需要对具体的字母进行标注。
文中使用了CTC forward algorithm（当然对应的，也有backward的方法），具体算法可以看相关论文，主要在于动态规划图的理解。
在添加了CTC之后，给原先的类别添加一个{no gesture}的类别，这样子，CTC就能对连续的动作进行标注，其loss为

实现

先说下最终test的效果，112x112x3的大小，在nvidia TitanX上面但clip 8帧的情况下，单次耗时30ms左右。可以说，还不错，但是conv感觉太深，可能没有必要。
具体流程如下

16 epoch对3D-CNN进行fine tune
100 epoch加上RNN，用CTC的loss来训练就可以

《Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields》2016.6

code

目标

多人同时Pose Estimation，如下图所示

框架

分两个部分，检测部分和匹配部分，如下图所示

(b)关键点检测，(c)part affinity fields即四肢关系检测，(d)二分图匹配

检测部分

如下图所示，上下分为两个brach，分别用来检测关键点 Part Confidence Maps 以及四肢关系Part Affinity Fields

分stage的思路和《Convolutional Pose Machines》一致（毕竟是一个团队）。其中的F来自于VGG-19的前十层finetuned的结果，对于stages t>=2, 每个branch的输入都是

F,St−1,Lt−1

的联合，即

类似于《Convolutional Pose Machines》，计算每层的loss为

其中的W(p)代表本该存在的单位是否在groud true中存在（有些关节或者四肢没有标注）。而对应的total loss为

注意Part Affinity Fields（PAF）是一些矢量区域，可以通过指定四肢粗细然后在训练数据中根据关节点来标注。

匹配部分

这里首先要明确 Part Confidence Maps和PAF是如何协同确定四肢和关节的预测的

如上图，对于图中的任意点P，在PAF的对应点的投影可以用来表示该点在四肢上的相关性。对于 Part Confidence Maps中任意的两个极值点A，B，可以通过插值A，B中的几个点p0, p1, p2, p3, p4…求这些点在PAF上的投影的积分来确定A，B两点作为同肢节的关节点的可能性，如下图

有了上面的两点同肢节判定的方法，我们就可以通过匹配每组能相连的点来决定连接与点的有效性。即通过右手腕的confidence map 和右手肘的confidence map的极值点之间的二分图匹配问题


其中

用来表示两个关节点是否相连。这个问题可以用Hungarian algorithm来解决，相对的总体的error，可以通过简单的相加来衡量

两个子问题：

non-maximum suppression非极大值抑制
定义：处理一份数据，讲非极大值的部分设置为0，是不是非常直观^^
实现：常见的高效算法可以参见 ICPR2006-《Efficient Non-Maximum Suppression》，核心是减少重复比较
应用：检测算法中常见，本质是从众多的滑动窗口的sore中找到局部极值作为检测结果。参见很不错的人脸检测的NMS例子
Hungarian algorithm
目标：解决二分图的最大匹配问题 or 任务分配问题，用在文中是解决不同关键点之间的同肢体匹配问题

《Convolutional Pose Machines》2016

code

目标

实现关键部位的检测，生成scoremap，如下图所示

框架

常规的思路类似FCN，但是由于网络层数变深会有不好训练的问题。文章的重点在于分stage来训练，每个stage的结果目标都是最终的score map，通过把原图的feature和上一个stage的输出一起传递到下个stage作为输入，来实现迭代。注意下图中的x’这个网络的权重在所有的stages t>=2中都是共享的，用来提取图像的feature

要点

通过分阶段stage的方式，用来迭代并扩大receptive field，每个stage都可量化以及可视化
由于总体网络层数教深，很容易出现gradient vanish的问题，由于每个stage的输出都可以计算loss，如下，ground true未真实位置点的高斯分布的max，同时，total loss 为每层loss的和。即文中所谓的Intermediate supervision，每层的gradient都有部份来自于当层的loss。End-to-end learning。
TODO: 不懂如果用了上面的loss却不intermediate supervision的方法

《Model-based Deep Hand Pose Estimation》2016

code

model-based的方法可以有效的利用手的先验知识，如下图所示： ![这里写图片描述](https://img-blog.csdn.net/20170731213003364?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2h1NTA=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast) 注：上图中的拇指部分的关节标错了，下移一节应该才正确

主要流程

应用于深度图首先用检测算法截图，使手在图像中间并resize到128x128
CNN网络用来学习关节26个角度值，这里将会计算一个loss
通过Hand Model layer将角度值变换成关节点的坐标，坐标也会计算一个loss

流程图如下： ![这里写图片描述](https://img-blog.csdn.net/20170731213621001?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2h1NTA=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

Loss

Loss分为两部分：一个是最终的Joint Locations的一个Loss ![这里写图片描述](https://img-blog.csdn.net/20170731213832929?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2h1NTA=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast) 另一个是在计算关节角度值之后根据生理学模型或者统计求得的每个角度的角度范围，然后用这个合理范围作一个penalty ![这里写图片描述](https://img-blog.csdn.net/20170731213954716?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2h1NTA=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast) Total loss就是上面两个loss的系数相加 ![这里写图片描述](https://img-blog.csdn.net/20170731214032484?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveGlhb2h1NTA=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

要点与改进点

上面第一个loss是joint locations的一个loss，其实还可以直接对关节角度进行regression的loss的比较，效果在文中没有比较。从我的理解来看可能会稍微好一点。因为joint locations的loss虽然GT的location本身是独立的，但是prediect的数据却是有关节角度累计变换来的。而如果采用关节角度regression的loss的话，predict的角度值是互相独立的。
对于Joint Locations的loss其实更大的依赖全局的变换（即手掌相对于图像原点的平移和旋转），以及手指的骨长等参数。全局变换在算法中不予考虑，全当随机误差应该会显著影响学习，手指的骨长这里是通过测试数据来统计并固定的，实际上的误差可能很大
上面的问题中，全局变换可以通过一个joint locations的中心来归一化，手指的骨长则可能需要产品话的时候需要像录入指纹一样对骨长数据进行调整。

《Multimodal Gesture Recognition Using 3D Convolution and Convolutional LSTM》2017.3

这文章其实没有啥新意，不过有代码，而且引用了一些不错的文章。这篇文章是采用将动作序列采样到标准长度，更好的替代方法是采用ctc

框架

两个steam，分别处理RGB的图像和Depth图像

其中每个子stream的框架如下：

值得一提的子模块

convolutional LSTM

在常规的LSTM中，上面的 * 是矩阵乘法，而convolutional LSTM中，上面的X，H都是二维数据（类似图像），* 也变成了convolution操作

Spatial Pyramid Pooling

参看下面的文章《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

《VideoLSTM Convolves, Attends and Flows for Action Recognition》2016.7

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》2014.6

目标

图像金字塔方法，多尺度。解决两个问题

弥补传统的分类网络中图像要求固定的缺点
提供多尺度的信息（传统的cnn通过层数的增加确实能增加perceptive field，但是CNN的视野基本像放大镜一样中间的显著，边缘模糊，这个时候金字塔方法能够提供一个全局信息）

框架

非常直观，如下图

采用多个尺度的pooling（比如Max pooling），与传统的pooling不同的是，窗口大小不固定，而是依据输入来变化，比如输入是一个100x100x5的feature map，现在我们需要对其作左边蓝色的SPP，则直接将100划分成四段，对每个bin中的25x25作Max pooling，得到的结果就是16x5的一个vector，这样每层出来的结果都是定长的。

train方法

如何利用现有框架的方法来训练是个问题

single-size training

对于传统的固定大小的输入，使用金字塔方法也能获得多尺度信息来提升准确性，这个时候可以简单的用传统的pooling的方法来拼接就可以（根据bin的数目来算出所需要的size和stride），如下图所示

multi-size training

要像训练得到一些变尺度的信息，比如一个数据集原先图片的尺寸都是224x224，可以通过resize所有数据到180x180，这样，我们用224x224可以训练一个网络，用180x180也训练一个网络，都采用上面single-size training的方法。而两个网络中的参数数目是相同的，我们share两个网络中的参数，这样tain出来的参数更加符合多尺度特征。
在test的时候，则不论尺寸大小，这个时候poolling的size和stride需要根据数据确定。

《Gesture Recognition with a Convolutional Long Short-Term Memory Recurrent Neural Network》2016

水文，简单的cnn+lstm。唯一的收获是可以使用图像差来做输入，即

《Real time gesture recognition using Continuous Time Recurrent Neural Networks》

思路很有意思，不直接recognize，而是去predict下一步来recognize

有意思的亮点

首先采用的是三轴加速度计的输出，这一点本身比较适合predict next。
核心思路就是，对于每个gesture，训练一个下面的预测器：

即根据t-1时刻的值来预测t时刻的x,y,z三个传感器输出。
学习好之后，对于recognize过程，输入是一个序列，可以将输入放到所有的gesture的predict当中，比较输出的predict error的大小，最小的即为预测值。

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python 的 GIL 时代即将终结，迈向真正的多线程时代技术狂潮AI Python开发实战 AI编程实战 AI应用实战开发语言 GIL Python
Python功能强大、灵活且对程序员友好，广泛应用于从Web开发到机器学习的各个领域。根据引用次数最多的两项指标，Python甚至超越了Java和C等语言，成为最流行的编程语言。经过多年的流行，Python似乎势不可挡。但Python作为一种编程语言的未来发展至少面临一个重大障碍。它被称为GIL，即全局解释器锁，几十年来，Python开发人员一直试图将其从Python的默认实现中删除。虽然GIL在
如何从零开始入行机器学习
在当今的科技浪潮中，机器学习无疑是最耀眼的明星之一。它不仅引领了人工智能的发展，还在各个行业中催生了大量的创新和变革。对于那些对技术充满热情、渴望在这个领域有所作为的人来说，“如何从零开始入行机器学习”成为了最热门的话题之一。这不仅仅是技术上的挑战，更是一个职业生涯的新起点。想象一下，在未来的工作中，你能够开发出自动识别图像的应用程序，或者设计一个可以预测市场趋势的智能系统，这一切都源于你现在迈出
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
Anaconda（AI生成测试） harrio_ python
技术文章大纲：Anaconda插件开发挑战赛引言Anaconda作为数据科学与机器学习的核心工具，其插件生态系统的扩展性为开发者提供了广阔的创新空间。插件开发挑战赛旨在激励开发者探索Anaconda的潜力，解决实际场景中的技术痛点。以下为技术文章的核心框架。Anaconda插件开发的核心价值插件开发能够增强Anaconda的功能模块化，例如集成新的编程语言支持、优化包管理流程或扩展可视化工具。通过
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
Python金融分析：情感分析在量化价值投资中的完整实现 AI量化价值投资入门到精通 python 金融开发语言 ai
Python金融分析：情感分析在量化价值投资中的完整实现关键词：Python金融分析、情感分析、量化投资、价值投资、自然语言处理、机器学习、金融文本挖掘摘要：本文系统解析如何将情感分析技术深度整合到量化价值投资体系中，通过Python实现从金融文本数据采集、预处理、情感建模到策略回测的完整流程。详细阐述基于规则引擎、机器学习和深度学习的多维度情感分析方法，结合财务指标构建复合投资模型，并通过实战案
通用图片 OCR 到 Word API 数据接口 2301_78772565 ocr
通用图片OCR到WordAPI数据接口高可用图像识别引擎，基于机器学习，超精准识别率。1.产品功能通用的识别接口，支持多种图片格式；支持中英文字符混合识别；支持Base64以及网络地址传参；基于机器学习不断提高的识别率；输出的Word文件永久存储；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容AppleATS；全国多节点CDN部署；接口极速响应，
机器学习模型评估：交叉验证、混淆矩阵、ROC曲线及其在医学影像领域的应用猿享天开机器学习矩阵人工智能 DICOM医学影像模型评估
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
深入详解：决策树在医学影像分割特征选择中的应用与实现猿享天开决策树算法机器学习人工智能
深入详解：决策树在医学影像分割特征选择中的应用与实现决策树（DecisionTree）作为一种经典的机器学习算法，以其简单、直观和可解释性强的特点，在医学影像分割的特征选择中扮演了重要角色。医学影像分割（如分割脑肿瘤、肝脏、肺结节等）需要从高维影像数据中提取关键特征，以提升分割模型的精度和效率。决策树通过构建树形结构，筛选对分割任务最重要的特征，降低数据维度，同时提供可解释的规则。本文将从原理、实
机器学习概述炀水机器学习人工智能
一、机器学习算法与流程（一）、机器学习的主要流程：1.明确分析目标，2.数据收集，3.数据预处理，4.建模分析，5.结果评估，6.部署使用以及学习更新。1.明确分析目标：客观反映用户需求，通过对各类人群的深入分析，为相关部门制订资费、服务、市场策略提供基础。2.数据收集：收集相关的数据，充足、全面的高质量数据是机器学习的基础。3.数据预处理：数据可能存在着噪声、不一致、异常、个人隐私保护等各类问题
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

手势识别论文解读

《Learning to Estimate 3D Hand Pose from Single RGB Images》2017.3

主要流程

代码细节解读

训练流程解读

《Two-Stream Convolutional Networks for Action Recognition in Videos》2014

框架

两个stream

Spatial stream ConvNet

Optical flow ConvNets

train要点

《Convolutional Two-Stream Network Fusion for Video Action Recognition》2015

框架

《Online Detection and Classification of Dynamic Hand Gestures with Recurrent 3D Convolutional Neural Networks》2016.11

框架

细节

数据源

3D-CNN

RNN

实现

《Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields》2016.6

目标

框架

检测部分

匹配部分

两个子问题：

《Convolutional Pose Machines》2016

目标

框架

要点

《Model-based Deep Hand Pose Estimation》2016

主要流程

Loss

要点与改进点

《Multimodal Gesture Recognition Using 3D Convolution and Convolutional LSTM》2017.3

框架

值得一提的子模块

convolutional LSTM

Spatial Pyramid Pooling

《VideoLSTM Convolves, Attends and Flows for Action Recognition》2016.7

《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》2014.6

目标

框架

train方法

single-size training

multi-size training

《Gesture Recognition with a Convolutional Long Short-Term Memory Recurrent Neural Network》2016

《Real time gesture recognition using Continuous Time Recurrent Neural Networks》

有意思的亮点

你可能感兴趣的:(机器学习)