recognition) 第24页

使用InsightFace识别人脸

Face-Recognition-with-InsightFaceMTCNNInsightFacepipinstallkeraspipinstalltensorflow==2.212datasets\train

元宇宙iwemeta·2023-06-09 16:47

论文笔记：NetVLAD: CNN architecture for weakly supervised place recognition（转）

原文NetVLAD是一个较早的使用CNN来进行图像检索或者视频检索的工作，后续在此工作的基础上陆续出了很多例如NetRVLAD、NetFV、NetDBoW等等的论文，思想都是大同小异。一、图像检索VLAD和BoW、FisherVector等都是图像检索领域的经典方法，这里仅简介下图像检索和VLAD的基本思想。图像检索（实例搜索）是这样的一个经典问题：1、我们有一个图像数据库IiI_iIi，通过函数

Lavau·2023-06-09 12:59

通用文字识别OCR 之实现数字化教材

OCR技术的基本原理和发展趋势OCR（OpticalCharacterRecognition，光学字符识别）技术是一种通过计算机对图像或文档进行分析、识别和提取文本信

海碗吃饭·2023-06-09 09:45

学习笔记（十三）：基于呼吸监测的人员计数和身份识别

2020《RespirationTrackingforPeopleCountingandRecognition》读书笔记本文在人群数量未知和被测人群呼吸速率相近的情况下，实现连续跟踪多人的呼吸速率，

不讲魔法讲道理·2023-06-09 08:44

EfficientViT: Enhanced Linear Attention forHigh-Resolution Low-Computation Visual Recognition

目录Abstract1Introduction3Method3.2EffificientViT4Experiments4.5AnalysisandDiscussionAbstract在针对高分辨率移动视觉应用时，ViT不如卷积神经网络（CNNs）。现有的方法（如Swin、PVT）限制了局部窗口内的softmaxattention，或降低键/值张量的分辨率，以降低成本，这牺牲了ViT在全局特征提取方

Recursions·2023-06-09 07:44

多模态 | Supervised Prototypical Contrastive Learning for Emotion Recognition in Conversation论文详解及实现

本文主要详细描述了SupervisedPrototypicalContrastiveLearningforEmotionRecognitioninConversation论文详解及实现。

夏天｜여름이다·2023-06-09 03:29

win11 安装tesseract-ocr

1.OCROCR，即OpticalCharacterRecognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。

流逝如风·2023-06-08 22:47

实现车牌识别之二--使用Yolov3进行车牌定位

更新一些sota的论文：TowardsEnd-to-EndLicensePlateDetectionandRecognition:ALargeDatasetandBaseline更新一些之前做项目时参考的项目链接链接

帅气的Ezio·2023-06-08 18:14

【重磅推荐】中国车牌识别数据集(CBLPRD)：China-Balanced-License-Plate-Recognition-Dataset-330k

fxtx635·2023-06-08 13:12

深度学习: 细粒度图像分类 (fine-grained image recognition)

细粒度图像识别(fine-grainedimagerecognition)，即精细化分类。

机器学习算法那些事·2023-06-08 08:18

Bilinear CNN：细粒度图像分类网络，对Bilinear CNN中矩阵外积的解释。

文章目录一、BilinearCNN的网络结构二、矩阵外积（outerproduct）2.1外积的计算方式2.2外积的作用三、PyTorch网络代码实现细粒度图像分类（fine-grainedimagerecognition

ctrl A_ctrl C_ctrl V·2023-06-08 08:46

win10 + conda安装face_recognition,opencv，超详细！！！

1.创建新的python3.6虚拟环境打开AnacondaPrompt打开后，创建一个python3.6的环境condacreate-nyour_env_namepython=3.6这时候会下载一些该环境的初始库，这时候如果下载很慢的，需要添加清华源来加速下载，详细看这个博客配置清华源创建好新的虚拟环境后，使用下列命令进入该环境activateyour_env_name这时候显示就说明已经进入了对

( ?_?)·2023-06-07 17:11

深入理解卷积神经网络 VGG16

VGG16来做一个图像识别案例一、认识VGG161.相关知识VGG是由Simonyan和Zisserman在文献《VeryDeepConvolutionalNetworksforLargeScaleImageRecognition

南淮北安·2023-06-07 14:16

【卷积神经网络】Lesson 4--人脸识别和风格转换

先来看一看人脸验证(faceverification)和人脸识别的区别（facerecognition)有什么区别呢？faceverification：输入一张图片，以及这张图片对应的任务姓

王小小小草·2023-06-07 01:27

Look Closer to See Better: RA-CNN

一个月前读了使用注意力机制解决弱监督学习的细粒度图像分类论文-LookClosertoSeeBetter:RecurrentAttentionConvolutionalNeuralNetworkforFine-grainedImageRecognition

是风车大渣渣啊·2023-06-06 23:31

不完整数据下视听情感识别的自注意融合

Self-attentionfusionforaudiovisualemotionrecognitionwithincompletedata译文：不完整数据下视听情感识别的自注意融合摘要：在本文中，我们以视听情感识别为例

uuu_柚子·2023-04-21 14:20

知识图谱-实体抽取

命名实体识别（NamedEntityRecognition，简称NER）是信息抽取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

日有所为·2023-04-21 13:31

Node.js 如何实现OCR文字识别

Node.js如何实现OCR文字识别OCR(OpticalCharacterRecognition)是指用光学技术识别文字图像的技术。

I am not people·2023-04-21 11:09

用python写一个语音转文字的代码

这是一个使用Python的SpeechRecognition库将语音转换为文本的示例代码:importspeech_recognitionassr#创建Recognizer对象r=sr.Recognizer

Xi Zi·2023-04-21 11:04

python语音转文字代码

可以使用Python中的语音识别库——SpeechRecognition来实现语音转文字。

优游的鱼·2023-04-21 11:02

Python 实现语音转文本

使用GoogleSpeechAPI需要安装SpeechRecognition库，可以使用pip安装：pipinstallSpeechRecognition安装完成后，可以

I am not people·2023-04-21 11:46

【菜鸡读论文】Micro-expression Recognition Based on Facial Graph Representation Learning and Facial Action

【菜鸡读论文】Micro-expressionRecognitionBasedonFacialGraphRepresentationLearningandFacialAction大家好哇！

猫头丁·2023-04-21 03:01

【菜鸡读论文】AU-assisted Graph Attention Convolutional Network for Micro-Expression Recognition

【菜鸡读论文】AU-assistedGraphAttentionConvolutionalNetworkforMicro-ExpressionRecognition芜湖！又到了每周分享论文时间啦！

猫头丁·2023-04-21 03:01

【菜鸡读论文】Cross-domain Named Entity Recognition via Graph Matching

【菜鸡读论文】Cross-domainNamedEntityRecognitionviaGraphMatching最近到了研一下学期，很多身边的同学也开始有了成果，但本菜鸡一点成果都没有【大哭】所以也没什么好写的

猫头丁·2023-04-21 03:29

OverFeat论文翻译(已校正)

此篇为目标检测系列论文：OverFeat论文翻译（OverFeat:IntegratedRecognition,LocalizationandDetectionusingConvolutionalNetworks

耿鬼喝椰汁·2023-04-21 02:20

基于ASRT中文语音识别系统的优化

该项目是基于CNN+CTC网络实现，中文标注是拼音，解码使用HMM，项目地址：https://github.com/nl8590687/ASRT_SpeechRecognition该项目很不错，但是本人用原版项目代码进行训练测试无法达到较好的效果

喜欢编程的网管·2023-04-21 02:52

ASRT语音识别系统部署及模型训练笔记

GitHub地址：nl8590687/ASRT_SpeechRecognition国内Gitee镜像地址：AI柠檬/ASRT_SpeechRecognition文档地址：ASRT语音识别工具文档本文主要是记录一下我在参考文章

切糕师学AI·2023-04-21 02:39

论文阅读---《人类活动识别的准周期时间序列聚类》

论文地址：Quasi-PeriodicTimeSeriesClusteringforHumanActivityRecognition|SpringerLink相空间知识概念：相空间相关概念以及轨迹生成_

末世灯光·2023-04-21 01:08

ViT笔记以及其Pytroch实现

ViT:ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE——ICLR,2021Pytroch代码来源：https://github.com

像风一样自由的小周·2023-04-21 01:51

基于深度学习表格票据OCR识别

OCR文字识别是指利用OCR（OpticalCharacterRecognition，光学字符识别）技术，将图片、照片上的文字内容，直接转换为可编辑文本的软件。把图片转换成可以编辑的文字。

Tel-18519103264·2023-04-21 00:52

【深度学习】OCR文本识别

OCR文字识别定义OCR（opticalcharacterrecognition）文字识别是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描

Lotay_天天·2023-04-21 00:47

（亲测成功）win10+anaconda3+py3.6下安装face_recognition

（废话，可忽略）项目要求，不得不安装，安装完后黑眼圈又大了，头发有油了，穿梭在各种错误之间。安装了好久，网上说啥的都有，这两天几乎看完了所有博文，总之，py3.5以及之前的版本要安装cmake,boost啥的……不要给自己找麻烦，下个py3.6吧环境win10anaconda3（确保anaconda安装成功，在AnacondaNavigator下create新的环境，我这里就叫py36了，选择语言

一璐与妮同行·2023-04-20 15:18

cifar-10数据集+ResNet50

CIFAR-10-ObjectRecognition作为一个古老年代的数据集，用ResNet来练一下手也是不错的。

__LazyCat__·2023-04-19 18:41

Win10 和 Ubuntu 20.04 安装 face_recognition 和 dlib

face_recognition是一个人脸识别库。

算法技术博客·2023-04-19 18:56

行为识别概况

4.缺乏标注良好的大的数据集二行为识别的两个方向1.ActionRecognition:给定一个视频片段进行分类，一般使用的数据库都先将动作分割好了，一个视

AI界扛把子·2023-04-19 13:44

linux后台运行程序

nohuppython3palm_recognition.py&查看nohup&运行的程序：ps-aux|greppalma:显示所有程序u:以用户为主的格式来显示x:显示所有程序，不以终端机来区分终止

你说你要一场·2023-04-19 10:46

2020-02-19 语音识别：speechrecognition的recognize_ibm

speechrecognition简介：speechrecognition包,集合了几个语音识别库的接口：recognize_bing()：MicrosoftBingSpeechrecognize_google

菜菜笛·2023-04-19 08:00

论文笔记|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

论文地址：https://arxiv.org/pdf/2303.14123.pdf这是一篇2023年发表在CVPR上的论文，论文题目是SemanticPromptforFew-ShotImageRecognitio，即用于小样本图像识别的语义提示。1Motivation第一，最近几项研究利用语义信息来进行小样本学习的研究。一方面因为通过少量样本去识别新类别很难，就想使用一些其他模态的信息辅助学习，

李问号·2023-04-19 07:07

iOS 百度语音+二维码生成

import"BDRecognizerViewDelegate.h"#import"BDRecognizerViewController.h"#import"JSONKit.h"#import"BDVoiceRecognitionClient.h

YQ_苍穹·2023-04-19 01:26

whisper

RobustSpeechRecognitionviaLarge-ScaleWeakSupervision介绍大规模弱监督的训练。

ctrlcvKing·2023-04-18 22:40

Python实时音频识别与处理——让上网课不再单调

Python实时语音识别转字幕实现原理用speech_recognition库获得实时电脑音频输入，用requests和json库将生成的语音文件上传至百度的云语音识别服务器进行识别，返回结果用wx库显示为字幕

EricFrenzy·2023-04-18 22:36

学习实践-Whisper语音识别模型实战（部署+运行）

1、Whisper内容简单介绍OpenAI的语音识别模型Whisper，Whisper是一个自动语音识别（ASR，AutomaticSpeechRecognition）系统，OpenAI通过从网络上收集了

李卓璐·2023-04-18 22:33

OCR技术大揭秘：纸质文档数字化的新选择

引言OCR（OpticalCharacterRecognition）即光学字符识别技术，是一种将纸质或电子文档中的印刷文字转化为可编辑和可搜索的数字文本的技术。

海碗吃饭·2023-04-18 15:40

SlowFast Networks for Video Recognition速读笔记

(一)Title(二)KeyPoints提出结合使用slowpathway和fastpathway。slowpathway慢帧率,主要关注空间信息从图像或者稀疏的帧中提取语义信息fastpathway减少通道数,lightweight,快帧率,更多地关注动作随时间的变化信息时间速率很快,轻量级,较弱的处理空间信息的能力。不需要temporalpooling快慢结合带来了检测结果上的提升。(三)Me

不知道叫啥好一点·2023-04-18 14:26

20组-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

论文截图摘要由于目前行为分类（actionclassification）方面的数据集（UCF-101和HMDB-51）很缺乏，使得识别视频中的行为分类这一任务没有很好的解决方案，目前大多数的方法性能都很相近。基于此本文提出了一个新的行为分类的数据集——Kinetics。Kinetics比现有的数据集大两个数量级，包括400个行为类别，每个类别有超过400个片段，同时分析了现有方法在这个数据集上的性

召召召·2023-04-18 11:11

用于端到端语音识别的文本数据多任务训练

论文MULTITASKTRAININGWITHTEXTDATAFOREND-TO-ENDSPEECHRECOGNITION摘要论文提出了一种基于注意力的端到端语音识别模型的多任务训练方法，以更好地整合语言级别的信息

尚歌·2023-04-18 10:31

ICASSP 2022 | 标点恢复——一套可以同时服务单模态和多模态文本的标点恢复框架

导读在信息时代，自动语音识别技术(AutomaticSpeechRecognition，ASR)已成为互联网领域一大典型应用，尤其是在智能手机等设备上，语音识别功能已经成为标配。

TechBeat人工智能社区·2023-04-18 10:30

2020-08-17

FiberCeramicFerruleSpecialtyCarbonBlackAircraftAuxiliaryPowerUnit(APU)RigandOilfieldMatsFaucetFaceRecognitionSystemsElectricalDesignSoftwareFoundryBinderOutsourcedSemiconductorAssemblyandTest

安兮安兮·2023-04-18 09:57

An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos阅读笔记

Abstract用户生成视频中的情感识别在以人为本的计算中起着重要的作用。现有的方法主要采用传统的两层浅层管道，即提取视觉和/或音频特征和训练分类器。在本文中，我们提出了一种基于卷积神经网络（CNNs）的端到端识别视频情绪的方法。具体来说，我们开发了一个深度视觉音频注意网络（VAANet），这是一种新的架构，它将空间、通道级和时间注意整合到视觉3DCNN中，并将时间注意整合到音频2DCNN中。此外

Encounter84·2023-04-18 09:54

推荐频道

recognition)