recognition 第19页

通过Python的speech_recognition库将声音转为文字

使用方法1.引入库2.创建一个Recognizer对象3.使用麦克风录音，从麦克风录制音频4.将音频转换为文字5.转换结果总结前言大家好，我是空空star，本篇给大家分享一下通过Python的speech_recognition

空空star·2023-08-21 21:21

基于视觉的仪表检测/指针仪表自动识别读数——论文解读

中文论文题目：基于关键点检测的指针仪表读数识别算法研究与应用英文论文题目：ResearchandApplicationofPointerMeterReadingRecognitionAlgorithmBasedonKeyPointDetection

大胡子大叔·2023-08-21 00:45

图片识别文字审核敏感词——Java

OCR（OpticalCharacterRecognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程管理敏感词和图片文字识别集成到项目

零维展开智子·2023-08-20 18:46

Bottleneck Transformers for Visual Recognition

谷歌和伯克利一起提出的BottleneckTransformer（BoT）属于一种hybridnetwork，将cnn和transformer结合起来，以期达到比二者单独使用更好的效果。BoT整体的想法其实比较简单，针对objectdetection、instancesegmentation等对输入图像尺寸要求较高的任务，普通的transformer（ViT）计算量和显存占用都很难做到大分辨率输入

nowherespyfly·2023-08-20 11:04

CVPR2023｜小红书提出 OvarNet 模型：开集预测的新SOTA，“万物识别”有了新玩法

在CVPR2023上，小红书社区技术团队提出了一项全新任务——Open-vocabularyObjectAttributeRecognition（面向开放词汇的目标检测与属性识别）。

小红书技术REDtech·2023-08-19 20:27

（论文总结）Temporal Pyramid Network for Action Recognition

一、大致介绍本文提取出了一个关注视频中动作快慢的网络，与SlowFast类似，但是SlowFast是将一个流分为两个帧率不同的分支最后再融合。而本文是结合了特征金字塔的思想来特征融合。二者有一定的区别，效果也再文中作出了对比。论文地址：2004.03548.pdf(arxiv.org)二、本文的结构2.1背景文中举了一个例子：walking，joggingandrunning，三种行走的速率不同，

10生万物·2023-08-19 19:03

（论文总结）SlowFast Networks for Video Recognition

文章目录一、传统的方法存在的问题1、没有将变化大和变化小的行为作出区分计算2、双流法的计算量和最后fc8的融合依旧是个问题二、本文的改进1、slow与fast两条路进行结合三、实验四、总结论文地址：论文官方代码：官方代码一、传统的方法存在的问题1、没有将变化大和变化小的行为作出区分计算（1）一个视频中的行为其实可以分为静态和动态的，一般认为做出行为的人是动态的，而背景是静态的，传统方法将静态和动态

10生万物·2023-08-19 19:33

（论文总结）Real-time Action Recognition with Enhanced Motion Vector CNNs

论文地址：https://arxiv.org/pdf/1604.07669.pdf代码地址：https://github.com/zbwglory/MV-release论文效果：基于双流网络，在精度保证损失很小的的情况下在UCF101上的FPS达到390.7（双流的FPS为14.3）要解决的核心问题：论文主要是基于双流网络来做的改进，双流网络有以下部分缺点：（1）光流（opticalflow）占据

10生万物·2023-08-19 19:32

（论文总结）Compressed Video Action Recognition

代码地址：https://github.com/chaoyuaw/pytorch-coviar一、摘要首先，深度神经网络尽管在图像任务中表现出了非常好的效果，但是在视频任务中由于存在时序问题，它有时候并不能发挥出最好的作用。传统的双流法采用光流来提取视频帧之间的运动差异信息，但是是针对整个视频来提取的，但是这里有个问题，视频在传输和读取的过程中占据了非常大的内存，只有通过编码（H264）将原始视频

10生万物·2023-08-19 19:02

图片文字识别-管理敏感词

目录什么是OCRTess4j案例图片文字识别-管理敏感词什么是OCROCR（OpticalCharacterRecognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，

sgmwgntw·2023-08-19 04:08

基于Python和Spacy的命名实体识别

命名实体识别（NamedEntityRecognition，简称NER）是一种自然语言处理（NLP）方法，用于检测和分类文本中的命名实体，包括人物、组织、地点、日期、数量和其他可识别的现实世界实体。

python慕遥·2023-08-19 01:28

用pytorch实现google net

它在ImageNetLargeScaleVisualRecognitionChallenge(ILSVRC)2014比赛中取得了优秀的成绩，并引起了广泛的关注。

天一生水water·2023-08-18 23:08

一篇一个CV模型，第(2)篇：ViT

参考资料：ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE[论文链接][论文源代码][写的比较好的PytorchViTTutorial

思念殇千寻·2023-08-18 18:53

人脸识别+mqtt完整代码

一、流程图二、完整代码：1.人脸识别importface_recognitionimportcv2importnumpyasnpimportosimportos.pathimportitertoolsimportmultiprocessingfromPILimportImage

笑问灶前粥可温·2023-08-18 17:20

提高transformer在语音识别的通用性

题目：Improvinggeneralizationoftransformerforspeechrecognitionwithparallelschedulesamplingandrelativepositionalembedding

静一下1·2023-08-18 13:09

语义分割之PSP-Net原理以及代码讲解

CVPR2017(IEEEConferenceonComputerVisionandPatternRecognition)论文地址：PyramidSceneParsingNetworkgithub地址：

xuzz_498100208·2023-08-18 08:00

论文阅读 - Large-scale weakly-supervised pre-training for video action recognition

5总结1概述本文是对论文Large-scaleweakly-supervisedpre-trainingforvideoactionrecognition的阅

七元权·2023-08-17 11:49

浅谈OCR中的David Shepard

在OCR（OpticalCharacterRecognition，光学字符识别）中，DavidShepard是一种早期的OCR技术，也被称为Shepard'sMethod。

pictoexcel·2023-08-17 09:27

AlexNet网络结构详解

2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf1、简介AlexNet是2012年ISLVRC(ImageNetLargeScaleVisualRecognitionChallenge

会害羞的杨卓越·2023-08-17 07:44

VGG16模型详解

VGG16在2014年的ImageNetLargeScaleVisualRecognitionChallenge(ILSVRC)竞赛中取得了显著的成绩。

夏天是冰红茶·2023-08-17 06:19

aspose.ocr 的图片识别

记录一些简单的识别图片操作首先需要导入相关依赖com.microsoft.onnxruntimeonnxruntime1.15.1基础的识别代码AsposeOCRapi=newAsposeOCR();RecognitionSettings

RyFit·2023-08-17 05:32

PyTorch从零开始实现ResNet

文章目录代码实现参考代码实现本文实现ResNet原论文DeepResidualLearningforImageRecognition中的50层，101层和152层残差连接。

阿正的梦工坊·2023-08-16 18:32

LeNet中文翻译

Gradient-BasedLearningAppliedtoDocumentRecognition基于梯度的学习应用于文档识别摘要使用反向传播算法训练的多层神经网络构成了成功的基于梯度的学习技术的最佳示例

緈福的街口·2023-08-16 13:18

[文献翻译]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

摘要：深度卷积网络在静态图像的视觉识别方面取得了巨大的成功。但是，对于视频中的动作识别，相对于传统方法的优势并不是那么明显。本文旨在设计有效的ConvNet架构来进行视频动作识别，并在有限的训练样本下学习这些模型。我们的第一项贡献是时间分段网络（TSN），这是一种基于视频的动作识别的新框架。这个结构是基于远程时间建模的思想。它结合了稀疏的时间采样策略和视频级的监督，可以使用整个动作视频进行有效的学

夏迪End·2023-08-16 10:40

也许是最简单的人脸识别

在写code之前基于不做“重复工作”的懒人思想在网上搜索了下现有的人脸识别开源项目，在对比过几种方法后发现了face_recognition这个项目，该项目使用dlib作为人脸探测，而在face_recognition

None也不行·2023-08-15 23:51

万物识别RAM：图像识别模型，Zero-Shot超越有监督

然而SAM作为一个极致的定位大模型，并没有识别（Recognition）能

猛码Memmat·2023-08-15 19:40

【文字检测与识别-白皮书】第一章：技术背景

1.技术背景1.1技术背景——什么是文本检测与识别OCR全称OpticalCharacterRecognition，即光学字符识别，最早在1929年被德国科学家Tausheck提出，定义为将印刷体的字符从纸质文档中识别出来

·2023-08-15 16:04

2021-03-23

论文阅读：《Knowledge-enhancedbiomedicalnamedentityrecognitionandnormalization:applicationtoproteinsandgenes

小小程序员一枚·2023-08-15 11:50

Selective Search for Object Recognition

SelectiveSearchforObjectRecognition本文相关PaperSummary:https://github.com/FDU-VTS/CVPaperCode:https://github.com

435fa00b72e7·2023-08-15 08:37

使用golang+antlr4构建一个自己的语言解析器（一）

Antlr4简介ANTLR（全名：ANotherToolforLanguageRecognition）是基于LL(*)算法实现的语法解析器生成器（parsergenerator），用Java语言编写，使用自上而下

sinat_40572875·2023-08-15 00:50

【论文精读】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE前言Abstract1INTRODUCTION2RELATEDWORK3METHOD3.1VISIONTRANSFORMER

HERODING77·2023-08-14 18:19

Tesseract用OpenCV进行文本检测

我没有混日子，只是辛苦的时候没人看到罢了一、什么是TesseractTesseract是一个开源的OCR（OpticalCharacterRecognition）引擎，OCR是一种技术，它可以识别和解析图像中的文本内容

半自定义大剑仙·2023-08-14 18:32

CV学习笔记(三十)：人脸识别流程分析

*理论联系实际，记录下读《DeepFaceRecognition:ASurvey》的心得体会一个完整的人脸识别流程应该包含以下几个模块:1:人脸的检测:定位图片中存在人脸的位置2:人脸的对齐:对齐人脸到正则坐标系的坐标

云时之间·2023-08-14 17:22

模式识别和计算机科学与技术,模式识别与智能系统

[1]中文名模式识别与智能系统外文名Patternrecognitionandintelligentsystem所属学科计

chen cs·2023-08-14 00:03

Java ansj分词数字与英文量词分割问题

引言最近项目中可能有个需求需要用到分词，所以研究了解了一下Java的ansj，然后发现了个数字与英文量词一直被分隔出来的问题场景复现根据官方文档，通过配置文件的isQuantifierRecognition

EoniJJ·2023-08-13 13:28

（pytorch-深度学习系列）ResNet残差网络的理解-学习笔记

ResNet残差网络的理解ResNet伴随文章DeepResidualLearningforImageRecognition诞生，该文章是MSRA何凯明团队在2015年ImageNet上使用的网络，在当年的

我是一颗棒棒糖·2023-08-13 06:25

Flutter中识别图片中的二维码

安卓和iOS原生都有相应的api去识别图片二维码内容,flutter暂时没找到,找了好久最终发现这个插件recognition_qrcodepub地址参数img:支持base64、url、filePath

黑炭长·2023-08-13 03:34

OCR的发明人是谁？

OCR（OpticalCharacterRecognition，光学字符识别）的发明涉及多个人的贡献，没有一个具体的人可以被称为"OCR的发明人"。

pictoexcel·2023-08-12 22:59

CNN经典网络模型之GoogleNet论文解读

它在ILSVRC（ImageNetLargeScaleVisualRecognitionChalle

山河亦问安·2023-08-12 20:46

微信小程序之实名认证人脸识别接口-wx.startFacialRecognitionVerify

小程序前端使用人脸识别功能绑定用户//开始实名认证的方法--调用摄像头facialRecognitionVerify:function(userName,userIdCard){wx.startFacialRecognitionVerify

敲代码的TKP·2023-08-12 18:07

【论文摘要】ImageNet：A Large-Scale Hierarchical Image Database

ImageNet系列1《ImageNet：ALarge-ScaleHierarchicalImageDatabase》ImageNet系列2《ImageNetLargeScaleVisualRecognitionChallenge

joyce_peng·2023-08-12 15:53

简单有趣的变形金刚网络（VIT） Vision Transformer（可以直接替换自己数据集）-直接放置自己的数据集就能直接跑（网络结构详解+详细注释代码+核心思想讲解）——pytorch实现

论文题目：AnImageIsWorth16x16Words:TransformersForImageRecognitionAtScale原论文下载链接：https://arxiv.org/abs/2010.11929

小馨馨的小翟·2023-08-12 15:10

目标跟踪与检测后进行 OpenCV 人脸识别，马赛克

文章大纲简介模型下载地址ONNX静态与动态参数OpenCV中支持的人脸检测、识别Facedetection人脸检测YuNetFacerecognition人脸识别sFace目标检测，跟踪后的人脸模糊目标检测

shiter·2023-08-12 06:56

论文阅读激光脉冲主动非视距成像+深度学习 || Learned Feature Embeddings for Non-Line-of-Sight Imaging and Recognition

KiriakosN.Kutulakos,SzymonRusinkiewicz,andFelixHeide.2020.LearnedFeatureEmbeddingsforNon-Line-of-SightImagingandRecognition.ACMTrans.Graph

R.X. NLOS·2023-08-12 05:06

windows10下无法安装 dlib与face-recognition

Windows安装face-recognition的过程中，一直卡在dlib的编译过程中问题原因安装face-recognition需要首先安装dlibwindows无法直接安装dlib的原因主要是因为缺少相应的编译环境

Eric走走停停·2023-08-11 17:36

【比赛获奖方案开源】中文短文本实体链指比赛技术创新奖方案开源

【任务介绍】实体链指（EntityLinking）是NLP领域的基础的任务，一般与实体识别（EntityRecognition）深度绑定在一起。一般的Pipline为：

Necther·2023-08-11 13:12

智能语音对话处理过程

ASR（AutomaticSpeechRecognition）：语音识别，听见你说的是什么，转化成文字。

xiyt·2023-08-11 13:05

命名实体识别方法：W2NER

一、介绍代码：https://github.com/ljynlp/W2NER论文：UnifiedNamedEntityRecognitionasWord-WordRelationClassification

qq_23438131·2023-08-11 12:11

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

Whisper系统所提供的自动语音辨识（AutomaticSpeechRecognition，ASR）模型是被训练来运行语音辨识与翻译任务的，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文。

寒冰屋·2023-08-11 10:45

C#使用Spire.OCR框架识别图片中的字母，数字，文字等

OCROCR（opticalcharacterrecognition），光学字符识别。

斯内科·2023-08-11 07:28

推荐频道

recognition