说话人识别

PyTorch（超详细）部署与激活举起Python火炬，点亮智慧人生【Windows版】

心安成长·2024-02-06 14:04

PFEA113-65 3BSE050092R65

PFEA113-653BSE050092R65PFEA113-653BSE050092R65PFEA113-653BSE050092R65说话人识别系统中VQ判决模块的FPGA实现...后，clr_tag

DCS17750010683·2024-02-02 00:19

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 概述

CCFBDCI2023】多模态多方对话场景下的发言人识别Baseline0.71概述模型简介基于CNN的判断每张人脸是否是说话人的模型基于Transformer-Encoder的判断同一段对话中不同轮次的说话人关系的模型说话人识别求解器文件结构如何运行代码

我是小白呀·2023-12-21 18:48

经验模式分解（EMD）及希尔伯特-黄变换（HHT）简介及matlab实现

本文介绍过程涉及到两个链接工具包，可以自己网上搜索下载，以下提供了网盘下载的地址，因为作者主要做语音方面工作，所以后面的说明主要以说话人识别为例。

一弦-sring·2023-11-25 18:58

基于支持向量机 (SVM) 和稀疏表示理论 (SRC) 的人脸识别比较

到目前为止，支持向量机已应用于孤立手写字符识别、网页或文本自动分类、说话人识别、人脸检测、性别分类、计算机入侵检测、基因分类、遥感图象分析、目标识别、函

西部小狼_·2023-11-15 01:36

说话人识别声纹识别CAM++，ECAPA-TDNN等算法

参考：https://www.modelscope.cn/models?page=1&tasks=speaker-verification&type=audiohttps://github.com/alibaba-damo-academy/3D-Speaker/blob/main/requirements.txt单个声纹比较可以直接modelscope包运行frommodelscope.pipel

loong_XL·2023-11-10 11:45

MFA-Conformer

基于多尺度特征聚合Conformer说话人识别模型的创新与应用论文：https://arxiv.org/abs/2203.15249代码：GitHub-zyzisyz/mfa_conformer收录于INTERSPEECH20221

shadowismine·2023-11-02 23:05

An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification

AnEnhancedRes2NetwithLocalandGlobalFeatureFusionforSpeakerVerification论文单位：阿里巴巴集团，中国科学技术大学核心内容：有效融合多尺度特征对于提高说话人识别性能至关重要

shadowismine·2023-10-25 04:09

进阶课1——声纹识别

声纹识别是一种生物识别技术，也称为说话人识别，包括说话人辨认和说话人确认两种技术。

AI 智能服务·2023-10-21 16:48

TDNN方法学习

：一段语音、一段文本将TDNN和统计池化（StatisticsPooling）结合起来，正如x-vector的网络结构，可以处理任意长度的序列x-vector的网络结构x-vector是用于文本无关的说话人识别的

shadowismine·2023-10-15 09:46

matlab音频信号处理实验报告,基于MATLAB的LPC分析_语音信号处理实验报告.doc

MATLAB的LPC分析实验(实习)日期2013.5.2得分_指导教师院电子与信息工程专业电子信息工程年级班次姓名学号一、实验目的线性预测分析是最有效的语音分析技术之一，在语音编码、语音合成、语音识别和说话人识别等语音处理领域中得到了广泛的应用

weixin_42545066·2023-09-28 18:11

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

引言2023年，IT领域的焦点无疑是ChatGPT，然而，同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。Whisper是一款自动语音识别系统，可以识别来自99种不同语言的语音并将其转录为文字。如果说ChatGPT为计算机赋予了大脑，那么Whisper则为其赋予了耳朵。想象一下，在企业应用领域，我们能够利用Whisper将语音转化为文字，然后再借助ChatGPT来进行翻译或总结。接

cybozu开发者·2023-09-20 07:35

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

引言2023年，IT领域的焦点无疑是ChatGPT，然而，同属OpenAI的开源产品Whisper似乎鲜少引起足够的注意。Whisper是一款自动语音识别系统，可以识别来自99种不同语言的语音并将其转录为文字。如果说ChatGPT为计算机赋予了大脑，那么Whisper则为其赋予了耳朵。想象一下，在企业应用领域，我们能够利用Whisper将语音转化为文字，然后再借助ChatGPT来进行翻译或总结。接

·2023-09-19 10:29

论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用

ACMTransactionsonAudio,SpeechandLanguageProcessing(TASLP)录用，一篇论文被重要期刊IEEESignalProcessingLetters(IEEESPL)录用，论文方向涉及说话人识别中的对抗攻击

语音之家·2023-09-12 16:00

语音识别对于智能机器人为什么重要

与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。简单来说就是是区分说话人的声音是否是说话人本人，同时确认说话人的词汇内容。

21世纪的机器猫·2023-09-07 18:39

ICASSP 2023说话人识别方向论文合集

今年入选ICASSP2023的论文中，说话人识别（声纹识别）方向约有64篇，初步划分为SpeakerVerification（31篇）、SpeakerRecognition（9篇）、SpeakerDiarization

语音之家·2023-08-28 17:39

NeMo 声纹识别VPR-实战

声纹识别(VPR)，生物识别技术的一种，也称为说话人识别，是从说话人发出的语音信号中提取声纹信息，从应用上看，可分为：说话人辨认(SpeakerIdentification)：用以判断某段语音是若干人中的哪一个所说的

wxl781227·2023-08-16 04:17

HIT SPLAB端到端说话人识别演示系统说明

部署环境要求python3.0+sklearnnumpytensorflowpyprindpyaudioscipypython_speech_features目录结构说明speaker_recognition_demonstrationmodelmodel_of_extractor_with_attentionparams_1.jsonspk_modelspeaker_model.modelreg

ChongmingLiu·2023-08-07 11:38

使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别。

介绍本文介绍一种使用tensorflow框架和densenet神经网路实现声纹语谱图识别算法,即说话人识别。

zhigongjz·2023-07-27 21:52

NPU-ASLP实验室11篇论文被语音旗舰会议Interspeech2023录用

西工大音频语音与语言处理研究组（ASLP@NPU）本届会议将携合作伙伴宣读论文11篇，涉及智能语音处理领域的众多研究方向，包括语音识别、语音合成与转换、语音翻译、说话人识别等。

语音之家·2023-06-12 19:16

达摩院开源工业级说话人识别模型CAM++

近日，达摩院正式向公众开源工业级说话人识别通用模型CAM++，兼顾准确率和计算效率，训练labels类别达20万，每类含20～200条梅尔频谱特征。

语音之家·2023-04-21 21:02

三点几嚟，饮茶先啦！PaddleSpeech发布全流程粤语语音合成

PaddleSpeech是飞桨开源语音模型库，其提供了一套完整的语音识别、语音合成、声音分类和说话人识别等多个任务的解决方案。近日，PaddleSpeech迎来了重要更新——r1.4.0版本。

飞桨PaddlePaddle·2023-04-07 17:30

语音数据添加噪声

如果需要模拟真实世界中的环境噪声，例如在语音识别或说话人识别任务中，通常会使用高斯噪声来模拟背景噪声。

末世灯光·2023-04-07 06:27

【论文阅读】X-vectors: Robust DNN Embedding for Speaker Recognition

文章链接参考关键词说话人识别、DNN、数据增强、x-vectors主要工作本文所用的DNN可接受任意长度的输入，并转换成固定长度的表达（即x-vector）。

abcdhhhh_·2023-04-06 17:22

python语音识别技术实验报告_语音识别系统实验报告.docx

1语音识别的简单介绍2.1语者识别的概念……………………………………………22.2特征参数的提取……………………………………………32.3用矢量量化聚类法生成码本………………………………32.4VQ的说话人识别

RUI老师·2023-04-06 03:19

以应用为导向，看声纹识别中的音频伪造问题

声纹识别，又称说话人识别，是根据语音信号中的声纹特征来识别话者身份的过程，也是一种重要的生物认证手段。

语音之家·2023-02-16 22:51

声纹识别技术简介

声纹识别技术简介——化繁为简的艺术2017年11月26日14:20:20阅读数：1406最近一直在看说话人识别的文章，个人觉得写的比较全面，逻辑比较清晰的，腾讯优图的声纹识别技术简介综述写的很好，推荐给大家

xiaocao9903·2023-02-02 08:11

声纹识别技术综述

转载一篇声纹识别的综述，写的很好原文地址：https://blog.csdn.net/jojozhangju/article/details/78637118最近一直在看说话人识别的文章，个人觉得写的比较全面

奇解·2023-02-02 08:37

（阅读）MPC-BERT: A Pre-Trained Language Model for Multi-Party Conversation Understanding

论文地址代码标题MPC-BERT：一种用于多方对话理解的预训练语言模型摘要最近，用于多方对话（MPC）的各种神经网络模型在诸如接收人（addressee）识别、说话人识别和回复预测等任务上取得了令人印象深刻的改进

aiyouyou_·2023-01-29 20:13

EER(equal error rate) DET图

EERequalerrorrate等错误率这个在说话人识别，说话人确认中最常用的评价指标指的是两个错误率在相等的一个点--FRR=FAR错误接受率（nontarget_is_target/(target_is_target

懿鸣惊鸿·2023-01-28 16:35

2.FINE-TUNING WAV2VEC2 FOR SPEAKER RECOGNITION

摘要：本文探讨了将wav2vec2框架应用于说话人识别而不是语音识别。我们研究了预先训练的权重对说话人识别任务的有效性，以及如何将wav2vec2输出序列汇集到固定长度的说话人嵌入中。

一根藤～·2023-01-26 17:52

Softmax Loss、AAM-Softmax（ArcFace）、Sub-center ArcFace的PyTorch实现与代码解读

概述说话人识别中的损失函数分为基于多类别分类的损失函数，和端到端的损失函数（也叫基于度量学习的损失函数），关于这些损失函数的理论部分，可参考说话人识别中的损失函数本文主要关注这些损失函数的实现，此外，文章说话人识别中的损失函数中

DEDSEC_Roger·2023-01-19 10:13

长时平均功率谱

LTAS，LongTermAverageSpectrum)长时平均功率谱是语音的频谱特征之一，能够反映出一段语流中说话人的全部频率分量，以及各频率分量与强度之间的关系，是表征个人语音特性的参量之一，在说话人识别中应用广泛

BarbaraChow·2023-01-18 12:59

Facebook AI 发布“HuBERT”：一种学习自我监督语音表示的新方法

这不仅需要评估某人所说的话，还需要从这些话的表达方式中获得各种其他线索，例如说话人识别、情绪、犹豫和打断。

lyfwx·2023-01-17 15:19

说话人识别中的Temporal pooling（时序池化）

概述Temporalpooling（时序池化）是说话人识别神经网络中，声学特征经过frame-level变换之后，紧接着会进入的一个layer。

DEDSEC_Roger·2023-01-16 08:09

说话人识别综述阅读1

说话人识别综述阅读Deeplearningmethodsinspeakerrecognition:areview摘要本文总结了深度学习在验证和识别领域的应用实践。语音识别是语音技术广泛应用的课题。

lc520xyp·2023-01-14 12:52

语音识别框架speechbrain---speaker-recognition说话人识别/声纹识别：模型评价(2)

EER与minDCF计算—基于自己数据的模型（cosine）（1）构建验证verification文件defcreate_veri_file(data_folder,save_file):"""生成验证txt文件"""dev_save_path=[]withopen(save_file,"w")asf

.DDDD·2023-01-12 11:52

说话人识别中的分数规范化（Score Normalization）

概述在说话人辨认任务中，我们会将待验证的话语ttt与已注册的话语集合{e1,e2,...,en}\left\{e_1,e_2,...,e_n\right\}{e1,e2,...,en}，计算相似度，得到{s(e1,t),s(e2,t),...,s(en,t)}\left\{s(e_1,t),s(e_2,t),...,s(e_n,t)\right\}{s(e1,t),s(e2,t),...,s(en

DEDSEC_Roger·2023-01-11 11:58

深入理解ECAPA-TDNN——兼谈Res2Net、ASP统计池化、SENet、Batch Normalization

概述ECAPA-TDNN是说话人识别中基于TDNN的神经网络，是目前最好的单体模型之一关于TDNN，可以参考深入理解TDNN（TimeDelayNeuralNetwork）——兼谈x-vector网络结构

DEDSEC_Roger·2023-01-11 11:23

声纹识别之xvector

说话人识别xvector网络结构理解，从tdnn到xvector向量。

NonDay·2023-01-02 07:51

文献阅读：基于时延深度神经网络的说话人识别通用背景模型

论文论文：TIMEDELAYDEEPNEURALNETWORK-BASEDUNIVERSALBACKGROUNDMODELSFORSPEAKERRECOGNITION摘要 DNN被引入i-vector说话人识别系统并取得了显著的性能提升

Tristespirit·2023-01-02 07:37

声纹识别

声纹识别，也称说话人识别，是一种通过声音判断说话人身份的技术。

weixin_30889885·2023-01-01 10:01

语音识别人工智能解决方案

与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别系统一般分训练和解码两阶段。训练，即通过大量标注的语

编程大乐趣·2022-12-27 23:12

电脑语音识别输入法

与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词

编程大乐趣·2022-12-27 06:31

X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION总结

目录1.摘要2.前言3.说话人识别系统SPEAKERRECOGNITIONSYSTEMS3.1Acoustici-vector3.2Phoneticbottlenecki-vector3.3x-vector4

午夜零时·2022-12-25 18:54

微软说话人识别工具箱(MSR Identity Toolbox)应用与实践教程

微软说话人识别工具箱1(MSRIdentityToolbox)是由微软研究院开源的声纹识别工具，使用MATLAB语言编写。

NonDay·2022-12-25 03:37

MATLAB说话人识别系统GUI界面

MATLAB说话人识别系统GUI界面一、选题背景、目的及意义随着社会的快速发展，人民的生活水平逐渐提高，人们已经进入了互联网信息时代，对生活智能的追求再提高。

技术狼灭·2022-12-25 03:04

基于MATLAB的说话人识别系统

基于MATLAB的说话人识别系统语音识别的简单介绍基于MATLABVQ算法的说话人识别系统，矢量量化起着双重作用。在训练阶段，把每一个说话者所提取的特征参数进行分类，产生不同码字所组成的码本。

m0_55395440·2022-12-25 03:34

说话人识别中的数据预处理和数据增强

SpeechDetection，或SilenceSuppression，静音抑制）特征提取与标准化（Normalization，注意要和归一化、正则化等说法区分）数据分组数据清洗目的是提高数据的正确性，关于数据的正确性，可参考说话人识别的数据需求出

DEDSEC_Roger·2022-12-25 03:33

说话人识别的数据需求

不论神经网络多么先进，如果输入是垃圾，那么输出也一定是垃圾在说话人识别领域，所需的最小数据单元，包括：一段只包含单一说话人语音的音频，被称为Utterance（话语）该段音频的说话人标签，能够唯一地在整个数据集中标识该说话人怎么样的数据不是

DEDSEC_Roger·2022-12-25 03:00

推荐频道

说话人识别

PyTorch（超详细）部署与激活 举起Python火炬，点亮智慧人生【Windows版】

PFEA113-65 3BSE050092R65

【CCF BDCI 2023】多模态多方对话场景下的发言人识别 Baseline 0.71 概述

经验模式分解（EMD）及希尔伯特-黄变换（HHT）简介及matlab实现

基于支持向量机 (SVM) 和稀疏表示理论 (SRC) 的人脸识别比较

说话人识别声纹识别CAM++，ECAPA-TDNN等算法

MFA-Conformer

An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification

进阶课1——声纹识别

TDNN方法学习

matlab音频信号处理实验报告,基于MATLAB的LPC分析_语音信号处理实验报告.doc

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

Whisper + NemoASR + ChatGPT 实现语言转文字、说话人识别、内容总结等功能

论文分享丨西工大音频语音与语言处理研究组四篇论文被IEEE Trans. ASLP和SPL录用

语音识别对于智能机器人为什么重要

ICASSP 2023说话人识别方向论文合集

NeMo 声纹识别VPR-实战

HIT SPLAB端到端说话人识别演示系统说明

使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别。

NPU-ASLP实验室11篇论文被语音旗舰会议Interspeech2023录用

达摩院开源工业级说话人识别模型CAM++

三点几嚟，饮茶先啦！PaddleSpeech发布全流程粤语语音合成

语音数据添加噪声

【论文阅读】X-vectors: Robust DNN Embedding for Speaker Recognition

python语音识别技术实验报告_语音识别系统实验报告.docx

以应用为导向，看声纹识别中的音频伪造问题

声纹识别技术简介

声纹识别技术综述

（阅读）MPC-BERT: A Pre-Trained Language Model for Multi-Party Conversation Understanding

EER(equal error rate) DET图

2.FINE-TUNING WAV2VEC2 FOR SPEAKER RECOGNITION

Softmax Loss、AAM-Softmax（ArcFace）、Sub-center ArcFace的PyTorch实现与代码解读

长时平均功率谱

Facebook AI 发布“HuBERT”：一种学习自我监督语音表示的新方法

说话人识别中的Temporal pooling（时序池化）

说话人识别综述阅读1

语音识别框架speechbrain---speaker-recognition说话人识别/声纹识别：模型评价(2)

说话人识别中的分数规范化（Score Normalization）

深入理解ECAPA-TDNN——兼谈Res2Net、ASP统计池化、SENet、Batch Normalization

声纹识别之xvector

文献阅读：基于时延深度神经网络的说话人识别通用背景模型

声纹识别

语音识别人工智能解决方案

电脑语音识别输入法

X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION总结

微软说话人识别工具箱(MSR Identity Toolbox)应用与实践教程

MATLAB说话人识别系统GUI界面

基于MATLAB的说话人识别系统

说话人识别中的数据预处理和数据增强

说话人识别的数据需求

PyTorch（超详细）部署与激活举起Python火炬，点亮智慧人生【Windows版】