aishell

如何快速掌握WeNet：从零到一的端到端语音识别学习指南

学习路径总览为什么优先学习AIShell示例？

Crazy learner·2025-07-28 07:24

python系列&deep_study系列：Whisper OpenAI开源语音识别模型

微调[AIShell](https://openslr.magicdatatech.com/resources/33/)数据集后字错率测试表。

坦笑&&life·2025-04-29 06:19

适用于呼叫中心质检的离线ASR模型

优势：预训练模型基于AIShell等中文数据集，准确率高。低延迟，适合实时处理（如质检中的实时监控）。支持GPU/CPU部署，提供Python和C++接口。部署

狂爱代码的码农·2025-02-24 08:07

基于深度学习的中文语音识别系统（毕设）

该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模，其中声学模型包括CNN-CTC、GRU-CTC、CNN-RNN-CTC，语言模型包含transformer、CBHG，数据集包含stc、primewords、Aishell

程序员奇奇·2024-02-28 11:53

Kaldi单步完美运行AIShell v1 S5之四：DNN (nnet3、xent、MPE)

第11部分：nnet3DNN第12部分：nnet3训练、解码、校准第13部分：迭代深度计算第14部分：Chain致谢感谢AIShell在商业化道路上的探索。期待着v3的到来。

aiXpert·2024-01-06 19:28

【模型整体的结构1】2021-04-28

#五个部分结构图#1模型参数（超参数）data{'name':'aishell','vocab':'egs/aishell/data/text2.txt','batch_size':8,'dataset_type

star星陨·2023-12-30 07:49

回顾丨2023 SpeechHome 第三届语音技术研讨会

下面是整体会议的内容回顾：18日线上直播回顾18日上午9:30，AISHELL&SpeechHomeCEO卜辉宣布研讨会开始，并简要介绍本次研讨会的筹备情况以及报告内容。

语音之家·2023-12-21 07:02

报名开启丨2023 SpeechHome 语音技术研讨会

本届研讨会覆盖5大主题，包括语音前沿技术、音频生成、音频与大模型、数据与大模型及开源技术，其中开源技术内容包括Kaldi、ESPnet、WeNet、ModelScope、AISHELL等。

语音之家·2023-12-21 07:32

AI拟声: 5秒内克隆您的声音并生成任意语音内容

特征中文支持普通话并测试了多个数据集：aidatatang_200zh、magicdata、aishell3、data_aishell等。

Sonhhxg_柒·2023-11-24 13:18

wenet aishell脚本解析

1local/download_and_untar.shell脚本解析可以选择下载解压之后删除压缩包，--remove-archive使用该标记实现下载的文件存放目录：$data，如果不存在则返回错误aishell

weixin_43870390·2023-10-22 00:17

AISHELL2脚本参数和生成文件详解（二）

local/run_gmm.shconfignjstagegmm-stagesteps/make_mfcc.sh(原脚本是steps/make_mfcc_pitch.sh)steps/make_fbank.sh(forNN)configcmd本地运行还是集群nj=fbank_config=conf/fbank.conf详情见config文件夹(不同的特征提取方式)decode.conffbank.

氢离子游离·2023-09-07 23:43

wenet-基于预训练模型进行增量训练

43870390的博客-CSDN博客一、准备工作第一步：准备训练数据，拷贝到远程服务器将准备好的数据文件0529_0531_dataset，上传到恒源云上的/hy-tmp/wenet/examples/aishell

流音寻帆_jonesky·2023-07-28 00:21

将大模型集成到语音识别系统中的例子

本文设计了使用Aishell-1和LibriSpeech数据集的实验，通过与ChatGPT和GPT-4进行对比，评估LLMs在ASR应用中的能力。然而，初步的实验结果并不理想，表明利

无数据不智能·2023-07-19 22:25

学习Kaldi：中文Aishell项目（上）

本篇文章的主要目标是理解复杂的中文多音素语言模型和使用AiShell语料集来真实的训练出一个可用的中文语音识别模型。完整的AiShell例子包含GMM-HMM和神经网络

陈闽ChenMin·2023-06-20 07:15

基于ASRT中文语音识别系统的优化

ASRT_SpeechRecognition该项目很不错，但是本人用原版项目代码进行训练测试无法达到较好的效果，然后对其做了一些改动，时间有限最终拼音ER在11%左右，词错误率WER在33%左右，数据集使用aishell

喜欢编程的网管·2023-04-21 02:52

AISHELL-3语料库及格式解读

AISHELL-3希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句，可做为多说话人合成系统。

子燕若水·2023-04-15 09:51

MADAO123·2023-03-22 20:14

论文阅读|ERNIE-SAT: SPEECH AND TEXT JOINT PRETRAININGFOR CROSS-LINGUAL MULTI-SPEAKER TEXT-TO-SPEECH

arxiv.org/pdf/2211.03545v1.pdf代码链接：https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/examples/aishell3

我是诺特泰尔德·2023-02-05 09:02

【论文阅读】Paraformer工业级非自回归端到端语音识别模型

FastandAccurateTransformerforNon-autoregressiveEnd-to-EndSpeechRecognition摘要介绍方法整体框架PredictorSamplerLossFunction实验实验设置AISHELL

weixin_43870390·2023-02-04 21:24

通过FastSpeech2中文合成项目梳理TTS流程2: 数据训练（train.py)

AnimplementationofMicrosoft's"FastSpeech2:FastandHigh-QualityEnd-to-EndTexttoSpeech"2.数据训练所用python命令：python3train.py-pconfig/AISHELL3

BabelBook·2023-01-25 07:48

AISHELL-3: A MULTI-SPEAKER MANDARIN TTS CORPUS AND THE BASELINES 论文理解

0.说明很好的中文多说话人TTS语料,谢谢各位老师们~0.摘要在本文中，我们提出了AISHELL-3，一个大规模和高保真的多说话人普通话语音语料库，可用于训练多说话人文本到语音(TTS)系统。

ruclion·2023-01-12 13:15

语音处理之开源数据集AiShell 3，个性化合成

开源数据集AiShell3，该文章由北京希尔贝壳公司于2020.10.22更新，主要开源了多说话人数据，用于训练multispeakerTTS，为TTS的研究做贡献，语音合成的训练数据十分昂贵，尤其训练多人的

才大难为用·2023-01-12 13:36

NVIDIA 在 WeNet 中开源 Noisy Student Training 方案

在AIShell-1上与无数据筛选的基线相比可以有10.4%的性能提升；在AIShell-2上可以取得4.72%字错误率。目前该工作已投稿ICASSP2023，论文预览版可见：https://a

语音之家·2023-01-05 22:51

使用 PaddleSpeech 训练一个自己的 TTS 模型

(以下内容搬运自PaddleSpeech)首先看一下效果对paddlespeech的拙劣尝试对paddlespeech的拙劣尝试2我们需要走通other/mfa和aishell3/tts3两个流程另外windows

小湉湉·2022-12-20 12:51

中文语音识别数据集总结

爱数智慧中文手机录音音频语料库（MandarinChineseReadSpeech）4.THCHS305.ST-CMDS6.MAGICDATAMandarinChineseReadSpeechCorpus7.AISHELL7.1AISHELL

buaa996·2022-12-02 16:48

语音合成公开数据集链接

英文：LJSpeech:ljspeechVCTK：vctkLibriTTS:libritts中文：标贝中文女生开源数据集：bakerAISHELL3：aishell3

cxxx17·2022-12-02 16:17

开课通知 | 《AISHELL-3语音合成实战》课程

语音合成技术在多个智能语音技术的学习方向中，语音合成又称文本转换（TextToSpeech,简称TTS）即将文字信息转换成为人类可以听得懂、流利的语音技术。在人机语音交互系统中，语音合成作为最后机器将内容转化为语音的输出环节，做到自然和拟人度高，形成完整的交互体验。语音合成技术的应用落地不仅是文字符号到音频信号的转换，如何像人一样表达意图、清晰的语义、标准的口音等等，让虚拟人变的更真实还需要更多的

语音之家·2022-11-29 08:41

语音处理之 libritts，AIShell

LibriSpeech该数据集为包含文本和语音的有声读物数据集，由VassilPanayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物，并经过细致的细分和一致。经过切割和整理成每条10秒左右的、经过文本标注的音频文件，非常适合入门使用。LibriTTS是一种多语言英语语种，以24kHz采样率阅读英语语音约585小时，由HeigaZen在

才大难为用·2022-11-24 09:10

声纹识别X-Vector

背景声纹识别上x-vector被作为很多赛事的baseline使用，包括aishell2018、ASVspoof2019。

包子鸡蛋·2022-11-22 12:56

语音识别系列︱paddlehub的开源语音识别模型测试（二）

文章目录1paddlehub的安装2几款模型3三款语音识别模型实验3.1deepspeech2_aishell

悟乙己·2022-11-22 06:50

AISHELL-2 中文语音数据库

AbstractAISHELL-1isbyfarthelargestopen-sourcespeechcorpusavailableforMandarinspeechrecognitionresearch.ItwasreleasedwithabaselinesystemcontainingsolidtrainingandtestingpipelinesforMandarinASR.InAISHEL

希尔贝壳AISHELL·2022-11-21 05:36

AISHELL-4 多通道中文会议语音数据库

AISHELL-4是一个通过麦克风阵列实录的八通道中文普通话会议场景语音数据集。该数据集共包含211场会议，每场会议4至8人，数据集共120小时左右。该数据集旨在促进实际应用场景下多说话人处理的研究。

希尔贝壳AISHELL·2022-11-21 05:36

SH-CST 2022丨SpeechHome 语音技术研讨会

本届研讨会内容覆盖音视频多模态、构音障碍人群的语音研究、前端信号处、跨语种语音转换、声音信号理解、多人会话等前沿智能语音技术，以及Kaldi、ESPnet、WeNet、ASV-Subtools、AISHELL

语音之家·2022-11-20 10:49

语音领域，对于入门学生和初入职场者需要具备什么能力？

在kaldi上开源了aishell、aishell2、hi-mia等recipe，包含语音识别，声纹

深蓝学院·2022-11-19 21:30

Kaldi语音识别技术(二) ----- 完成数据的准备

环境准备在之前章节我们已经基于CentOS7编译好了Kaldi具体可见http://t.csdn.cn/dnmkF✔如果你不想自己编译，可以点击下载克隆文件（基于VMware16.2.x的虚拟机磁盘）实践主要基于kaldi里面的aishell1

Python-AI Xenon·2022-11-19 04:51

wenet--学习笔记（1）

wenet下的runtime中没有server目录下的serverx86：目录更新了，进入libtorch进行操作即可aishell的目录里有流式解码和非流式解码的配置，是通过use_dynamic_chunk

Wsyoneself·2022-11-14 09:20

AISHELL-1 语音识别实战

AI工匠学堂https://xjw.h5.xeknow.com/s/3eZIFrAISHELL-1开发者学习语音技术离不开数据，AISHELL-1数据集自2017年由希尔贝壳发布至今始终被高频应用在语音技术开发及实验中

语音之家·2022-10-27 18:04

【语音识别框架】语音识别框架之wenet

环境配置https://github.com/wenet-e2e/wenetgitclonehttps://github.com/wenet-e2e/wenet.git#克隆源码AIShell教程我们提供了

语音不识别·2022-09-29 07:36

《WeNet语音识别实战》答疑回顾（三）

答：帧长25ms，帧移10ms问4：是不是目前基于aishell预训练的模型在给定的py脚本下里面是没办法流式的？尝试改了enc

语音之家·2022-09-28 07:18

Python 实现 AI 拟声: 5秒内克隆您的声音并生成任意语音内容

特性中文支持普通话并使用多种中文数据集进行测试：aidatatang_200zh,magicdata,aishell3,biaobei,MozillaCommonVoice,data_aishell等PyTorch

hwtl070359898·2022-09-15 16:46

AISHELL Speaker Verification Challenge 2019

赛事简介智能语音市场处于大幅增长前期，逐渐成熟的语音技术使得智能语音的商业化落地成为可能。随着智能音箱以及智能语音交互的设备不断落地，声纹识别的技术成为人体物理特征验证的一项重要语音技术。未来智能语音交互的设备都将具备声纹识别功能、借此确认用户身份，只有自己的声纹才可以启动购物、签字、控制等。5G的到来，AI+IoT成为可能，万物联网所带来的智能化时代，语音助手、安防等领域有着广泛的应用场景，声纹

希尔贝壳AISHELL·2022-07-20 16:39

【kaldi】chain-model的TCP server部署

/model参数说明：aishell训练时提取的特征加入了p

MachineCYL·2022-07-14 07:03

Kaldi 入门使用教程

文章目录下载Kaldi编译安装运行TIMIT项目（失败）准备数据修改脚本Error1Error2对齐数据修改配置Error1aishell项目参考文献下载Kaldigitclonehttps://github.com

snowleopard_bin·2022-07-08 07:59

语音识别--kaldi笔记(2)

local/aishell_train_lms.sh||exit1(语言模型训练)这个shell脚本读取data/local/train/text,data/local/dict/lexicon.txt

尚歌·2022-06-10 07:38

语音识别——基于深度学习的中文语音识别系统框架

数据集采用了目前能找到的所有中文免费数据，包括：thchs-30、aishell、primewords、st-cmd四个数据集，

hnzwx888·2022-04-25 07:24

espnet中的transformer和LSTM语言模型对比实验

摘要：本文以aishell为例，通过对比实验为大家介绍transformer和LSTM语言模型。

华为云开发者社区·2022-03-30 10:00

依图进军语音赛道，与微软、华为达成合作，多模态成势

12月11日，起步于计算机视觉的依图正式进军语音识别领域，宣布其在全球最大的中文开源数据库AISHELL-2中取得了短语音听写字错率3.71%的好成绩。

甲子光年·2021-06-23 14:14

依图科技发布语音开放平台，联袂微软、华为撬动语音市场

在全球最大的中文开源数据库AISHELL-2中，依图短语音听写的字错率（CER）仅为3.71%，领先原业内领军者约20%，大幅刷新现有纪录。

甲子光年·2021-06-11 13:13

kaldi 源码分析(八) - DNN训练过程

走在成长的道路上·2021-05-11 00:58

2021-03-08 Speech-Transformer项目模型参数统计

读入已训练好并保存的模型pthfile=r'/home/user1/Project/Speech-Transformer/egs/aishell/exp/train_m1_n6_in80_elayer6

雨风SLEK·2021-03-08 12:35

推荐频道