【ASR】基础端到端语音识别工具包:FunASR

【ASR】基础端到端语音识别工具包:FunASR_第1张图片

论文地址:https://arxiv.org/abs/2305.11013 

摘要

本文介绍FunASR,一个开源语音识别工具包,旨在弥合学术研究和工业应用之间的差距。 FunASR 提供在大规模工业语料库上训练的模型以及将它们部署到应用程序中的能力。 该工具包的旗舰模型 Paraformer 是一种非自回归端到端语音识别模型,已在包含 60,000 小时语音的手动注释普通话语音识别数据集上进行训练。 为了提高 Paraformer 的性能,我们在标准 Paraformer 主干中添加了时间戳预测和热词自定义功能。 此外,为了方便模型部署,我们还开源了基于前馈顺序记忆网络(FSMN-VAD)的语音活动检测模型和基于可控时延 Transformer 的文本后处理标点符号模型(

你可能感兴趣的:(论文翻译,FunASR,Paraformer,FSMN-VAD,CT-Transformer,语音识别工具,端到端模型,非自回归NAR)