【造工具-2】用SenceVoice,实现本地的语音转文本小工具

说到语音转文本,有两种说法,自动语音识别(ASR,Automatic Speech Recognition)和语音转文本(STT,Speech-to-Text),本质上都是通过算法将语音信号转化为可处理的文本形式的技术,两者的核心功能和应用目标完全一致。‌‌如果有区别的话,ASR更常见于学术研究和技术文档中,STT则更多应用于产品功能描述。ASR常与其他模块(如VAD、说话人分离)并列描述,体现其在技术栈中的位置;STT则更直接指向端到端的功能输出。‌‌

在选型上我大致看了三款主流开源STT工具 —— 阿里SenseVoice、百度的PaddleSpeech、OpenAI Whisper,最终选定阿里SenseVoice做了个带界面的语音识别小工具,后期配合大模型的文本纠错能力,效果还挺不错的。
【造工具-2】用SenceVoice,实现本地的语音转文本小工具_第1张图片

主流的STT开源模型

目前,开源的STT技术领域,阿里的SenceVoice、百度PaddleSpeech及OpenAI的Whisper较为主流。

  1. 阿里SenseVoice
    SenseVoice 是阿里巴巴开源的语音识别(STT)系统,主打高效推理、情绪识别与多场景适配,尤其优化了中文语音识别性能。其整合包支持批量处理与字幕生成,满足实际业务需求。支持情绪识别(超越现有最佳模型)、声音事件检测(如笑声、掌声、咳嗽等);采用非自回归端到端框架,比Whisper-La

你可能感兴趣的:(AI,AI,STT,ASR)