说话人识别python_基于各种分类算法的说话人识别(年龄段识别)

基于各种分类算法的语音分类(年龄段识别)

概述

实习期间作为帮手打杂进行了一段时间的语音识别研究,内容是基于各种分类算法的语音的年龄段识别,总结一下大致框架,基本思想是:

获取语料库

TIMIT

提取数据特征,进行处理

MFCC/i-vector

LDA/PLDA/PCA

语料提取,基于分类算法进行分类

SVM/SVR/GMM/GBDT...

用到的工具有HTK(C,shell)/Kaldi(C++,shell)/LIBSVM(Python)/scikit-learn(Python)

获取语料库

PS:

TIMIT的语料语音(即子文件夹下的WAV文件)是SPHERE文件,可以用Kaldi转换

TIMIT/DOC/SPKRINFO.TXT中为speaker信息,作为分类条件

提取数据特征,进行处理

将SPHERE文件转换为WAV文件

Kaldi中tools下有SPHERE文件转换工具sph2pipe.exe

cd kaldi/kaldi-trunk/tools/sph2pipe_v2.5/

转换方法

sph2pipe -f wav sourcefile targetfile

用re_sph2pipe.py脚本生成sph2pipe转换文件

#encoding="utf-8"

import os

import os.path

rootdir = "E:/vc/TIMIT"

timitpath = "/home/zhangzd/k

你可能感兴趣的:(说话人识别python)