❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
微信公众号|搜一搜:蚝油菜花
快速阅读
- 智谱 AI 推出开源端到端语音模型 GLM-4-Voice。
- 模型能理解和生成中英文语音,支持实时语音对话。
- 可根据用户指令改变语音的情感、语调、语速、方言等属性。
正文(附运行示例)
GLM-4-Voice 是什么

GLM-4-Voice 是由智谱 AI 推出并开源的端到端语音模型,能够直接理解和生成中英文语音,进行实时语音对话,并且能够根据用户指令改变语音的情感、语调、语速、方言等属性。
GLM-4-Voice 的主要功能
- 语音理解与生成:直接处理中英文语音输入,生成相应的语音输出。
- 实时语音对话:支持低延迟的实时语音交互。
- 语音属性调整:根据用户指令改变语音的情感、语调、语速、方言等。
GLM-4-Voice 的技术原理
- Tokenizer:通过在 Whisper 的 Encoder 部分增加 Vector Quantization,将连续语音输入转化为离散 token。
- Decoder:基于 CosyVoice 的 Flow Matching 模型结构,支持流式推理的语音解码器。
- 预训练与对齐:在 GLM-4-9B 基础上进行语音模态预训练和对齐,提升音频理解和建模能力。
如何运行 GLM-4-Voice
模型推理
- 环境准备:
git clone https://github.com/THUDM/GLM-4-Voice.git
- 运行代码:
import os
模型 Web Demo 体验
- 下载仓库:
git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voice
- 安装依赖:
pip install -r requirements.txt
- 启动模型服务:
python model_server.py --model-path glm-4-voice-9b
- 启动 web 服务:
python web_demo.py --tokenizer-path glm-4-voice-tokenizer --model-path glm-4-voice-9b
- 访问 Web Demo:
在浏览器中访问 http://127.0.0.1:8888。
资源
- GLM-4-Voice-Tokenizer:modelscope.cn/models/ZhipuAI/glm-4-voice-tokenizer
- GLM-4-Voice-9B:modelscope.cn/models/ZhipuAI/glm-4-voice-9b
- GLM-4-Voice-Decoder:modelscope.cn/models/ZhipuAI/glm-4-voice-decoder
- 模型效果体验:modelscope.cn/studios/ZhipuAI/GLM-4-Voice-Demo/summary
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
微信公众号|搜一搜:蚝油菜花