开源版“Her”!智谱 AI 开源 GLM-4-Voice:中英文实时交互语音模型

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信公众号|搜一搜:蚝油菜花


快速阅读

  1. 智谱 AI 推出开源端到端语音模型 GLM-4-Voice。
  2. 模型能理解和生成中英文语音,支持实时语音对话。
  3. 可根据用户指令改变语音的情感、语调、语速、方言等属性。

正文(附运行示例)

GLM-4-Voice 是什么

开源版“Her”!智谱 AI 开源 GLM-4-Voice:中英文实时交互语音模型_第1张图片

GLM-4-Voice 是由智谱 AI 推出并开源的端到端语音模型,能够直接理解和生成中英文语音,进行实时语音对话,并且能够根据用户指令改变语音的情感、语调、语速、方言等属性。

GLM-4-Voice 的主要功能

  1. 语音理解与生成:直接处理中英文语音输入,生成相应的语音输出。
  2. 实时语音对话:支持低延迟的实时语音交互。
  3. 语音属性调整:根据用户指令改变语音的情感、语调、语速、方言等。

GLM-4-Voice 的技术原理

  1. Tokenizer:通过在 Whisper 的 Encoder 部分增加 Vector Quantization,将连续语音输入转化为离散 token。
  2. Decoder:基于 CosyVoice 的 Flow Matching 模型结构,支持流式推理的语音解码器。
  3. 预训练与对齐:在 GLM-4-9B 基础上进行语音模态预训练和对齐,提升音频理解和建模能力。

如何运行 GLM-4-Voice

模型推理

  1. 环境准备
git clone https://github.com/THUDM/GLM-4-Voice.git
  1. 运行代码
import os
# 其他必要的代码和操作

模型 Web Demo 体验

  1. 下载仓库
git clone --recurse-submodules https://github.com/THUDM/GLM-4-Voice
  1. 安装依赖
pip install -r requirements.txt
  1. 启动模型服务
python model_server.py --model-path glm-4-voice-9b
  1. 启动 web 服务
python web_demo.py --tokenizer-path glm-4-voice-tokenizer --model-path glm-4-voice-9b
  1. 访问 Web Demo

在浏览器中访问 http://127.0.0.1:8888。

资源

  • GLM-4-Voice-Tokenizer:modelscope.cn/models/ZhipuAI/glm-4-voice-tokenizer
  • GLM-4-Voice-9B:modelscope.cn/models/ZhipuAI/glm-4-voice-9b
  • GLM-4-Voice-Decoder:modelscope.cn/models/ZhipuAI/glm-4-voice-decoder
  • 模型效果体验:modelscope.cn/studios/ZhipuAI/GLM-4-Voice-Demo/summary

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信公众号|搜一搜:蚝油菜花

你可能感兴趣的:(每日,AI,项目与应用实例,人工智能,开源,语音识别,智谱,语言模型)