VideoChat:开源的数字人实时对话系统,支持自定义数字人的形象和音色

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信公众号|搜一搜:蚝油菜花


快速阅读

  1. VideoChat 是一款开源的实时数字人对话系统,支持语音输入和实时对话功能,首包延迟低至 3 秒。
  2. 用户可以根据需要自定义数字人的形象和音色,实现个性化交互。
  3. VideoChat 支持 ASR-LLM-TTS-THG 和 MLLM-THG 两种生成方式,适用于直播、新闻播报等场景。

正文(附运行示例)

VideoChat 是什么

VideoChat:开源的数字人实时对话系统,支持自定义数字人的形象和音色_第1张图片

VideoChat 是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户可以自定义数字人的形象和音色,无需训练即可进行音色克隆,首包延迟可低至 3 秒,适用于直播、新闻播报和聊天助手等多种实时语音交互场景。系统支持 GLM-4-Voice,提供 ASR-LLM-TTS-THG 和 MLLM-THG 两种生成方式。VideoChat 用 Gradio 框架构建交互式应用,支持流式视频输出,方便快速部署和构建。

VideoChat 的主要功能

  • 实时语音交互:支持用户用语音与数字人进行实时对话。
  • 形象和音色自定义:用户根据需要选择或设计数字人的外观和声音,实现个性化交互。
  • 语音输入和文本输出:将用户的语音输入转换为文本,再基于大语言模型生成回复文本。
  • 唇形同步:数字人在说话时,嘴唇动作与发出的声音同步,提高真实感。
  • 流式视频输出:基于 Gradio 框架,支持流式视频输出,让交互更加流畅。

VideoChat 的技术原理

  • 语音识别(ASR):用 FunASR 等工具将用户的语音输入转换为文本。
  • 大语言模型(LLM):基于 Qwen 等模型根据输入文本生成相应的回复文本。
  • 文本转语音(TTS):基于 GPT-SoVITS 等工具将文本回复转换为语音。
  • 说话人生成(THG):用 MuseTalk 等方案根据语音生成唇形同步的数字人视频。
  • 流式输出并行流水线:基于并行处理技术,边推理边播放,提高响应速度。
  • Gradio 框架:用 Gradio 5 实现流式视频输出,方便部署和构建交互式应用。

如何运行 VideoChat

0. 显存需求

  • 级联方案 (ASR-LLM-TTS-THG):约 8G,首包约 3s(单张 A100)。
  • 端到端语音方案 (MLLM-THG):约 2

你可能感兴趣的:(每日,AI,项目与应用实例,人工智能,开源,TTS,语音识别)