【大模型系列篇】对话式人工智能的延迟怎么算,如何优化?

【大模型系列篇】对话式人工智能的延迟怎么算,如何优化?_第1张图片

对于大多数应用程序来说,延迟只是个小问题。然而,对于对话式人工智能来说,延迟却是区分优秀应用程序与卓越应用程序的关键。

首先,对话式人工智能的目标相当宏大——提供与人类对话相同的感觉、触觉和声音,同时在智能上超越人类。为了实现这一目标,应用程序必须在对话过程中避免长时间的静默。否则,真实感就会被打破。

对话式 AI 的延迟挑战因其零散性而更加复杂。对话式 AI 包含一系列中间过程,每个过程都被认为是各自领域中最先进的。每个过程都会产生附加延迟。

今天我们就来聊聊对话式人工智能的延迟怎么算,如何优化?

四大核心环节

每个对话式 AI 应用至少涉及四个步骤:语音转文本(ASR)话轮转换文本处理(LLM)文本转语音(TTS) 。虽然这些步骤是并行执行的,但每个步骤仍然会造成一定的延迟。

值得注意的是,对话式 AI 的延迟方程式独一无二。许多流程延迟问题可以归结为单一瓶颈。例如,当网站发出数据库请求时,Web 的网络延迟决定了总延迟,后端 VPC 的延迟仅会产生微小的影响。然而,对话式 AI 的延迟组件差异并不大。它们并不均衡,但每个组件的延迟贡献都在一定范围内。因此,延迟是由各部分的总和决定的。

【大模型系列篇】对话式人工智能的延迟怎么算,如何优化?_第2张图片

 

自动语音识别

Automatic Speech Recognition - 系统的“耳朵”

自动语音识别 ( ASR )(有时也称为语音转文本 (STT))是将口头音频转换为书面文本的过程。

ASR 的延迟并非生成文本所需的时间,因为语音转文本的过程是在用户说话时在后台运行的。延迟指的是语音结束和文本生成结束之间的时间。

因此,短和长的说话间隔可能会产生相似的 ASR 延迟。延迟会因 ASR 实现而异(在某些情况下,由于模型嵌入在浏览器中, 例如 Chrome/Chromium, 因此完全没有网络延迟)。标准开源模型 Whisper 会增加 300 毫秒以上的延迟。IIElenvnLabs的自定义实现会增加 <100 毫秒的延迟。

轮流发言/打断

Turn-Taking / Interruption - 系统的“本能”

话轮转换/打断 (TTI) 是一个中间过程,用于判断用户何时结束发言。其底层模型称为语音活动检测器 (VAD)。

话轮转换涉及一套复杂的规则。短促的话语(例如“嗯嗯”)不应该触发话轮转换;否则,对话会显得断断续续。相反,它必须评估用户何时真正试图吸引模型的注意力。它还必须确定用户何时完成了表达自己的想法。

良好的 VAD 不会在检测到静音时发出新的转折信号。单词(和短语)之间会存在静音,模型需要确信用户确实已经说完了话。为了可靠地做到这一点,它需要寻找一个静音阈值(或者更具体地说,是没有语音的阈值)。这个过程会引入延迟,从而增加用户体验到的整体延迟。

从技术角度来看,如果所有其他对话式 AI 组件都实现零延迟,那么 TTI 延迟就显得微不足道了。人类在回应语音之前会稍作停顿。机器也应该有类似的停顿,这能增强交互的真实感。然而,由于对话式 AI 的其他组件本身就存在延迟,因此最小化 TTI 延迟才是理想的选择。

文本处理

Text Processing - 系统的“大脑”

接下来,系统需要生成响应。通常使用大型语言模型 (LLM) 来完成,例如 GPT-4 或 Gemini Flash 1.5。

语言模型的选择至关重要。像 Gemini Flash 1.5 这样的模型速度极快,只需不到 350 毫秒即可生成输出。而能够处理更复杂查询的更稳健的模型(例如 GPT-4 变体和 Claude)则可能需要 700 毫秒到 1000 毫秒。当然现在有更好的模型GPT-4.5 或者 Gemini Flash 2.0。在优化对话式 AI 流程时,选择合适的模型通常是控制延迟的最简单方法。

然而,LLM 的延迟是指开始生成 token 所需的时间。这些 token 可以立即传输到后续的文本转语音处理流程。由于文本转语音的速度会因人声的自然语速而减慢,因此 LLM 的速度总是快于人声——最重要的是第一个 token 的延迟(即第一个字节的时间)。

除了模型选择之外,还有其他因素会影响 LLM 的延迟。这些因素包括提示长度和知识库规模。两者越大,延迟就越长。归结为一个简单的原则:LLM 需要考虑的内容越多,所需的时间就越长。因此,公司需要在合理的上下文数量和模型负担过重之间取得平衡。

文本转语音

Text to Speech - 系统的“嘴巴”

对话式 AI 的最后一个组成部分是文本转语音 (TTS)。文本转语音的净延迟是指从文本处理接收到输入标记到开始说话所需的时间。由于额外标记的提供速度比人类语音更快,因此文本转语音的延迟严格来说就是第一个字节的传输时间。

以前, 文本转语音的速度特别慢,生成语音需要长达 2-3 秒。然而,像IIElenvnLabs的 Turbo 引擎这样的先进模型能够以仅 300 毫秒的延迟生成语音,而全新的 Flash TTS 引擎速度更快。Flash 的模型时间为 75 毫秒 ,并能实现 135 毫秒的端到端首字节音频延迟,这是业内最佳成绩)。

其他延迟

网络延迟

从一个位置向另一个位置发送数据总是会存在延迟。对于某些对话式 AI 应用, ASR 、TTI、LLM 和 TTS 进程理想情况下应该位于同一位置,因此唯一重要的网络延迟来源是说话者与整个系统之间的路径。 例如IIElenvnLabs拥有自己的 TTS 和内部转录解决方案,这就带来了延迟方面的优势,可以节省两次服务器调用。

【大模型系列篇】对话式人工智能的延迟怎么算,如何优化?_第3张图片

函数调用

许多对话式 AI 应用都用于调用函数(即与工具和服务交互)。例如,我可能会口头要求 AI 查看天气。这需要在文本处理层调用额外的 API ,根据需求,这可能会带来显著的延迟。

例如,如果我需要口头订购披萨,则可能需要多次 API 调用,其中一些调用的滞后过大(例如处理信用卡)。

然而,对话式 AI 系统可以通过在函数调用完成之前提示 LLM 响应用户(例如“让我帮你查看天气”)来应对与函数调用相关的延迟。这模拟了真实的对话,不会让用户失去参与。

这些异步模式通常通过利用 webhook 来避免长时间运行的请求来实现。

【大模型系列篇】对话式人工智能的延迟怎么算,如何优化?_第4张图片

结束语

对话式 AI 的探索之旅充满趣味。总而言之,应用程序的目标延迟应为亚秒级。这通常可以通过选择合适的 LLM 来实现。此外,当后台运行更复杂的进程时,应用程序还应与用户交互,以避免长时间的停顿。最终的目标是创造真实感。用户需要感受到与真人交谈的轻松,同时又能享受计算机程序带来的好处。通过精简子流程,现在就可以实现这一点。

打造低延迟的对话式人工智能,我们需要最先进的 STT 和 TTS 模型,优化对话 AI 系统的各个环节。通过优化流程的每个环节,我们能够实现无缝的对话流程。这种自上而下的编排方式使我们能够在每个环节都减少哪怕是 1 毫秒的延迟。

相较于级联解决方案,当前业界普遍关注端到端模型方案的开发潜力,即通过训练语音到语音的跨模态大模型来规避STT和TTS两个中间环节。不过这种范式转换需要权衡模型训练所需的算力成本和数据规模。值得注意的是,级联方案中的STT和TTS模块不仅在对话式人工智能领域发挥基础作用,其独立的技术特性使它们在语音数据分析、无障碍交互系统、会议语音转录、数字人等多个垂直领域也展现出独特的应用价值。

新资讯

法国 AI 实验室 Kyutai 近日推出了一款革命性的语音 AI 系统 Unmute,为文本大语言模型(LLM)赋予了强大的语音交互能力。这款高度模块化的语音模型以其智能对话、超低延迟和个性化定制功能引发业界热议。

Unmute 的核心亮点在于其高度模块化的架构,它也是级联方案最佳实践者之一。开发者无需重新训练模型,只需将 Unmute “包裹”在现有文本大语言模型上,即可为其快速添加语音输入(语音转文本,STT)和语音输出(文本转语音,TTS)功能。这种灵活的设计保留了文本模型的推理能力、知识储备和精细调优特性,同时新增了自然流畅的语音交互体验。

Kyutai一款革命性的语音 AI 系统 Unmute

智能交互:对话更接近人类

Unmute 在对话体验上实现了重大突破

智能判断与接话:Unmute 能够精准判断用户是否完成发言,并在适当的时机进行回应,模拟真实的人类对话节奏。  

随时打断:用户可以随时打断 AI 的回答,增强交互的灵活性和自然度。  

文本流式合成:Unmute 支持在文本生成未完成时即开始语音合成,大幅降低响应延迟,为实时对话提供了更顺畅的体验。

个性化定制:10秒打造专属声音

Unmute 的另一大创新是其强大的声音定制功能。仅需10秒的语音样本,即可生成高度个性化的 AI 声音,满足不同场景下的需求。无论是模拟特定角色的语气,还是调整语音的音调、语速,Unmute 都能轻松实现,为用户提供多样化的交互选择。

开源计划:赋能全球开发者

Kyutai 宣布,Unmute 的相关模型和代码将在未来几周内完全开源。这一举措将进一步推动语音 AI 技术的普及与创新,吸引全球开发者的关注。此前,Kyutai 推出的音频原生模型 Moshi 就曾因其创新性引发热议,而 Unmute 的模块化设计无疑是 Kyutai 在语音 AI 领域的又一力作。

语音 AI 的新风向

Unmute 的发布标志着语音 AI 技术迈向了更高的灵活性和实用性。与传统的音频原生模型相比,Unmute 通过模块化设计充分利用了成熟文本模型的优势,解决了实时语音交互中的延迟和自然度问题。Unmute 的推出不仅为开发者提供了更便捷的语音 AI 解决方案,也为教育、客服、娱乐等领域带来了全新的交互可能性。

你可能感兴趣的:(大模型,对话式人工智能,ASR,TTS,VAD,LLM,端到端模型,级联)