【AI视野·今日Sound 声学论文速览 第四十八期】Mon, 15 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Mon, 15 Jan 2024
Totally 5 papers
上期速览✈更多精彩请移步主页

【AI视野·今日Sound 声学论文速览 第四十八期】Mon, 15 Jan 2024_第1张图片

Daily Sound Papers

LCB-net: Long-Context Biasing for Audio-Visual Speech Recognition
Authors Fan Yu, Haoxu Wang, Xian Shi, Shiliang Zhang
在线会议和课程的日益普及对利用视频幻灯片中丰富的文本信息改进自动语音识别 ASR 提出了新的挑战。与罕见的短语列表相比,视频中的幻灯片与语音实时同步,从而能够提取长上下文偏差。因此,我们提出了一种用于视听语音识别 AVSR 的新型长上下文偏置网络 LCB net,以有效地利用视频中可用的长上下文信息。具体来说,我们采用双编码器架构来同时对音频和长上下文偏置进行建模。此外,我们还提出了一个偏置预测模块,利用二元交叉熵 BCE 损失来明确确定长上下文偏置中的偏置短语。此外,我们引入了动态上下文短语模拟,以增强 LCB 网络的泛化性和鲁棒性。在 SlideSpeech(一个富含幻灯片的大规模视听语料库)上进行的实验表明,我们提出的 LCB 网络在测试集上的 WER U WER B WER 相对减少量优于一般 ASR 模型 9.4 9.1 10.9,具有较高的无偏和有偏性能。

Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints
Authors Giampiero Salvi
本文描述了连接主义技术在具有强延迟约束的语音识别中的使用。这些约束是通过将语音字符串输入到发音合成器中,从语音信号中实时导出合成面部的嘴唇运动的任务所施加的。特别注意分析在不同延迟条件下多层感知器学习的时间演化模型与维特比解码器施加的转换模型之间的相互作用。进行了两个实验,其中语言模型 LM 中的时间依赖性由参数控制。

Contrastive Learning With Audio Discrimination For Customizable Keyword Spotting In Continuous Speech
Authors Yu Xi, Baochen Yang, Hao Li, Jiaqi Guo, Kai Yu
连续语音中可定制的关键字识别 KWS 由于其现实世界的应用潜力而引起了越来越多的关注。虽然对比学习 CL 已被广泛用于提取关键词表示,但之前的 CL 方法都对预先分割的孤立词进行操作,并且仅采用音频文本表示匹配策略。然而,对于连续语音中的 KWS,协同发音和流式分词很容易为不同的文本产生相似的音频模式,从而可能引发误报。为了解决这个问题,我们提出了一种新颖的具有音频辨别 CLAD 的 CL 方法来学习具有音频文本匹配和音频音频辨别能力的关键字表示。这里,训练期间的每个滑动窗口都采用考虑音频音频和音频文本 CL 数据对的 InfoNCE 损失。对开源 LibriPhrase 数据集的评估表明,与之前的 CL 方法相比,使用滑动窗口级 InfoNCE 损失可产生可比的性能。此外,在连续语音数据集 LibriSpeech 上进行的实验表明,通过结合音频辨别,CLAD 比没有音频辨别的 CL 实现了显着的性能提升。

Towards High-Quality and Efficient Speech Bandwidth Extension with Parallel Amplitude and Phase Prediction
Authors Ye Xin Lu, Yang Ai, Hui Peng Du, Zhen Hua Ling
语音带宽扩展BWE是指拓宽语音信号的频率带宽范围,提高语音质量,使其更加明亮、饱满。本文提出了一种基于生成对抗网络 GAN 的 BWE 模型,具有并行预测幅度和相位谱的能力,称为 AP BWE,它实现了高质量和高效的宽带语音波形生成。所提出的 AP BWE 生成器完全基于卷积神经网络 CNN。它具有相互交互的双流架构,其中幅度流和相位流相互通信,并分别从输入窄带幅度和相位谱中扩展高频分量。为了提高扩展语音信号的自然度,我们在波形级别采用多周期鉴别器,并在频谱级别分别设计一对多分辨率幅度和相位鉴别器。实验结果表明,我们提出的 AP BWE 在针对 16 kHz 和 48 kHz 采样率的 BWE 任务的语音质量方面实现了最先进的性能。在生成效率方面,由于采用全卷积架构和全帧级操作,所提出的 AP BWE 可以生成 48 kHz 波形样本,在单个 RTX 4090 GPU 上比实时快 292.3 倍,在单个 RTX 4090 GPU 上比实时快 18.1 倍。中央处理器。

Remixing Music for Hearing Aids Using Ensemble of Fine-Tuned Source Separators
Authors Matthew Daly
本文介绍了我们为 Cadenza ICASSP 2024 Grand Challenge 提交的系统,该系统提出了为助听器用户重新混合和增强音乐的问题。我们的系统在挑战中名列第一,在评估数据集上获得了最佳的平均助听器音频质量指数 HAAQI 分数。我们描述了该系统,该系统使用了一组深度学习音乐源分离器,这些分离器根据挑战数据进行了微调。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(audio,Sound,Papers,语言识别,音视频识别,音源分离,音视频情绪识别)