【AI视野·今日Sound 声学论文速览 第二十三期】Wed, 11 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Wed, 11 Oct 2023
Totally 14 papers
上期速览✈更多精彩请移步主页

【AI视野·今日Sound 声学论文速览 第二十三期】Wed, 11 Oct 2023_第1张图片

Daily Sound Papers

AutoCycle-VC: Towards Bottleneck-Independent Zero-Shot Cross-Lingual Voice Conversion
Authors Haeyun Choi, Jio Gim, Yuho Lee, Youngin Kim, Young Joo Suh
本文提出了一种简单而鲁棒的零样本语音转换系统,具有循环结构和梅尔频谱图预处理。以前的工作由于依赖于精心设计的瓶颈结构而遭受信息丢失和合成质量差的问题。此外,仅依赖自我重建损失的模型很难再现不同说话者的声音。为了解决这些问题,我们提出了循环一致性损失,该损失考虑了目标说话者和源说话者之间的来回转换。此外,在说话人编码器训练期间利用堆叠随机打乱梅尔谱图和标签平滑方法从语音中提取时间无关的全局说话人表示,这是零样本转换的关键。我们的模型在主观和客观评估方面都优于现有的最先进结果。

Topological data analysis of human vowels: Persistent homologies across representation spaces
Authors Guillem Bonafos, Jean Marc Freyermuth, Pierre Pudlo, Samuel Tron on, Arnaud Rey
拓扑数据分析 TDA 已成功用于信号图像处理中的各种任务,从可视化到有监督无监督分类。通常,拓扑特征是从持久同调理论获得的。标准 TDA 管道从原始信号数据或其表示开始。然后,它包括使用预先指定的过滤在数据顶部构建多尺度拓扑结构,最后计算要进一步利用的拓扑特征。常用的拓扑签名是持久图或其变换。目前的研究讨论了利用拓扑特征的多种方法的后果,更不用说过滤的选择,但据我们所知,信号表示的选择尚未成为任何研究的主题。本文试图对后一个问题提供一些答案。为此,我们收集了真实的音频数据并建立了一项比较研究,以评估从三个不同表示空间中提取的拓扑特征的判别信息的质量。每个音频信号都表示为 i 使用 Taken 表示在更高维空间中嵌入观察到的数据,ii 被视为 3D 环境空间中的表面的频谱图,iii 频谱图零点集。根据元音录音,我们使用拓扑签名来解决三个预测问题:说话者性别、元音类型和个体。我们表明,对于最后两个问题,拓扑增强随机森林相对于仅基于梅尔频率倒谱系数 MFCC 改进了袋外误差 OOB。

Noisy-ArcMix: Additive Noisy Angular Margin Loss Combined With Mixup Anomalous Sound Detection
Authors Soonhyeon Choi, Jung Woo Choi
无监督异常声音检测 ASD 旨在通过学习正常操作声音的特征并感知其偏差来识别异常声音。最近的方法侧重于利用正常数据分类的自监督任务,并且高级模型表明,通过表示学习产生紧凑的类内和良好分离的类内分布,确保异常数据的表示空间非常重要。然而,我们表明,传统方法通常无法确保足够的类内紧凑性,并且在样本与其相应中心之间表现出角度差异。在本文中,我们提出了一种训练技术,旨在确保类内紧凑性并增加正常样本和异常样本之间的角度差距。此外,我们提出了一种提取重要时间区域特征的架构,使模型能够学习应该强调或抑制哪些时间帧。

An experiment on an automated literature survey of data-driven speech enhancement methods
Authors Arthur dos Santos, Jayr Pereira, Rodrigo Nogueira, Bruno Masiero, Shiva Sander Tavallaey, Elias Zea
一般来说,声学领域的科学出版物数量不断增加,这给进行传统文献调查带来了困难。这项工作探讨了如何使用生成式预训练 Transformer GPT 模型来自动对 116 篇有关数据驱动语音增强方法的文章进行文献调查。主要目标是评估模型在对从参考人类调查中选出的论文的特定查询提供准确响应方面的能力和局限性。

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments
Authors William Ravenscroft, Stefan Goetze, Thomas Hain
语音分离仍然是多扬声器技术研究人员的一个重要课题。卷积增强变压器构造器在许多语音处理任务中表现良好,但在语音分离方面的研究仍在进行中。最先进的 SOTA 分离模型是时域音频分离网络 TasNets。许多成功的模型都利用了双路径 DP 网络,顺序处理局部和全局信息。时域一致性 TD 一致性类似于 DP 方法,因为它们也按顺序处理局部和全局上下文,但具有不同的时间复杂度函数。结果表明,对于实际的较短信号长度,构象异构体在控制特征尺寸时更加有效。提出子采样层以进一步提高计算效率。

JVNV: A Corpus of Japanese Emotional Speech with Verbal Content and Nonverbal Expressions
Authors Detai Xin, Junfeng Jiang, Shinnosuke Takamichi, Yuki Saito, Akiko Aizawa, Hiroshi Saruwatari
我们提出了 JVNV,这是一个具有言语内容和非言语发声的日语情感语音语料库,其脚本是由大规模语言模型生成的。现有的情感语音语料库不仅缺乏适当的情感脚本,而且还缺乏口语中表达情感的基本表达方式非语言发声NV。我们提出了一种自动脚本生成方法,通过使用提示工程向 ChatGPT 提供具有情感极性的种子词和非语言发声短语来生成情感脚本。我们借助情感置信度得分和语言流畅度得分,从生成的候选脚本中选择了 514 个音素覆盖均衡的脚本。我们通过证明 JVNV 比以前的日语情感语音语料库具有更好的音素覆盖和情感可识别性来证明 JVNV 的有效性。然后,我们使用离散代码来表示 NV,对情感文本到语音合成的 JVNV 进行基准测试。我们表明,合成朗读语音和情感语音的性能之间仍然存在差距,并且在语音中添加 NV 使任务变得更加困难,这给这项任务带来了新的挑战,并使 JVNV 成为该领域相关工作的宝贵资源。未来。

Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration
Authors Piyush Singh Pasi, Karthikeya Battepati, Preethi Jyothi, Ganesh Ramakrishnan, Tanmay Mahapatra, Manoj Singh
音频到文本对齐的问题已经在训练期间使用完整的监督进行了大量的研究。然而,这通常不是在长音频记录的情况下,其中被查询的文本不会逐字出现在音频文件中。这项工作是与一个名为 CARE India 的非政府组织合作进行的,该组织收集居住在印度比哈尔邦农村地区的年轻母亲的长音频健康调查。给定从用于指导这些调查的调查问卷中提取的问题,我们的目标是在长录音中找到问题的提出位置。这对于非洲和亚洲组织来说非常有价值,否则它们将不得不费力地通过漫长而嘈杂的录音来找​​到感兴趣的问题和答案。我们提出的框架 INDENT 使用基于交叉注意力的模型和有关句子时间顺序的先验信息来学习捕获底层口语文本语义的语音嵌入。这些学习到的嵌入用于在推理时根据文本查询检索相应的音频片段。我们凭经验证明,与使用基于文本的启发式方法获得的模型相比,我们的模型的 R avg 的有效性显着提高了约 3 个。我们还展示了使用最先进的印度语言 ASR 模型生成的嘈杂 ASR 在代替语音时如何产生更好的结果。仅接受印地语数据训练的 INDENT 能够满足语义共享文本空间支持的所有语言。

Modeling of Speech-dependent Own Voice Transfer Characteristics for Hearables with In-ear Microphones
Authors Mattes Ohlenbusch, Christian Rollwage, Simon Doclo
耳戴式设备通常包含耳内麦克风,可用于捕获用户自己的声音。然而,由于耳道闭塞,入耳式麦克风主要记录身体传导的语音,其受到频带限制效应并且容易放大低频内容。假设这些传输特性根据语音内容以及各个说话者之间的不同而变化。人们希望拥有可听麦克风之间自身语音传输特性的准确模型。这样的模型可用于模拟大量耳内录音,以训练基于监督学习的算法,旨在补偿自身的语音传输特性。在本文中,我们提出了一种基于音素识别的语音相关系统识别模型。使用原型可听设备的录音,根据技术措施评估建模准确性。我们研究传输特征模型对话语或说话者不匹配的鲁棒性。仿真结果表明,与语音无关模型相比,使用所提出的语音相关模型更适合模拟耳内录音。与基于自适应过滤的模型相比,所提出的模型能够更好地推广到新的话语。

Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition
Authors Srijith Radhakrishnan, Chao Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani, David Gomez Cabrero, Jesper N. Tegner
我们引入了一种新的跨模态融合技术,专为自动语音识别 ASR 中的生成错误校正而设计。我们的方法利用声学信息和外部语言表示来生成准确的语音转录上下文。这标志着在 n 个最佳假设领域内,朝着生成错误校正的新范式迈出了一步。与现有的基于排名的重新评分方法不同,我们的方法巧妙地使用不同的初始化技术和参数有效算法来提高从预训练的语音和文本模型得出的 ASR 性能。通过对不同 ASR 数据集的评估,我们评估了融合技术的稳定性和再现性,证明了与 n 个最佳假设相比,其字错误率相对 WERR 性能提高了 37.66 。

Proceedings of The first international workshop on eXplainable AI for the Arts (XAIxArts)
Authors Nick Bryan Kinns, Corey Ford, Alan Chamberlain, Steven David Benford, Helen Kennedy, Zijin Li, Wu Qiong, Gus G. Xia, Jeba Rezwana

Cross-modal Cognitive Consensus guided Audio-Visual Segmentation
Authors Zhaofeng Shi, Qingbo Wu, Hongliang Li, Fanman Meng, Linfeng Xu
视听分割 AVS 旨在从视频帧中提取发声对象,该视频帧由像素分割掩码表示。这项开创性的工作通过密集的特征级视听交互来完成这项任务,忽略了不同模态之间的维度差距。更具体地说,音频剪辑只能在每个序列中提供textit全局语义标签,但视频帧覆盖不同textit局部区域的多个语义对象。在本文中,我们提出了一种跨模态认知共识引导网络 C3N,从全局维度调整视听语义,并通过注意力机制逐步将它们注入局部区域。首先,开发了跨模态认知共识推理模块 C3IM,通过集成视听分类置信度和模态特定标签嵌入的相似性来提取统一的模态标签。然后,我们通过认知共识引导的注意力模块 CCAM 将统一的模态标签反馈给视觉主干作为显式语义级别指导,突出显示与感兴趣对象相对应的局部特征。

Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering
Authors Xiulong Liu, Zhikang Dong, Peng Zhang
近年来,人们越来越重视音频、视觉和文本模式的交叉,推动了多模式研究的进步。然而,任何模态中存在的强烈偏差都可能导致模型忽视其他模态。因此,模型有效推理这些不同模式的能力受到损害,阻碍了进一步的发展。在本文中,我们仔细审查原始数据集中的每种问题类型,选择那些具有明显答案偏差的问题类型。为了消除这些偏见,我们收集补充视频和问题,确保没有答案具有明显的偏态分布。特别是,对于二元问题,我们努力确保两个答案几乎均匀地分布在每个问题类别中。因此,我们构建了一个新的数据集,名为 MUSIC AVQA v2.0,该数据集更具挑战性,我们相信可以更好地促进 AVQA 任务的进展。此外,我们提出了一种新颖的基线模型,可以更深入地研究视听文本相互关系。

Leveraging Multilingual Self-Supervised Pretrained Models for Sequence-to-Sequence End-to-End Spoken Language Understanding
Authors Pavel Denisov, Ngoc Thang Vu
人们已经提出了许多使用预训练模型进行端到端口语理解 E2E SLU 的方法,但它们的评估通常缺乏多语言设置和需要预测词汇填充物(例如槽填充)的任务。在这项工作中,我们提出了一种统一的方法,该方法集成了多语言预训练的语音和文本模型,并以生成方式对四种语言的六个数据集执行 E2E SLU,包括词汇填充词的预测。我们研究了如何通过使用多个训练目标对广泛可用的语音识别数据进行预训练来改进所提出的方法。对 7000 小时的多语言数据进行预训练,使我们最终能够在两个 SLU 数据集以及另外两个 SLU 数据集上超越现有技术。

Component attention network for multimodal dance improvisation recognition
Authors Jia Fu, Jiarui Tan, Wenjie Yin, Sepideh Pashami, M rten Bj rkman
即兴舞蹈是艺术领域一个活跃的研究课题。由于其独特的动态,即兴舞蹈的运动分析可能具有挑战性。数据驱动的舞蹈运动分析,包括识别和生成,通常仅限于骨骼数据。然而,其他形式的数据(例如音频)可以被记录并有利于下游任务。本文探讨了舞蹈即兴创作背景下人体动作识别的多模态融合方法的应用和性能。我们提出了一种基于注意力的模型,即组件注意力网络 CANet,用于三个级别的多模态融合:1 与 CANet 的特征融合,2 与 CANet 和图卷积网络 GCN 的模型融合,3 与投票策略的后期融合。我们进行彻底的实验来分析不同融合方法中每种模态的影响,并区分关键的时间或成分特征。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(Sound,audio,Papers,人工智能,声学智能,智能语音,梅尔频谱,音频描述,异常声音检测,即兴舞蹈)