【cs.LG】25.1.14 arxiv更新120篇
=====
摘要: 无线通信依赖于路径损耗建模,当模型包含传播环境的物理细节时效果最佳。获取这些数据历来具有挑战性,但地理信息系统数据的分辨率和准确性正在不断提高。获取这些细节使得传播模型能够更准确地预测覆盖范围并最小化无线部署中的干扰。基于机器学习的建模可以显著支持这一努力,基于特征的方法允许精确、高效和可扩展的传播建模。在之前工作的基础上,我们引入了一组扩展特征,提升了预测准确性,同时最重要的是,在广泛的环境中保持了模型的泛化能力。
总结: 本文通过引入扩展特征,利用机器学习方法提升了路径损耗预测的准确性和模型的泛化能力。
=====
摘要: 多变量时间序列分类(MTSC)使得复杂的时间数据分析成为可能,因此在从医疗保健到金融等各种现实世界的应用中起着基石作用。由于MTS中变量之间的关系通常包含关键线索,已经提出了大量基于图的MTSC方法,因为图拓扑和边可以显式地表示变量(通道)之间的关系,既探索了各种MTS图表示学习策略,也探索了不同的图神经网络(GNN)。尽管取得了这样的进展,但尚无全面的研究能够公平地基准和调查现有广泛使用的图表示学习策略/GNN分类器在不同MTSC任务应用中的性能。本文提出了第一个基准,系统地研究了广泛使用的三种节点特征定义策略、四种边特征学习策略和五种GNN架构的有效性, resulting in 60种不同的基于图的MTSC变体。这些变体在26个广泛使用的悬浮MTSC数据集上,通过标准化的数据管道和训练/验证/测试策略进行开发和评估。我们的实验强调节点特征显著影响MTSC性能,而边特征的可视化说明了为什么自适应边学习优于其他边特征学习方法。所提出的基准代码公开可在 GitHub 获取。
总结: 本文首次系统性地基准评估了多变量时间序列分类中图表示和图神经网络的性能,并提供了公开的基准代码。
###【arXiv编号】2501.08305v1
###【git】https://github.com/CVI-yangwn/Benchmark-GNN-for-Multivariate-Time-Series-Classification
###【期刊】无
###【领域】计算机科学 - 机器学习,人工智能
=====
摘要: 多变量多项式的树宽是指其对应的超图中超边对应项的树宽。Makowsky和Meer将有界树宽的多变量多项式作为一种新的稀疏性条件进行研究,这种条件允许对一般情况下难以解决的问题进行多项式时间求解。我们考虑布尔变量的这一主题的一个变体。将布尔函数表示为多项式的符号称为多项式阈值表示。我们讨论了可以表示为有界树宽的多项式阈值函数的布尔函数,并提出了在贝叶斯网络分类器(一种概率图模型)上的两个应用。两个应用都属于可解释人工智能(XAI)研究领域,该领域处理许多最近的机器学习模型的黑盒特性。我们还给出了正多项式阈值函数和通用多项式阈值函数的表示能力之间的分离结果。
总结: 本文探讨了有界树宽的多项式阈值函数在可解释人工智能中的应用及其复杂性方面的表现。
###【arXiv编号】2501.08297v1
###【git】
###【期刊】
###【领域】可解释人工智能 (XAI)
=====
摘要: 在科学领域,我们常常需要对随机信号进行减法或除法操作。例如,考虑一个由两个随机信号 a a a和 b b b相加或相乘生成的随机实现 x x x,即 x = a + b x = a + b x=a+b或 x = a b x = ab x=ab。对于 x = a + b x = a + b x=a+b的例子, a a a可以是荧光背景, b b b是需要从测量的 x x x中学习其统计特性的感兴趣信号。同样地,当写作 x = a b x = ab x=ab时, a a a可以被看作照明强度, b b b是感兴趣的荧光分子的密度。然而,对随机信号进行除法或减法会放大噪声,本文探讨是否可以使用 a a a的统计信息和 x x x的测量结果作为输入,恢复 b b b的统计信息。我们展示了如何利用归一化流生成 b b b的概率分布近似,从而完全避免减法或除法操作。该方法已在我们的软件包NFdeconvolve中实现,GitHub上提供了相关代码和主要文本中链接的教程。
总结: 本文提出了一种利用归一化流避免随机信号减除和除法的新方法,并通过NFdeconvolve软件包实现,提供了有效恢复信号统计特性的工具。
###【arXiv编号】2501.08288v1
###【git】NFdeconvolve 软件包已在 GitHub 上提供(具体链接可参考论文主文本)
###【期刊】无(预印本)
###【领域】统计机器学习, 计算机科学-机器学习, 概率论, 数据分析, 定量生物学
=====
摘要: 我们提出了一种在线学习的新视角,称为梯度平衡:当一系列迭代中的损失梯度的平均值收敛到零时,该序列就达到了梯度平衡。通常,这一条件既不意味着也不被次线性遗憾所暗示。事实证明,通过使用恒定步长的标准在线学习方法,如梯度下降和镜像下降(而不是通常需要的递减步长以实现无遗憾),可以实现梯度平衡。此外,通过示例我们展示了梯度平衡在回归、分类、分位数估计等在线预测问题中转化为一种可解释且有意义的属性。值得注意的是,我们展示了梯度平衡框架可以用于在任意分布转移下为黑盒预测开发一种去偏方案,基于简单的事后在线下降更新。我们还展示了事后梯度更新可用于在分布转移下校准预测的分位数,并且该框架为成对偏好预测带来了无偏的Elo评分。
总结: 本文提出的梯度平衡框架为在线学习提供了新的理论视角,并展示了其在多种预测任务中的应用潜力。
###【arXiv编号】2501.08330
###【git】
###【期刊】
###【领域】计算机科学 - 机器学习,数学 - 优化与控制,统计学 - 机器学习
梯度平衡作为一种新的在线学习理论方法,具有较高的创新性和广泛的应用潜力,尤其在处理分布转移和预测校准等实际问题上展示了显著优势。
=====
摘要: 在本文中,我们提出了一种新的函数相似性度量方法。它量化了两个函数的次优性差距如何相互转换,并统一了几种现有的功能相似性概念。我们展示了该度量具有便捷的运算规则,并在经验风险最小化和非稳定在线优化中展示了其应用。
总结: 本文提出了一种新的函数相似性度量方法,并展示了其在统计学习和优化中的应用。
###【arXiv:2501.08317v1】
###【git】: 无
###【期刊】: 未发表
###【领域】: 统计学习与优化
=====
摘要: 扩散模型在图像和视频生成中被广泛使用,但其迭代生成过程速度慢且资源消耗大。尽管现有的蒸馏方法在图像领域展示了一步生成的潜力,但仍存在显著的质量下降问题。本研究提出了一种针对真实数据的对抗性后训练(APT)方法,用于扩散预训练后的一步视频生成。为了提高训练的稳定性和质量,研究中对模型架构和训练流程进行了多项改进,并引入了近似的R1正则化目标。实验证明,我们的对抗性后训练模型Seaweed-APT能够在实时条件下,仅通过一次前向评估步骤,生成2秒、1280x720、24fps的视频。此外,该模型还能够在单步中生成1024像素的图像,质量媲美现有最先进的方法。
总结: 本文提出了一种创新的对抗性后训练方法,显著提升了一步视频生成的效率和质量。
###【arXiv:2501.08316v1】
###【git】: 未提供
###【期刊】: 未提供
###【领域】: 计算机科学 - 计算机视觉、人工智能、机器学习
该研究在扩散模型的一步视频生成方面具有显著的创新性和实用性,能够有效提升生成速度和质量,具有较高的应用潜力,但尚缺乏更多的开源资源和期刊验证。
Rate-In: Information-Driven Adaptive Dropout Rates for Improved Inference-Time Uncertainty Estimation
摘要: 准确的不确定性估计对于在风险敏感的应用中部署神经网络至关重要,例如医疗诊断。蒙特卡洛Dropout是一种广泛使用的通过在推理期间进行随机前向传递并应用dropout来近似预测不确定性的技术。然而,在所有层和输入上使用静态dropout率可能导致不理想的不确定性估计,因为这种方法无法适应各个输入和网络层的不同特性。现有方法使用带标签的数据在训练期间优化dropout率,导致推理时参数固定,无法适应新的数据分布,从而在蒙特卡洛模拟中降低不确定性估计的准确性。本文提出了Rate-In算法,该算法通过量化dropout在每层特征图中引入的信息损失,在推理期间动态调整dropout率。通过将dropout视为受控噪声注入并利用信息理论原理,Rate-In可以针对每层和每个输入实例自适应地调整dropout率,而无需依赖地面真值标签。通过量化特征图中的功能信息损失,我们自适应地调整dropout率,以在不同的医疗影像任务和架构配置中保持感知质量。我们在合成数据和真实世界的医疗影像任务上的广泛实证研究表明,Rate-In相比于固定或启发式的dropout率,提高了校准性并优化了不确定性估计,同时不影响预测性能。Rate-In为在关键应用中实现更可靠的预测不确定性估计提供了一种实用的、无监督的、推理时的dropout优化方法。
总结: Rate-In通过信息驱动的动态调整dropout率,显著提升了神经网络在推理时的不确定性估计,特别适用于医疗影像等关键领域的应用。
###【arXiv编号】2412.07169v3
###【期刊】预印本
###【领域】计算机科学,机器学习,计算机视觉
=====
摘要: 机器学习模型的输入可能具有相关的噪声或不确定性,但它们通常被忽略而未被建模。目前尚不清楚贝叶斯神经网络及其近似方法是否能够考虑输入中的不确定性。在本文中,我们构建了一个具有两个输入(均值和标准差)的贝叶斯神经网络,并评估了其在不同方法(如集成、MC-Dropout 和 Flipout)下估计输入不确定性的能力。我们的结果表明,只有部分近似贝叶斯神经网络的不确定性估计方法能够有效地建模输入不确定性,特别是集成和 Flipout 方法。
总结: 研究发现,仅有部分贝叶斯神经网络的不确定性估计方法能够有效建模输入不确定性。
###【arXiv:2501.08285v1】
###【git】
###【期刊】
###【领域】计算机科学,机器学习,计算机视觉
本文系统评估了不同贝叶斯神经网络方法在输入不确定性建模中的表现,结果具有较高的创新性和实用性,能够为相关领域的研究提供有价值的参考。
=====
摘要: 随着深度神经网络在各个领域的持续卓越表现,其黑箱特性引发了关于透明度和信任的担忧。尤其是对于需要高度安全和知识严谨性的应用,如药物发现、自动驾驶和基因组学,可解释性变得日益重要。然而,尽管它们是像ResNet和Transformer等最先进模型的基础元素,但对于理解即使是最简单的深度神经网络——如全连接网络——的进展仍然有限。在本文中,我们通过介绍NeuroLogic——一种从神经网络中解码可解释逻辑规则的新方法,来应对这一挑战。NeuroLogic利用神经激活模式来捕捉模型的关键决策过程,并将其转化为由隐藏谓词表示的逻辑规则。得益于其在基础阶段的灵活设计,NeuroLogic可以适应各种神经网络。对于简单的全连接神经网络,隐藏谓词可以基于原始输入特征的某些拆分模式进行基础,以推导出类似决策树的规则。对于大型复杂的视觉神经网络,NeuroLogic将隐藏谓词基础于人类可理解的高级视觉概念。我们的实证研究表明,NeuroLogic能够从如ResNet等最先进的模型中提取全局且可解释的规则,这是现有工作难以实现的任务。我们认为NeuroLogic可以为理解神经网络的黑箱特性铺平道路。
总结: NeuroLogic提出了一种创新的方法,能够从深度神经网络中解码出可解释的逻辑规则,提升了模型的透明度和信任度。
###【arXiv:2501.08281v1】
###【期刊】: 无
###【领域】: 计算机科学 - 机器学习
NeuroLogic在深度神经网络的可解释性领域提出了新颖的方法,能够有效提取出可理解的逻辑规则,具有较高的创新性和实用性,特别适用于需要高安全性和知识严谨性的应用场景。
=====
摘要: 深度信息最大化(DIM)是一种成熟的自监督表示学习(SSRL)方法,基于最大化深度神经网络编码器输入和输出之间的互信息。尽管DIM和对比式SSRL在一般情况下得到充分探讨,但学习符合特定分布的表示(即分布匹配,DM)的任务仍未得到充分解决。受DM对多个下游任务(包括生成建模、解耦、异常检测等)的重要性启发,我们增强了DIM,使其能够自动匹配学习到的表示到选定的先验分布。为此,我们提出在编码器的归一化输出中注入独立噪声,同时保持相同的信息最大化训练目标。我们展示了这种修改允许学习均匀分布和正态分布的表示,以及其他绝对连续分布的表示。我们的方法在各种下游任务上进行了测试。结果表明,性能在下游任务和DM质量之间存在适度的权衡。
总结: 通过在深度信息最大化中注入噪声,实现了表示向特定先验分布的自动匹配,适用于多种下游任务。
###【arXiv:2410.06993v2】
###【git】
###【期刊】
###【领域】
计算机科学,机器学习,信息论,统计学
=====
摘要: 洪水是主要的自然灾害,每年造成显著的人员死亡和经济损失,因气候变化其发生频率增加。快速准确的洪水检测和监测对于缓解这些影响至关重要。本研究比较了三种深度学习模型UNet、ResNet和DeepLabv3在像素级水体分割中的性能,以帮助洪水检测,使用来自无人机、现场观察和社交媒体的图像。研究涉及创建一个新数据集,增强了知名基准数据集,增加了特定于洪水的图像,提高了模型的鲁棒性。测试了UNet、ResNet和DeepLab v3架构,以确定它们在不同环境条件和地理位置下的有效性,并讨论了每种模型的优势和限制,提供了它们在不同场景中应用的见解,通过预测图像分割掩码。该全自动方法允许这些模型在图像中隔离被洪水影响的区域,与传统的半自动方法相比,显著减少了处理时间。本研究的结果是预测受洪水灾害影响的每个图像的分割掩码以及这些模型的验证准确率。这种方法促进了及时和持续的洪水监测,为应急响应团队提供了重要数据,以减少生命损失和经济损失。它大大减少了生成洪水地图所需的时间,缩短了手动处理时间。此外,我们提出了未来研究的方向,包括集成多模态数据源和开发专门针对洪水检测任务的鲁棒深度学习架构。总体而言,我们的工作通过创新使用深度学习技术促进了洪水管理策略的进步。
总结: 本研究通过比较不同深度学习模型在水体分割中的性能,提出了加速洪水监测的自动化方法,为洪灾管理提供了有效的数据支持。
###【arXiv编号】2501.08266v1
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器学习, 电子与电气工程
=====
摘要: 传统的联邦学习(FL)方法假设协作的客户端具有一致的目标,共同致力于一个共享的全局模型。然而,在许多现实世界的场景中,客户方作为具有个别目标和战略行为的理性参与者,现有的FL框架无法充分应对。为填补这一空白,我们引入了多玩家联邦学习(MpFL),这是一个新的框架,将FL环境中的客户建模为博弈论背景下的玩家,旨在达到均衡。在这种情况下,每个玩家试图优化自己的效用函数,这可能与集体目标不一致。在MpFL中,我们提出了每个玩家的本地随机梯度下降(PEARL-SGD)算法,其中每个玩家/客户端独立进行本地更新,并定期与其他玩家通信。我们对PEARL-SGD进行了理论分析,并证明在随机设置下,与非本地方法相比,它以更少的通信达到均衡的邻域。最后,我们通过数值实验验证了我们的理论发现。
总结: 本文提出了一个将联邦学习客户建模为博弈论中的玩家的新框架及其算法,显著减少通信成本并实现均衡。
###【arXiv编号】2501.08263v1
###【git】
###【期刊】
###【领域】计算机科学,数学,统计学
本文在联邦学习领域引入了博弈论视角,设计了高效的算法以减少通信成本,具有较高的创新性和实用价值。
=====
摘要: 现有的自动提示工程方法通常设计用于判别任务,其中新的任务提示通过一个反映单一方面的有限反馈的单一指标反复优化。然而,这些方法对于生成任务来说并不理想,因为生成任务需要比单一数值指标更细致的指导,以改进提示并优化生成文本的多个方面。为了解决这些挑战,我们提出了一种新颖的多方面批评-建议引导的自动提示优化(CriSPO)方法。CriSPO引入了一个批评-建议模块作为其核心组件。该模块自发地发现方面,并在这些方面对生成文本和参考文本进行比较,提供针对提示修改的具体建议。这些明确的批评和可执行的建议指导一个接受性优化模块进行更大幅度的更改,探索更广泛和更有效的搜索空间。为了通过多指标优化进一步改进CriSPO,我们引入了一个自动后缀调整(AST)扩展,以提高任务提示在多个指标上的性能。我们在4个最先进的大型语言模型(LLMs)上,使用4个摘要和5个问答(QA)数据集对CriSPO进行了评估。大量实验表明,摘要的ROUGE得分提高了3-4%,QA的各种指标也有显著改善。代码可在https://github.com/amazon-science/crispo获得。 总结: CriSPO是一种多方面批评-建议引导的自动提示优化方法,通过多指标优化显著提升文本生成任务的性能。
###【arXiv编号】2410.02748v3
###【git】https://github.com/amazon-science/crispo
###【期刊】
###【领域】自然语言处理
=====
摘要: 从人类示范中进行模仿学习使机器人能够执行复杂的操作任务,且近年来取得了显著成功。然而,这些技术在适应新的偏好或环境变化时常常遇到挑战。为解决这些限制,我们提出了基于人类偏好的微调扩散策略(FDPP)。FDPP通过基于偏好的学习来构建奖励函数,随后利用该奖励通过强化学习(RL)微调预训练策略,从而使预训练策略与新的用户偏好保持一致,同时仍能完成原始任务。我们在多种机器人任务和偏好设定下的实验表明,FDPP能够有效地定制策略行为而不牺牲性能。此外,加入Kullback-Leibler(KL)正则化在微调过程中防止了过拟合,并帮助保持初始策略的能力。
总结: FDPP通过基于人类偏好的强化学习微调方法,能够在不牺牲原有任务性能的情况下,自定义机器人的行为以适应新的用户偏好。
###【arXiv编号】2501.08259v1
###【git】
###【期刊】
###【领域】计算机科学 - 机器人学, 机器学习
=====
摘要: 本研究介绍了一种先进的方法,用于自动识别由于附近铁路轨道振动引起的平墙上的微小变形。该方法利用高密度地面激光扫描仪(TLS)LiDAR调查和人工智能/机器学习技术来收集和分析数据。扫描数据被处理成详细的点云,并进行分割以区分地面点、树木、建筑物和其他物体。分析重点在于识别平墙沿线的区域并估计其相对于地面方向的变形。研究结果显示,在靠近铁路走廊的墙体变形显著,最高变形范围为7至8厘米,平均为3至4厘米。相比之下,远离走廊的墙体变形可以忽略不计。所开发的用于特征提取和变形监测的自动化流程展示了其在结构健康监测中的潜力。通过将LiDAR数据与机器学习相结合,该方法提供了一个高效的系统用于识别和分析结构变形,强调了持续监测在确保城市基础设施结构完整性和公共安全方面的重要性。这一方法在自动特征提取和变形分析方面代表了实质性进展,有助于更有效地管理城市基础设施。
总结: 该研究通过结合LiDAR和机器学习,实现了铁路振动引起的平墙微小变形的自动检测与分析,提升了城市基础设施的结构健康监测能力。
###【arXiv编号】2501.06457v2
###【git】
###【期刊】
###【领域】计算机科学 - 机器学习
该研究创新性地将高密度LiDAR扫描与机器学习技术相结合,用于自动检测和分析铁路振动导致的建筑微变形,具有高度的实用性和应用潜力,有助于提升城市基础设施的维护和安全管理。
=====
摘要: 在过去几年中,通过可靠来源进行内容验证已成为对抗信息虚假传播的基本需求。在此,我们提出了一种与语言无关的模型,旨在评估Wikipedia多个语言版本中的来源可靠性。利用编辑活动数据,该模型评估了不同文章中来源的可靠性,这些文章涉及气候变化、COVID-19、历史、媒体和生物等不同争议性主题。通过构建表达领域在文章中使用情况的特征,模型有效地预测了来源的可靠性,对于英语和其他资源丰富的语言,实现了大约0.80的F1宏观得分。对于中等资源语言,我们实现了0.65的得分,而低资源语言的性能则有所不同;在所有情况下,领域在文章中存在的时间(我们称之为“持久性”)是最具预测性的特征之一。我们强调了在不同资源水平的语言中保持模型表现一致性的挑战,并证明从资源丰富的语言中调整模型可以提高性能。这项工作不仅有助于Wikipedia确保内容可验证性的努力,而且有助于确保各语言社区中多样化用户生成内容的可靠性。
总结: 该论文提出了一种语言无关的模型,能够有效评估多个Wikipedia语言版本中的来源可靠性,增强了内容可验证性并对抗了信息虚假传播。
###【arXiv编号】2410.18803v2
###【期刊】—
###【领域】社会与信息网络、机器学习
=====
摘要: 近年来,长上下文语言模型(LCLMs)的进步有望通过简化流程来改变基于检索增强生成(RAG)的模式。凭借扩展的上下文窗口,LCLMs可以处理整个知识库,并直接执行检索和推理——我们将这种能力定义为上下文内检索与推理(ICR²)。然而,现有的基准测试如LOFT常常过高估计LCLM的表现,因为它们提供了过于简化的上下文。为了解决这一问题,我们引入了ICR²,这是一种在更现实场景下评估LCLM的基准,通过纳入由强检索器检索的混杂段落。然后,我们提出了三种方法来增强LCLM的表现:(1)先检索后生成的微调,(2)使用注意力头在解码过程中过滤和去噪长上下文的检索注意力探测,以及(3)生成头的联合检索头训练。我们在LOFT和ICR²上评估了五个著名的LCLM,结果表明,我们的最佳方法应用于Mistral-7B后,与原始RAG和监督微调相比,LOFT的精确匹配分数分别提高了+17和+15分,ICR²提高了+13和+2分。即使在模型规模大幅减小的情况下,它也在大多数任务上超越了GPT-4-Turbo。
总结: 该研究通过引入ICR²基准和三种增强方法,显著提升了长上下文语言模型在实际检索与推理任务中的性能。
###【arXiv:2501.08248v1】
###【git】: N/A
###【期刊】: N/A
###【领域】计算机科学(自然语言处理,人工智能,信息检索,机器学习)
该论文在提升长上下文语言模型在复杂检索与推理任务中的表现方面具有显著的创新性和实用性,提出的方法有效且实验结果优异,尽管尚未广泛应用,但具有很高的学术和应用价值。
=====
摘要: 近期的研究提出了用于测试给定大型语言模型(LLM)漏洞的自动化红队方法。这些方法使用红队的LLM来发现引发目标LLM有害行为的输入。在本文中,我们研究了能够实现定向安全评估的红队策略。我们提出了一个带有接近性约束的红团队优化框架,其中发现的提示必须与给定数据集中的参考提示相似。这个数据集作为发现提示的模板,将测试用例的搜索锚定到具体主题、写作风格或有害行为类型。我们发现,已建立的自回归模型架构在这种设置下表现不佳。因此,我们引入了一种受文本扩散模型启发的黑盒红队方法:用于审计和红队的扩散(DART)。DART通过在嵌入空间中扰动参考提示来修改它,直接控制引入的变化量。我们通过与基于模型微调、零样本和少样本提示的既定方法比较来系统评估我们的方法的有效性。我们的结果表明,DART在发现与参考提示接近的有害输入方面显著更有效。
总结: DART方法通过扩散模型有效地发现与参考提示相近的有害输入,提升了大型语言模型的安全评估能力。
###【arXiv编号】2501.08246v1
###【git】
###【期刊】
###【领域】计算机科学·机器学习
=====
摘要: 医学影像领域的深度学习在适应和泛化新情境方面面临挑战。此外,针对特定任务通常缺乏足够的标注数据,需要大量的注释工作。持续学习(CL)通过从数据流中进行终身学习,同时减轻对先前学习知识的遗忘,解决了适应性和泛化性问题。主动学习(AL)减少了有效训练所需的标注数量。本研究探索了这两种方法(CAL),开发了一种用于稳健医学影像分析的新框架。基于图像特征偏移的自动识别,Replay-Base Architecture for Context Adaptation(RBACA)采用CL的回放方法不断从不同的情境中学习,并结合AL组件选择最具信息量的实例进行注释。建立了一种评估CAL方法的新方法,使用定义的IL-Score指标,允许对迁移学习、遗忘和最终模型性能进行同时评估。我们展示了RBACA在域和类别增量学习场景中的有效性,通过在心脏影像的分割和诊断上评估其IL-Score。结果显示,RBACA在各种内存大小和注释预算下优于不使用CAL的基线框架以及一种最先进的CAL方法。我们的代码可在https://github.com/RuiDaniel/RBACA 获得。
总结: RBACA框架结合持续学习和主动学习,显著提升了医学影像分析的适应性和效率。
###【arXiv编号】2501.08245v1
###【git】https://github.com/RuiDaniel/RBACA
###【期刊】无
###【领域】医学影像分析,持续学习,主动学习
=====
摘要: 云运营(CloudOps)是一个快速发展的领域,专注于云基础设施的自动化管理和优化,对于应对日益复杂的云环境的组织至关重要。MontyCloud Inc. 是 CloudOps 领域的主要公司之一,利用自主机器人管理云合规、安全和持续运营。为了使平台对客户更具可访问性和有效性,我们利用了生成式人工智能(GenAI)。为现有的 MontyCloud 系统开发基于 GenAI 的自主 CloudOps 解决方案面临各种挑战,例如:(i)多样化的数据源;(ii)多进程的协调;以及(iii)处理复杂的工作流程以自动化日常任务。为此,我们开发了 MOYA,一个利用 GenAI 并在自主性与必要的人类控制之间取得平衡的多代理框架。该框架集成了各种内部和外部系统,并在任务协调、安全和错误缓解等因素上进行了优化,同时通过使用检索增强生成(RAG)提供准确、可靠和相关的洞见。通过从业者的帮助以及使用自动检查对我们的多代理系统进行评估,展示了在复杂工作流程中相对于非代理方法提升的准确性、响应性和有效性。
总结: 本文提出了一个基于生成式人工智能的多代理框架 MOYA,有效提升了云运营的自动化管理和优化能力。
###【arXiv编号】2501.08243v1
###【git】
###【期刊】
###【领域】计算机科学、人工智能、机器学习
该研究在云运营自动化方面引入了创新的多代理框架,结合生成式人工智能技术,具有较高的实用性和创新性,但尚需在更广泛的实际应用中验证其效果。
摘要: COVID-19 大流行对全球数十亿人造成了深远影响。由于其快速传播和严重的呼吸系统影响,该病毒对公共卫生和医疗系统构成了挑战。缓解 COVID-19 大流行的有效策略之一是整合检测以识别感染者。尽管 RT-PCR 被认为是诊断 COVID-19 的金标准,但它存在一些局限性,例如假阴性的风险。为了解决这一问题,本文提出了一种新颖的深度学习诊断系统,该系统在集成学习框架中整合了预训练的深度卷积神经网络(DCNN)以实现从胸部X射线(CXR)图像中精确识别 COVID-19 病例。我们使用 Choquet 积分结合来自预训练 DCNN 的最终隐藏层的特征向量,以捕捉不同 DCNN 之间的交互,这些交互是线性方法无法实现的。我们采用 Sugeno-λ 测度理论来推导网络子集的模糊测度,以实现聚合。我们利用微分进化来估计模糊密度。由于特征向量聚合的复杂性,我们开发了基于 TensorFlow 的 Choquet 操作层以促进高效聚合。对 COVIDx 数据集的实验结果表明,我们的集成模型在三分类中达到了 98% 的准确率,二分类中达到了 99.50%,优于其组成部分-DenseNet-201(三分类 97%,二分类 98.75%)、Inception-v3(三分类 96.25%,二分类 98.50%)、Xception(三分类 94.50%,二分类 98%)-并超过了许多以前的方法。
总结: 本文提出的基于 Choquet 积分和微分进化优化的集成深度学习模型在胸部X射线图像中实现了高精度的COVID-19识别。
###【arXiv:2501.08241v1】
###【git】
###【期刊】
###【领域】计算机视觉,人工智能,机器学习,图像处理
=====
摘要: 本文提出了一个隐私保护的机器学习模型及预处理验证框架,专注于在敏感数据上训练的模型。结合局部差分隐私(LDP)与LIME和SHAP的模型解释,我们的框架能够在不泄露个人隐私的情况下进行强有力的验证。该框架解决了两个关键任务:二分类任务,通过应用适当的预处理步骤验证目标模型是否经过正确训练;以及多分类任务,以识别特定的预处理错误。在三个真实世界的数据集(糖尿病、成人和学生记录)上的评估表明,尽管基于机器学习的方法在二分类任务中特别有效,但基于阈值的方法在多分类任务中表现相当。结果显示,尽管验证准确性在不同的数据集和噪声水平下有所变化,该框架仍能有效检测预处理错误,提供强力的隐私保障,并具有保护敏感数据的实用性。
总结: 提出了一种结合局部差分隐私与模型解释的框架,实现了对机器学习模型的隐私保护验证和预处理错误检测。
###【arXiv:2501.08236v1】
###【git】
###【期刊】
###【领域】计算机科学,机器学习,隐私保护
=====
摘要: 本文解决了高速客运铁路行业中的一个关键挑战:在竞争与合作运营商的背景下设计有效的动态定价策略。为此,提出了一个基于非零和马尔可夫博弈的多智能体强化学习(MARL)框架,结合了随机效用模型以捕捉乘客的决策过程。与能源、航空和移动网络等领域的先前研究不同,使用深度强化学习进行铁路系统的动态定价的研究较为有限。本文的一个主要贡献是一个可参数化且多样化的强化学习模拟器RailPricing-RL,用于模拟各种铁路网络配置和需求模式,同时实现用户行为的现实微观建模。该环境支持所提出的MARL框架,模拟异质智能体在最大化个体利润的同时促进合作行为以同步连接服务。实验结果验证了该框架,展示了用户偏好如何影响MARL的性能,以及定价策略如何影响乘客选择、效用和整体系统动态。该研究为推进铁路系统中的动态定价策略奠定了基础,实现了盈利能力与系统整体效率的平衡,并支持未来优化定价策略的研究。
总结: 本研究提出了一个多智能体强化学习框架,通过模拟用户行为与合作竞争,优化高速铁路的动态定价策略,提升系统效率与盈利能力。
###【arXiv:2501.08234v1】
###【git】
###【期刊】
###【领域】计算机科学、机器学习、人工智能、多智能体系统
=====
摘要: 基础模型(FMs)是使用大规模数据集和自监督学习方法开发的大型深度学习模型。这些模型作为不同下游任务的基础,包括医疗保健。基础模型已在医疗保健的各个领域取得了巨大成功。现有的基于医疗保健的调查尚未涵盖所有这些领域。因此,我们提供了医疗保健中基础模型的详细调查。我们重点关注基础模型的历史、学习策略、旗舰模型、应用和挑战。我们探讨了像BERT和GPT系列这样的基础模型如何重塑包括临床大型语言模型、医学图像分析和组学在内的各种医疗保健领域。此外,我们提供了基础模型促进的医疗保健应用的详细分类,如临床自然语言处理、医学计算机视觉、图学习和其他生物相关任务。尽管基础模型提供了有希望的机会,但它们也存在若干相关挑战,这些挑战在文中有详细说明。我们还概述了开放的研究问题和潜在的经验教训,以为研究人员和从业者提供关于基础模型在医疗保健中能力的见解,促进其部署并减轻相关风险。
总结: 该综述全面探讨了基础模型在医疗保健各领域的应用、挑战及未来研究方向,为相关研究提供了宝贵的参考。
###【arXiv编号】2406.10729v2
###【git】暂无
###【期刊】暂无
###【领域】计算机科学 - 机器学习, 人工智能, 计算机视觉
文章系统性强,全面覆盖基础模型在医疗领域的多方面应用,具有较高的参考价值,适合相关研究人员和从业者参考。
=====
摘要: 胶质母细胞瘤是一种高度侵袭性的脑肿瘤,由于其预后不良和高发病率,带来了重大挑战。基于偏微分方程的模型通过模拟患者特异性的肿瘤行为,有望提升治疗效果,从而改善放射治疗的规划。然而,由于优化方法(如蒙特卡洛采样和进化算法)的高计算需求,模型校准仍然是一个瓶颈。为了解决这一问题,我们最近提出了一种利用神经前向求解器和基于梯度的优化方法,以显著减少校准时间的方法。这种方法需要一个高度准确且完全可微分的前向模型。我们研究了多种架构,包括(i)增强的TumorSurrogate,(ii)修改后的nnU-Net,以及(iii)3D视觉变压器(ViT)。经过优化的TumorSurrogate在肿瘤轮廓匹配和肿瘤细胞浓度的体素级预测方面表现最佳。其均方误差相较于基线模型减少了一半,并在所有肿瘤细胞浓度阈值下达到了最高的Dice分数。我们的研究展示了前向求解器性能的显著提升,并概述了未来的重要研究方向。
总结: 本文通过引入神经前向求解器显著提升了脑肿瘤生长模型的计算效率,为个性化放射治疗规划提供了有力支持。
###【arXiv编号】 arXiv:2501.08226v1
###【git】 无
###【期刊】 无
###【领域】 计算机视觉、机器学习、智慧医疗
该研究在脑肿瘤生长模型中应用深度学习前向求解器,显著降低了模型校准的计算成本,具有较高的创新性和实用性,适用于医学图像分析和个性化治疗规划领域。
=====
摘要: 多目标决策问题已在许多现实场景中出现,例如视频游戏、导航和机器人。考虑到强化学习(RL)在优化决策过程中的明显优势,研究人员深入开发了多目标RL(MORL)方法来解决多目标决策问题。然而,之前的方法要么无法获得整个Pareto前沿,要么只为对多个目标的偏好使用单一的策略网络,这可能无法为每个偏好生成个性化的解决方案。为了解决这些限制,我们提出了一种新颖的基于分解的MORL框架Pareto Set Learning for MORL(PSL-MORL),利用超网络的生成能力为每个分解权重生成策略网络的参数,高效地为各种标量化子问题生成相对不同的策略。PSL-MORL是一个通用框架,与任何RL算法兼容。理论结果保证了PSL-MORL的模型能力的优越性和获得的策略网络的最优性。通过在各种基准上的广泛实验,我们证明了PSL-MORL在实现Pareto前沿的密集覆盖方面的有效性,在超体积和稀疏性指标上显著优于最先进的MORL方法。
总结: PSL-MORL框架通过利用超网络提高了多目标强化学习的效率和效果,显著优于现有方法。
###【arXiv:2501.06773v2】
###【git】: 无
###【期刊】: 无
###【领域】: 计算机科学 - 机器学习
=====
摘要: 我们观察到,BatchBALD 作为一种流行的用于分类的批量贝叶斯主动学习获取函数,可能会混淆认识不确定性和数据不确定性,导致性能次优。基于这一观察,我们提出关注预测概率,该概率只表现出认识不确定性。结果是一个不仅性能更好,而且评估速度更快的获取函数,允许以前无法实现的更大批量。总结: 本文提出了一种通过仅考虑预测概率来提升批量贝叶斯主动学习性能和效率的方法。
###【arXiv:2501.08223v1】
###【期刊】
###【领域】
机器学习
该研究针对主动学习中的不确定性问题提出了创新性解决方案,显著提升了性能和计算效率,具有较高的应用价值。
=====
摘要: 大型语言模型(LLMs)在许多自然语言处理(NLP)任务中显示出显著的改进,加速了它们在许多行业中的快速采用。这些模型资源密集,在训练和推理期间都需要大量的计算资源,导致能源消耗增加和负面环境影响。随着它们的采用加速,LLMs的可持续性成为一个关键问题,需要在不影响性能的情况下优化其运行效率。因此,识别显著影响LLMs性能和能源效率的参数至关重要。为此,本研究调查了在推理过程中重要参数对LLMs性能和能源效率的影响,并考察了它们的权衡。
首先,我们通过对Falcon-7B、Mistral-7B-v0.1、T5-3B、GPT-2、GPT-J-6B和GPT-Neo-2.7B等LLMs在文本生成、问答和摘要等任务上的基准测试,分析了具有不同参数数量和架构的不同类型模型的性能。其次,我们研究了输入和输出序列特性,如序列长度与能源消耗、性能和吞吐量之间的关系。最后,我们探讨了基于硬件的省电技术,即动态电压频率调节(DVFS),对模型延迟和能源效率的影响。我们的广泛基准测试和统计分析揭示了许多有趣的发现,揭示了特定优化如何在保持吞吐量和准确性的同时减少能源消耗。本研究为研究人员和实践者设计节能型LLM推理系统提供了可行的见解。
总结: 该研究通过全面基准测试和分析,揭示了优化大型语言模型推理过程中提升能源效率与性能之间的权衡,为设计节能型LLM系统提供了实用见解。
###【arXiv编号】2501.08219v1
###【git】:无
###【期刊】:无
###【领域】:计算机科学,机器学习
=====
摘要: 量子机器学习(QML)在基因组序列分类等复杂任务中展现出显著潜力,但在有噪声的中等规模量子(NISQ)设备上的量子噪声带来了实际挑战。本研究系统评估了各种量子噪声模型,包括退相干、振幅衰减、去极化、热噪声、位翻转和相位翻转,如何影响关键的QML算法(QSVC、Peg-QSVC、QNN、VQC)和特征映射技术(ZFeatureMap、ZZFeatureMap、PauliFeatureMap)。结果表明,QSVC在噪声下表现出显著的鲁棒性,而Peg-QSVC和QNN对去极化和振幅衰减噪声更为敏感。特别是PauliFeatureMap极易受到影响,揭示了在有噪声条件下维持准确分类的困难。这些发现强调了在优化用于基因组分类的QML时,特征映射选择和噪声缓解策略的重要性,并对个性化医疗具有有希望的应用前景。
总结: 该研究揭示了不同量子噪声模型对QML算法和特征映射的影响,强调了在基因组分类中选择适当的特征映射和噪声缓解策略的重要性,为个性化医疗提供了有价值的见解。
###【arXiv:2501.08205v1】
###【git】
###【期刊】
###【领域】计算机科学,机器学习,量子计算
=====
Data-driven system identification using quadratic embeddings of nonlinear dynamics
摘要: 我们提出了一种新颖的数据驱动方法,称为 QENDy(二次嵌入非线性动力学),不仅能够学习高度非线性动力系统的二次表示,还能够识别出其控制方程。该方法基于将系统嵌入到更高维的特征空间中,在该空间中动力学变为二次。与 SINDy(稀疏非线性动力学识别)一样,我们的方法需要轨迹数据,训练数据点的时间导数,这些导数也可以使用有限差分近似进行估计,以及一组预选的基函数,称为字典。我们通过各种基准问题展示了 QENDy 的效能和准确性,并将其性能与 SINDy 以及一种用于识别二次嵌入的深度学习方法进行了比较。此外,我们分析了 QENDy 和 SINDy 在无限数据极限下的收敛性,强调了它们的相似点和主要区别,并将二次嵌入与基于 Koopman 算子的线性化技术进行了比较。
总结: QENDy 方法通过二次嵌入显著提升了非线性动力系统的识别精度,并在与现有方法的比较中展示了其优势。
###【arXiv编号】2501.08202v1
###【领域】
数学(动力系统)、计算机科学(机器学习)、统计学(机器学习)
=====
摘要: 在变分推断(VI)中,通过数值优化从一族分布中选择后验分布的近似。在最常见的变分目标函数,即证据下界(ELBO)下,仅能保证收敛到局部最优。本研究中,我们建立了一种特定VI方法的全局收敛性。该VI方法可以视为神经后验估计(NPE)的一个实例,最小化包含性(正向)KL散度的期望,以拟合由神经网络参数化的变分分布。我们的收敛结果依赖于神经切线核(NTK),以表征考虑函数空间中变分目标时出现的梯度动态。在固定的、正定的神经切线核的渐近模式下,我们建立了变分目标在再生核希尔伯特空间(RKHS)中存在唯一解的条件。然后,我们展示了函数空间中的梯度下降动态收敛到这一唯一函数。在消融研究和实际问题中,我们证明了我们的结果解释了NPE在非渐近有限神经元设置下的行为,并表明NPE优于基于ELBO的优化,后者通常收敛于浅层局部最优。
总结: 本文证明了一种基于神经切线核的变分推断方法具有全局收敛性,并展示了其在实际应用中优于传统ELBO优化的性能。
###【arXiv编号】2501.08201v1
###【期刊】未提供
###【领域】机器学习,计算机科学
=====
摘要: 大型语言模型(LLMs)通过生成或协助代码编写,显著提高了开发者在各种任务中的生产力。然而,识别错误代码往往很简单,检测功能正确代码中的漏洞则更具挑战性,尤其对于安全知识有限的开发者来说,这给使用LLM生成代码带来了相当大的安全风险,并凸显了需要强大的评估基准,以评估功能正确性和安全性。目前的基准如CyberSecEval和SecurityEval尝试解决这一问题,但由于规范不明确和不切实际,无法准确评估功能性和安全性。为解决这些不足,我们引入了CWEval,这是一种新颖的基于结果的评估框架,旨在通过LLMs的安全代码生成评估来提升评估水平。该框架不仅评估代码的功能性,还同时评估其安全性,并配备高质量的任务规范和基于结果的测试oracle,从而提供高准确性。结合CWEval-bench,一种多语言、安全关键的编码基准,CWEval提供了对LLM生成代码的严格经验性安全评估,克服了以前基准的缺点。通过我们的评估,CWEval揭示了由LLMs生成的大量功能性但不安全的代码,并展示了以前评估的严重不准确性,最终对安全代码生成领域做出了重大贡献。我们在以下网址开源了我们的工具:https://github.com/Co1lin/CWEval。
总结: CWEval框架通过评估LLM生成代码的功能性与安全性,提升了代码生成的安全性评估标准。
###【arXiv:2501.08200v1】
###【GitHub: https://github.com/Co1lin/CWEval】
###【期刊】
###【领域】计算机科学软件工程, 自然语言处理, 机器学习
=====
摘要: 超光谱图像通常由数百个狭窄且连续的光谱带组成,每个光谱带都包含有关被成像场景材料组成的信息。然而,这些图像可能会受到各种噪声、失真或数据丢失的影响,这可能会显著降低它们的质量和实用性。本文介绍了一种收敛保障算法LRS-PnP-DIP(1-Lip),该算法成功解决了之前报道的DHP的不稳定性问题。所提出的算法扩展了成功的联合低秩和稀疏模型,进一步利用了传统且有时限制性的子空间模型之外的潜在数据结构。稳定性分析保证了在温和假设下提出算法的收敛性,这对于其在实际场景中的应用至关重要。大量实验表明,所提出的解决方案在视觉和量化方面始终提供了更优的插补结果,确立了最先进的性能。
总结: 本文提出了一种新的超光谱图像插补算法,具有稳定收敛性和卓越的性能表现。
###【arXiv编号】2501.08195v1
###【git】
###【期刊】
###【领域】计算机科学,计算机视觉,机器学习
该研究在超光谱图像插补领域提出了创新性的算法,具有良好的理论基础和实用性,实验结果表明其性能优于现有方法。
=====
摘要: 量子机器学习(QML)持续发展,为多种应用解锁新的机会。本研究通过采用各种特征映射技术,研究并评估QML模型在基因组序列数据二元分类中的适用性。我们提出了一个基于Qiskit的开源独立实现,用于在基准基因组数据集上进行实验。我们的模拟显示,特征映射技术和QML算法之间的相互作用显著影响性能。值得注意的是,Pegasos量子支持向量分类器(Pegasos-QSVC)表现出高灵敏度,特别是在召回率指标上表现出色,而量子神经网络(QNN)在所有特征映射中达到了最高的训练准确率。然而,分类器性能的明显变异性,依赖于特征映射,突显了在某些情况下过拟合于局部输出分布的风险。这项工作强调了QML在基因组数据分类中的变革潜力,同时强调了需要持续的进步以增强这些方法的稳健性和准确性。
总结: 本文探讨了量子机器学习模型在基因组数据二分类中的应用,展示了特征映射技术与QML算法的相互影响,并强调了提高方法稳健性的重要性。
###【arXiv编号】2501.08193v1
###【git】
###【期刊】
###【领域】计算机科学, 机器学习, 量子计算, 基因组数据分析
摘要: 尽管最近的基础模型在单目深度估计方面取得了显著突破,但在实际应用中实现安全可靠的部署仍然缺乏明确的路径。度量深度估计涉及预测绝对距离,面临特殊的挑战,因为即使是最先进的基础模型仍然容易出现关键错误。由于量化不确定性已成为解决这些限制并实现可信部署的有前途的努力,我们将五种不同的不确定性量化方法与当前最先进的DepthAnythingV2基础模型相结合。为了涵盖广泛的度量深度领域,我们在四个不同的数据集上评估了它们的性能。我们的发现确定高斯负对数似然损失(GNLL)微调是一种特别有前景的方法,提供了可靠的不确定性估计,同时保持了与基线相当的预测性能和计算效率,包括训练和推理时间。通过在单目深度估计的背景下融合不确定性量化和基础模型,本文为未来旨在提高模型性能及其可解释性的研究奠定了重要基础。将不确定性量化和基础模型的这一关键综合扩展到其他关键任务,如语义分割和姿态估计,为更安全和更可靠的机器视觉系统提供了令人兴奋的机会。
总结: 本文通过融合多种不确定性量化方法与先进基础模型,显著提升了单目深度估计的可靠性和可解释性,为安全可靠的机器视觉系统的发展奠定了基础。
###【arXiv编号】arXiv:2501.08188v1
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器学习
=====
摘要: 大型语言模型在理解复杂自然语言指令方面表现出色,使其能够执行广泛的任务。在生命科学中,单细胞RNA测序(scRNA-seq)数据被视为“细胞生物学的语言”,捕捉了单细胞水平上复杂的基因表达模式。然而,通过传统工具与这种“语言”进行交互往往效率低下且不直观,给研究人员带来了挑战。为了解决这些限制,我们提出了InstructCell,一种利用自然语言作为更直接和灵活的单细胞分析媒介的多模态AI副驾驶。我们构建了一个全面的多模态指令数据集,将基于文本的指令与来自不同组织和物种的scRNA-seq谱图配对。在此基础上,我们开发了一种多模态细胞语言架构,能够同时解释和处理两种模态。InstructCell使研究人员能够使用简单的自然语言命令完成关键任务——如细胞类型注释、条件伪细胞生成和药物敏感性预测——。广泛的评估表明,InstructCell在适应不同实验条件的同时,性能始终达到或超过现有的单细胞基础模型。更重要的是,InstructCell为探索复杂的单细胞数据提供了一个可访问且直观的工具,降低了技术门槛,促进了更深入的生物学见解。
总结: InstructCell通过多模态AI副驾驶,利用自然语言提升单细胞分析的效率和直观性,助力生命科学研究。
###【arXiv编号】2501.08187v1
###【git】
###【期刊】
###【领域】计算机科学(计算语言学、人工智能、计算机工程、人机交互、机器学习)、定量生物学(细胞生物学)
=====
摘要: 扩散模型在图像生成方面取得了前沿的性能。然而,它们冗长的去噪过程和计算密集的分数估计网络阻碍了其在低延迟和资源受限场景下的可扩展性。后训练量化(PTQ)在不重新训练的情况下压缩和加速扩散模型,但不可避免地会引入额外的量化噪声,导致均值和方差的偏差。在本工作中,我们提出了 D²-DPM,这是一种双重去噪机制,旨在精确减轻量化噪声对噪声估计网络的不利影响。具体而言,我们首先将量化噪声对采样方程的影响分解为两个部分:均值偏差和方差偏差。均值偏差改变了采样方程的漂移系数,影响了轨迹趋势,而方差偏差放大了扩散系数,影响了采样轨迹的收敛。所提出的 D²-DPM 因此被设计为在每个时间步骤去噪量化噪声,然后通过逆扩散迭代去噪噪声样本。实验结果表明,D²-DPM 实现了更优的生成质量,FID 比全精度模型低 1.42,同时实现了 3.99 倍的压缩和 11.67 倍的位操作加速。
总结: D²-DPM 通过双重去噪机制有效减轻量化噪声,从而在压缩和加速扩散模型的同时提升了图像生成质量。
###【arXiv编号】: 2501.08180v1
###【git】: 无
###【期刊】: 无
###【领域】: 计算机视觉与机器学习
该研究提出了创新性的双重去噪机制,能够在不重新训练的情况下显著提升量化扩散模型的性能,具有较高的实用性和潜在应用价值。
=====
摘要: 自动化目标检测在各种应用中变得越来越有价值,然而高效、高质量的标注仍然是一个持续的挑战。本文介绍并评估了一个旨在交互式改进目标检测模型的平台的开发。该平台允许上传和标注图像以及微调目标检测模型。用户可以手动审查和完善标注,进一步创建改进的快照,用于后续图像上传的自动目标检测——这一过程我们称之为半自动标注,从而显著提高了标注效率。虽然迭代改进模型结果以加速标注已成为常见做法,但我们是首个定量评估其在时间、努力和交互节省方面益处的研究。实验结果显示,半自动标注相较于手动标注在时间上显著缩减,最高可达53%。重要的是,这些效率提升并未影响标注质量,同时在准确性上匹配甚至偶尔超过手动标注。这些发现展示了我们轻量级标注平台在创建高质量目标检测数据集方面的潜力,并为未来标注平台的发展提供了最佳实践。本平台是开源的,前端和后端代码库可在GitHub上获得。此外,我们还创建了一个解释视频,展示了使用大肠杆菌显微图像作为例子的标注方法,视频可在YouTube上观看。
总结: 本研究提出了一种半自动化的目标检测标注平台,显著提升了标注效率且保持高质量。
###【arXiv:2411.19835v2】
###【git: https://github.com/ml-lab-htw/iterative-annotate】
###【期刊】: 无
###【领域】: 计算机视觉,机器学习
=====
摘要: 本研究介绍了一种集成方法,利用最先进的深度学习模型,如 MobileNetV3、ResNet50 和 EfficientNet-B2,来识别阿拉伯手语(ArSL)。这些模型进一步通过可解释人工智能(XAI)技术增强,以提高可解释性。该研究使用了 ArSL2018 和 RGB 阿拉伯字母手语(AASL)数据集,其中 EfficientNet-B2 分别达到了 99.48% 和 98.99% 的峰值准确率。主要创新包括采用复杂的数据增强方法缓解类别不平衡、实施分层的五折交叉验证以提高泛化能力,以及使用 Grad-CAM 实现模型决策的清晰透明。所提出的系统不仅在识别准确率方面设定了新基准,还强调了可解释性,适用于医疗保健、教育和包容性通信技术等应用。
总结: 该研究提出了一种高准确率且具可解释性的阿拉伯手语识别系统,适用于多个应用领域。
###【arXiv编号】2501.08169v1
###【git】无
###【期刊】无
###【领域】计算机视觉、人工智能、计算机系统结构、语言学
=====
摘要: 尽管面部关键点检测(FLD)已取得显著进展,现有的FLD方法在部分非可见人脸(例如被遮挡或在极端光照条件或姿态下的人脸)上仍表现出性能下降。为了解决这一问题,我们提出了ORFormer,这是一种新颖的基于变换器的方法,能够检测非可见区域并从可见部分恢复其缺失的特征。具体而言,ORFormer将每个图像补丁标记与一个额外的可学习标记称为使者标记相关联。使者标记聚合除了其补丁之外的所有特征。通过参考其常规和使者嵌入之间的相似性,可以评估补丁与其他补丁之间的共识,从而识别非可见区域。然后,我们的方法使用使者标记聚合的特征恢复被遮挡的补丁。利用恢复的特征,ORFormer为下游的FLD任务编译高质量的热图。大量实验证明,我们的方法生成的热图在部分遮挡情况下具有较强的鲁棒性。通过将生成的热图集成到现有的FLD方法中,我们的方法在WFLW和COFW等具有挑战性的数据集上优于当前最先进的方法。
总结: ORFormer通过变换器模型有效检测和恢复遮挡区域,提升了面部关键点检测的准确性和鲁棒性。
###【arXiv:2412.13174v2】
###【git】: 无
###【期刊】: 无
###【领域】: 计算机视觉, 人工智能, 机器学习
=====
摘要: 专门训练以生成长链式思维(CoT)的模型最近取得了令人印象深刻的成果。我们将这些模型称为推理时间计算(ITC)模型。ITC模型的CoT与传统非ITC模型相比是否更为忠实?我们评估了两个基于Qwen-2.5和Gemini-2的ITC模型在现有忠实CoT测试中的表现。为了衡量忠实度,我们测试模型是否能在提示中表达影响其回答MMLU问题的线索。例如,当在提示中添加“斯坦福教授认为答案是D”时,模型有时会将其答案切换为D。在这种情况下,Gemini ITC模型表达该线索的概率为54%,而非ITC的Gemini仅为14%。我们评估了7种类型的线索,如误导性少样本示例和基于过去响应的锚定。ITC模型在表达影响它们的线索方面比所有6个测试的非ITC模型(如Claude-3.5-Sonnet和GPT-4o,通常接近0%)更为可靠。然而,我们的研究有重要的局限性。我们仅评估了两个ITC模型,无法评估OpenAI的SOTA o1模型。我们也缺乏这些ITC模型训练的详细信息,这使得难以将我们的发现归因于特定的过程。我们认为CoT的忠实度是AI安全的重要属性。我们测试的ITC模型显示出忠实度的大幅提升,值得进一步研究。为了加快这一调查,我们将这些早期结果作为研究笔记发布。
总结: 本研究发现,推理时间计算(ITC)模型在生成忠实的链式思维(CoT)方面显著优于传统模型,具有提升AI安全性的潜力。
###【arXiv编号】2501.08156v1
###【git】
###【期刊】
###【领域】计算机科学,机器学习
本文探讨了推理时间计算模型在提升链式思维忠实性方面的效果,实验结果显著,具有较高的创新性和实用性,但样本模型数量有限,值得关注。
=====
摘要: 算法决策已深植于许多领域,但机器学习模型中的偏见仍可能导致歧视性结果,常常伤害弱势群体。实现公平分类本质上具有挑战性,需要在预测性能和伦理考量之间仔细平衡。我们提出了FairTTTS,这是一种新颖的后处理偏见缓解方法,灵感来自于树测试时间模拟(TTTS)方法。TTTS最初是通过概率决策路径调整来增强准确性和对抗性输入的鲁棒性,FairTTTS基于这种提高准确性的技术,缓解偏见并改善预测性能。FairTTTS使用基于距离的启发式方法,在受保护属性节点调整决策,确保弱势样本的公平性。这种以公平为导向的调整作为后处理步骤进行,使FairTTTS能够应用于预训练模型、多样化数据集和各种公平性指标,而无需重新训练。在七个基准数据集上的广泛评估表明,FairTTTS在公平性提高方面比传统方法优越,平均比基线提升20.96%,而相关工作提升18.78%,并进一步通过0.55%提高了准确性。而竞争方法通常降低0.42%的准确性。这些结果证实,FairTTTS在促进更公正的决策的同时,进一步提高了预测性能。
总结: FairTTTS通过树测试时间模拟方法有效提升了分类任务的公平性和准确性,优于传统偏见缓解方法。
###【arXiv编号】2501.08155v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能
=====
摘要: 异常检测(AD)在人工智能应用中起着关键作用,例如分类和网络安全中的入侵/威胁检测。然而,大多数现有方法面临来自非独立同分布(non-IID)数据导致的特征子集间异质性的挑战。我们提出了一种新的神经网络模型——多输入自编码器用于AD(MIAEAD)来解决这一问题。MIAEAD为数据样本的每个特征子集分配一个异常评分,以指示其成为异常的可能性。这是通过使用其子编码器的重构误差作为异常评分来完成的。所有子编码器随后通过无监督学习同时训练,以确定特征子集的异常评分。MIAEAD的最终AUC是在每个子数据集上计算,并选择各子数据集中获得的最大AUC。为了利用生成模型的正常数据分布建模来识别异常,我们开发了一种新的神经网络架构/模型,称为多输入变分自编码器(MIVAE)。MIVAE能够通过其子编码器处理特征子集,然后在潜在空间中学习正常数据的分布。这使得MIVAE能够识别偏离已学分布的异常。我们理论上证明,所提出的MIVAE所获得的正常样本与异常之间的平均异常评分差异大于变分自编码器(VAEAD),从而导致MIVAE具有更高的AUC。在八个真实世界的异常数据集上进行的广泛实验表明,MIAEAD和MIVAE在AUC评分方面优于传统方法和最先进的无监督模型,提升幅度达6%。另外,基于变异系数(CV)评分,MIAEAD和MIVAE在异质性较低的特征子集上具有较高的AUC。
总结: 本文提出的MIAEAD和MIVAE模型在异质数据的异常检测中表现出显著的优越性。
###【arXiv编号】2501.08149v1
###【git】
###【期刊】
###【领域】计算机科学 - 人工智能,机器学习,统计机器学习
=====
摘要: 近期先进的GAN逆转模型旨在通过使用生成器调优或高维特征学习的方法,将高保真信息从原始图像传递到生成器。尽管付出了这些努力,由于训练和结构方面的固有限制,准确重建图像特定细节仍然是一个挑战,导致偏向低频信息。本文探讨了GAN逆转中广泛使用的像素损失,揭示其主要关注于低频特征的重建。然后,我们提出了WINE,一种基于小波引导的GAN逆转与编辑模型,通过新提出的小波损失和小波融合方案,通过小波系数传递高频信息。值得注意的是,WINE是首次在频域解释GAN逆转。我们的实验证明,WINE在保留高频细节和提高图像质量方面具有高精度。即使在编辑场景中,WINE也优于现有的最先进GAN逆转模型,在可编辑性和重建质量之间取得了良好的平衡。
总结: WINE模型通过小波引导的GAN逆转方法有效保留高频细节,提升图像质量并在编辑场景中表现优异。
###【arXiv编号】2210.09655v2
###【git】
###【期刊】
###【领域】计算机视觉, 机器学习, 图像与视频处理
=====
摘要: 现代机器学习技术展现了巨大的潜力,尤其是在相机图像上的目标检测。因此,它们也被用于实现安全关键的自动化过程,如自主无人机飞行。我们对“检测与避免”这一无人机的安全关键功能进行了目标检测研究,该功能用于在自动飞行期间检测空中交通以确保安全。一个难以解决的问题是生成良好且特别大的数据集,因为检测本身就是一个边缘案例。大多数模型由于原始数据中真实情况的有限覆盖,例如记录的空中交通或小型飞机的正面飞行,导致检测率低下且存在严重问题。我们通过使用修复方法来扩充数据集,明确包含原始数据的边缘案例,从而克服了这一问题。我们提供了修复方法和生成模型的概述,并在一个小型注释数据集上展示了一个示例流程。我们通过生成一个高分辨率数据集来验证我们的方法,并公开提供该数据集,同时将其提交给一个完全基于真实数据训练的独立目标检测器进行展示。
总结: 本文提出了一种通过高分辨率图像修复方法扩充数据集,从而提升无人机“检测与避免”功能中目标检测性能的创新性方法。
###【arXiv编号】 arXiv:2501.08142v1
###【git】 无
###【期刊】 无
###【领域】 计算机视觉, 机器学习
该研究通过高分辨率图像修复技术有效解决了自动飞行中目标检测数据稀缺的问题,具有较高的创新性和实用价值,尤其在无人机安全领域应用前景广阔。
=====
摘要: EEG解码算法的发展面临数据稀疏、受试者变异性和精确注释的需求等挑战,这些都是推动脑-计算机接口和提高疾病诊断能力的关键。为了解决这些问题,我们提出了一种新颖的两阶段方法,命名为自监督状态重构启动的黎曼动态(EEG-ReMinD),该方法减轻了对监督学习的依赖,并整合了内在的几何特征。这种方法高效地处理了EEG数据的损坏,并降低了对标签的依赖。EEG-ReMinD利用自监督和几何学习技术,以及注意力机制,在黎曼几何框架下分析EEG特征的时间动态,即黎曼动态。对来自两种不同神经退行性疾病的完整和损坏数据集的比较分析突显了EEG-ReMinD的增强性能。
总结: EEG-ReMinD方法通过自监督和黎曼几何技术提升了神经退行性EEG解码的性能。
###【arXiv编号】2501.08139v1
###【git】
###【期刊】
###【领域】计算机科学, 信号处理, 人工智能
摘要: 快速预测机翼后缘噪声的方法对于将噪声限制纳入多种应用的设计优化循环至关重要。在这些气动声学预测模型中,Amiet理论在准确性和简便性之间提供了最佳平衡。该模型的准确性在很大程度上依赖于精确的壁压力谱预测,这些预测通常基于具有可调参数的单方程公式。这些参数针对特定的机翼和流动条件进行校准,因此在应用于校准范围之外时往往会失效。本文介绍了一种新的壁压力谱经验模型,旨在增强当前最先进预测的鲁棒性和准确性,同时扩大模型对不同机翼和流动条件的适用范围。该模型使用基于人工智能的符号回归通过遗传算法方法开发,并应用于在多个攻角和流入速度下测量的NACA 0008和NACA 63018机翼壁面压力波动的数据集,涵盖了具有不利和有利压强梯度的湍流边界层。与实验数据的验证(在训练数据集之外)证明了该模型相比于公认的半经验模型具有更好的鲁棒性。最后,模型与Amiet理论集成,用于预测全尺寸风力涡轮机的气动声学噪声,与实验测量结果良好吻合。
总结: 该研究通过符号回归开发了一个新的壁压力谱模型,显著提升了气动声学噪声预测的鲁棒性和准确性,并成功应用于风力涡轮机的噪声预测。
=====
摘要: 上下文输入对大型语言模型(LLMs)行为的影响促使了上下文归因方法的发展,旨在量化每个上下文片段对LLM生成的影响。离一法(LOO)误差衡量在移除给定上下文片段时LLM响应的可能性变化,提供了一种执行上下文归因的原则性方法,但对于大型模型来说计算成本极高。在本研究中,我们介绍了AttriBoT,这是一系列用于高效计算上下文归因的LOO误差近似的新技术。具体而言,AttriBoT使用缓存激活以避免冗余操作,执行层次归因以减少计算,并使用较小的代理模型模拟大型目标模型的行为。综合来看,AttriBoT可以提供超过300倍的加速,同时比先前的上下文归因方法更忠实于目标模型的LOO误差。这种显著的性能提升使得在生成响应本身的30倍速度下计算上下文归因成为可能,推动了需要大规模计算归因的实际应用。我们发布了一个用户友好且高效的AttriBoT实现,以促进LLM解释性的高效发展,并鼓励未来高效上下文归因方法的开发。
总结: AttriBoT通过一系列创新技术大幅提升了上下文归因的计算效率,使大规模语言模型的解释性分析更为实用和高效。
###【arXiv编号】2411.15102v2
###【git】
###【期刊】
###【领域】计算机科学,机器学习
=====
摘要: 本文提出了一种用于预测德国电价的新型混合模型。该算法基于高斯过程回归(GPR)和支持向量回归(SVR)的结合。虽然GPR是学习数据中的随机模式和插值的有效模型,但其对样本外数据的表现并不理想。通过选择合适的数据相关协方差函数,我们可以提高GPR对测试的德国小时电价的性能。然而,由于样本外预测依赖于训练数据,预测容易受到噪声和异常值的影响。为解决这个问题,使用SVR进行单独预测,SVR应用了基于边缘的优化,具有处理非线性过程和异常值的优势,因为只有训练数据中某些必要的点(支持向量)负责回归。两种单独的预测随后使用基于性能的权重分配方法进行组合。在对历史德国电价的测试中,这种方法优于其选择的基准,如自回归外生模型、朴素方法以及长短期记忆预测方法。
总结: 该研究通过结合高斯过程回归与支持向量回归,显著提升了德国电价预测的准确性。
###【arXiv编号】2412.00123v3
###【git】
###【期刊】
###【领域】计算机科学与统计学在电价预测中的应用
=====
摘要: 我们提出了一种用于网络属性预测的神经网络权重编码方法,该方法利用集合到集合和集合到向量函数高效地编码神经网络参数。与以前需要针对不同架构进行定制编码模型的方法不同,我们的方法能够在包含混合架构和不同参数规模的模型库中编码神经网络。此外,我们的集合神经网络编码器(SNE)考虑了神经网络的分层计算结构。为了遵守网络权重空间固有的对称性,我们利用Logit不变性来学习所需的最小不变性属性。此外,我们还引入了一种“填充-分块-编码”流程,以高效编码神经网络层,并可根据计算和内存限制进行调整。我们还为神经网络属性预测引入了两个新任务:跨数据集和跨架构。在跨数据集属性预测中,我们评估了属性预测器在针对不同数据集但相同架构训练的模型库上的泛化能力。在跨架构属性预测中,我们评估了属性预测器在训练期间未见过的不同架构模型库上的迁移能力。我们展示了SNE在标准基准上优于相关基线的方法。
总结: SNE通过高效的集合函数编码方法,提升了神经网络属性预测在跨数据集和跨架构任务中的性能。
###【arXiv编号】2305.16625v3
###【期刊】
###【领域】计算机科学 - 机器学习,人工智能,神经和进化计算
=====
摘要: 手部特定定位在计算机视觉社区引起了显著的关注。尽管存在许多带有不同角度和设置下手部注释的数据集,域迁移技术在手术环境中经常遇到困难。这主要是由于带手套手部实例的有限可用性和手术室(OR)的独特挑战。因此,针对OR环境定制的手部检测模型需要大量的训练和昂贵的注释过程。为克服这些挑战,我们提出了"RoHan"——一种新颖的在OR中稳健手部检测方法,利用先进的半监督域适应技术来应对手术环境中常见的不同录制条件、不同手套颜色和遮挡等挑战。我们的方法包括两个主要阶段:(1) 数据增强策略,利用“人工手套”,一种将公开可用手部数据集与穿戴手套的手部合成图像进行增强的方法;(2) 半监督域适应流程,通过迭代的预测优化和高效的帧过滤,提升在真实OR环境中的检测性能。我们使用两个数据集进行了评估:模拟肠切割修复和隐静脉移植收集。"RoHan"显著减少了大量标签和模型训练的需求,为手部检测技术在医疗环境中的实际应用奠定了基础。
总结: "RoHan"通过数据增强和半监督域适应技术,实现了手术室中稳健的手部检测,显著减少了标签和训练成本。
###【arXiv编号】2501.08115
###【git】无
###【期刊】无
###【领域】计算机视觉,机器学习,医疗应用
=====
摘要: 运算符学习是近年来通过神经网络模拟偏微分方程(PDE)的一项新发展。该方法的核心思想是学习一个运算符的行为,使得所得到的神经网络成为一个在无限维空间中(近似)映射,能够(近似)模拟由PDE控制的解算符。在本研究中,我们考察了通过在傅里叶域中近似相应符号来评估线性微分运算符的一些通用近似能力。类似于霍尔曼德符号类的结构,我们考虑了相对于一系列半范数诱导的拓扑的近似。因此,我们使用Fréchet度量来衡量近似误差,并且我们的主要结果确定了实现预定近似误差的充分条件。其次,我们专注于主要定理的一个自然扩展,在其中我们设法减少了对半范数序列的假设。基于现有的指数谱Barron空间的近似结果,我们随后展示了一个可以被良好近似的具体符号示例。
总结: 本文研究了通过傅里叶符号近似线性微分运算符在Fréchet度量下的近似能力,为运算符学习和神经网络模拟PDE提供了理论支持。
该论文在运算符学习和神经网络模拟PDE方面具有较高的创新性,提出了新的近似理论并提供了具体示例,具有重要的理论价值和应用潜力。
=====
Data-driven inventory management for new products: A warm-start and adjusted Dyna-Q approach
摘要: 本文提出了一种新颖的强化学习算法,用于新上市产品的库存管理,这些新产品缺乏或只有有限的历史需求信息。该算法遵循经典的Dyna-Q结构,平衡了基于模型和无模型的方法,同时加速了Dyna-Q的训练过程,并减轻了基于模型的反馈生成的模型误差。可以将来自现有相似产品的需求数据的热启动信息纳入算法,以进一步稳定早期阶段的训练并减少估计的最优策略的方差。通过一个实际的面包店库存管理案例研究验证了我们的方法。与Q-learning相比,调整后的Dyna-Q在平均每日成本上减少了23.7%,与经典Dyna-Q相比,在相同时间范围内的训练时间减少了77.5%。通过整合热启动信息,发现调整后的Dyna-Q在所有算法中具有最低的总成本、最低的总成本方差,以及在30天测试中相对较低的短缺比例。
总结: 提出了一种基于强化学习的库存管理新算法,显著降低成本和训练时间,并通过热启动信息进一步优化策略。
###【arXiv编号】2501.08109v1
###【git】暂无
###【期刊】暂无
###【领域】库存管理、强化学习
=====
摘要: 联邦图学习(FGL)作为一种有前景的范式,旨在打破分布式私有图之间的数据孤岛。在涉及异构分布图数据的实际场景中,个性化联邦图学习(pFGL)通过训练适应客户端需求的个性化模型来提升模型效用。然而,现有的pFGL方法在异构图下通常需要多轮通信,导致显著的通信开销和安全性问题。虽然单次通信的联邦学习(OFL)能够在单轮内实现协作,但现有的OFL方法主要针对图像任务设计,对于图数据效果不佳,导致该领域存在关键缺口。此外,现有方法得出的个性化模型存在偏差,无法有效泛化到少数类。为了解决这些挑战,我们提出了首个适用于节点分类的单次个性化联邦图学习方法(O-pFGL),其兼容用于隐私保护的安全聚合协议。具体而言,为了在一次通信中实现高效的图学习,我们的方法估计并聚合类别级特征分布统计,以在服务器上构建全局伪图,从而促进全局图模型的训练。为了减轻偏差,我们引入了一个两阶段的个性化训练方法,能够自适应地平衡本地个人信息与来自伪图的全局见解,提升个性化和泛化能力。对12个多尺度图数据集的广泛实验表明,我们的方法在各种设置下显著优于最先进的基线方法。
总结: 提出了首个适用于节点分类的单次个性化联邦图学习方法,显著提升模型效用和泛化能力,同时减少通信开销。
###【arXiv编号】arXiv:2411.11304v4
###【git】暂无
###【期刊】暂无
###【领域】计算机科学,机器学习,图学习
该研究在联邦图学习领域首次引入单次通信方法,显著减少了通信开销并提升了模型的个性化和泛化能力,具有较高的创新性和实用价值,但实际应用中的隐私保护和安全性仍需进一步验证。
=====
摘要: 随着用户对无缝连接的需求增加,切换(HO)已成为蜂窝网络的基本元素。然而,优化切换是一个具有挑战性的问题,随着移动网络复杂度的不断增加,这一问题更加复杂。本文通过平滑在线学习(Smoothed Online Learning,SOL)的视角,首次进行了全国范围的切换优化研究。我们首先分析了来自欧洲一家商业移动网络运营商(MNO)超过4000万用户的庞大数据集,以了解并揭示切换的重要特征和性能影响。研究结果强调了切换失败/延迟与无线电小区和终端用户设备特性之间的相关性,展示了当前移动网络异质性的影响。随后,我们将用户设备(UE)与小区的关联建模为动态决策,并提出了一个现实的系统模型,用于实现平滑和准确的切换,该模型通过(i)将设备和小区特征纳入切换优化,和(ii)消除了对未来信号测量和终端用户移动性知识的(先前)强假设,扩展了现有方法。我们与O-RAN范式对齐的算法,即使在具有挑战性的环境中,也提供了稳健的动态遗憾保证,并在多个使用真实世界和合成数据的场景中表现出色。 总结: 本文首次通过平滑在线学习在全国范围内对蜂窝网络切换优化进行了研究,提出了创新的系统模型及算法,显著提升了切换性能。
###【arXiv编号】2501.08099v1
###【git】
###【期刊】
###【领域】计算机科学
=====
摘要: 持续学习(CL)已显示出有前景的成果,并在完全监督的设置下取得了与一次性学习相当的性能。然而,CL策略通常需要大量标注样本,这使得其在现实生活中的部署具有挑战性。在本研究中,我们专注于半监督持续学习(SSCL),即模型在类别未知的部分标注数据上逐步学习。我们对SSCL进行了全面分析,并证明了未标注数据分布的不可靠性会导致训练不稳定和后续阶段的精炼。这个问题严重影响了SSCL的性能。为了解决这些局限性,我们提出了一种新颖的方法—动态子图蒸馏(DSGD)用于半监督持续学习,该方法利用语义和结构信息,实现对未标注数据的更稳定的知识蒸馏,并展示了对分布偏差的鲁棒性。首先,我们形式化了一般的结构蒸馏模型,并设计了一个动态图构建方法用于持续学习过程。接下来,我们定义了一个结构蒸馏向量,并设计了动态子图蒸馏算法,该算法支持端到端训练和任务扩展的适应性。整个提出的方法可适用于各种CL方法和监督设置。最后,在三个数据集CIFAR10、CIFAR100和ImageNet-100上,采用不同的监督比例进行的实验表明,我们提出的方法在半监督持续学习场景中减轻灾难性遗忘问题的有效性。
总结: 本文提出了一种动态子图蒸馏方法,显著提升了半监督持续学习在处理未标注数据和分布偏差方面的稳健性。
###【arXiv:2312.16409v2】
###【git】
###【期刊】
###【领域】
计算机科学,机器学习,计算机视觉,半监督学习,持续学习
=====
摘要: 变分自编码器(VAEs)是学习低维潜在表示的强大框架,而神经常微分方程(Neural ODEs)在学习瞬态系统动力学方面表现出色。本研究结合了两者的优势,生成具有可调复杂度、能够响应时变输入信号的快速替代模型。通过利用VAE使用非层级先验进行的维数约减,我们的方法自适应地分配随机噪声,自然地补充了已知的Neural ODE训练增强方法,并实现了概率时间序列建模。我们展示了标准潜在ODE在具有时变输入的系统中在维数约减方面的局限性。我们的方法通过在时间上持续传播变分参数,建立潜在空间中的固定信息通道,从而缓解了这一问题。这导致了一种灵活且稳健的方法,能够学习不同的系统复杂性,例如深度神经网络或线性矩阵。因此,它无需预先定义其维数,即可高效地近似库普曼算子。由于我们的方法在维数约减和重构精度之间取得了平衡,我们称之为平衡神经ODE(B-NODE)。我们在多个学术和实际测试案例中展示了该方法的有效性,例如电厂或MuJoCo数据。
总结: 本文提出了一种结合VAEs和Neural ODEs的新方法,能够高效且灵活地进行维数约减和库普曼算子近似,适用于时变输入的复杂系统建模。
###【arXiv编号】2410.10174v3
###【git】
###【期刊】
###【领域】计算机科学, 统计学 - 机器学习
该研究创新性地结合了变分自编码器和神经常微分方程,解决了标准潜在ODE在处理时变输入系统中的维数约减问题,具有较高的实用性和应用潜力,适用于多种复杂系统的建模与分析。
=====
摘要: 强化学习(RL)在解决自主驾驶的决策和控制问题上表现出色,越来越多地应用于各种驾驶场景。然而,驾驶是一个多属性问题,这给当前的RL方法在策略执行和策略迭代中实现多目标兼容性带来了挑战。一方面,具有单一动作类型的常见动作空间结构限制了驾驶的灵活性,或者在策略执行过程中导致较大的行为波动。另一方面,多属性加权的单一奖励函数导致代理在策略迭代过程中对某些目标的关注不均衡。为此,我们提出了一种具有混合参数化动作的多目标集合评论者强化学习方法,以实现多目标兼容的自主驾驶。具体而言,构建了一个参数化动作空间来生成混合驾驶动作,结合了抽象指导和具体控制命令。构建了一个考虑多属性奖励的多目标评论者架构,以确保同时关注不同的驾驶目标。此外,引入了基于不确定性的探索策略,帮助代理更快地接近可行的驾驶策略。在模拟交通环境和HighD数据集上的实验结果表明,我们的方法能够在驾驶效率、动作一致性和安全性方面实现多目标兼容的自主驾驶。它提高了驾驶的整体性能,同时显著提升了训练效率。
总结: 本文提出了一种多目标兼容的强化学习方法,通过混合参数化动作和多目标评论者架构,实现了在自主驾驶中的高效、稳定与安全。
=====
摘要: 本文探讨了一种多模态情感分析模型的发展,该模型整合了文本、音频和视觉数据以增强情感分类。目标是通过捕捉这些模态之间的复杂交互来提高情感检测,从而实现更准确和细致的情感解释。研究评估了三种特征融合策略——后期融合、早期融合和多头注意力——在基于变压器的架构中的表现。实验使用了CMU-MOSEI数据集,该数据集包括同步的文本、音频和视觉输入,并带有情感评分。结果表明,早期融合显著优于后期融合,达到了71.87%的准确率,而多头注意力方法略有提升,达到72.39%。研究结果表明,在过程中早期整合模态可以增强情感分类,而在当前框架内注意力机制的影响可能有限。未来工作将重点改进特征融合技术,整合时间数据,并探索动态特征加权以进一步提高模型性能。
总结: 通过多模态数据的早期融合提升了情感分类的准确性,并评估了不同特征融合策略的效果。
###【arXiv编号】2501.08085v1
###【git】
###【期刊】
###【领域】计算机科学 - 自然语言处理, 计算机科学 - 机器学习
该研究在多模态情感分析领域提出了多种特征融合策略,并通过实验证明早期融合在提升分类准确性方面的有效性,具有一定的创新性和实用价值,但创新深度有限,因此推荐指数为3分。
=====
摘要: 视觉-语言基础模型由于其在大量图像-文本配对数据上的可扩展性,在众多下游任务上取得了显著成功。然而,这些模型在应用于下游任务(如细粒度图像分类)时也表现出显著的局限性,原因是“决策捷径”阻碍了它们的泛化能力。在本研究中,我们发现CLIP模型拥有丰富的特征集,包括期望的不变因果特征和不期望的决策捷径。此外,CLIP在下游任务上的表现不佳源于其无法根据具体任务需求有效利用预训练特征。为了解决这一挑战,我们提出了一种简单而有效的方法——虚假特征橡皮擦(Spurious Feature Eraser,SEraser),通过消除虚假特征来缓解决策捷径。具体而言,我们引入了一种测试时提示调优范式,该范式优化了一个可学习的提示,从而在推理阶段强制模型利用不变特征而忽略决策捷径。所提出的方法有效地缓解了对潜在误导性虚假信息的过度依赖。我们对比分析了所提出的方法与各种方法的性能,验证了其显著优越性。
总结: 提出了一种在测试期间消除虚假特征的方法,显著提升了视觉-语言基础模型在下游任务中的泛化能力。
###【arXiv编号】2403.00376v3
###【git】
###【期刊】
###【领域】计算机视觉、人工智能、机器学习
=====
摘要: 大型语言模型(LLMs)因其庞大的计算需求而备受关注。为降低成本,研究人员开发了专用的CUDA内核,通常融合多个张量操作以最大限度地利用GPU。然而,这些专用内核的性能仍有提升空间,CUDA汇编专家表明,手动优化GPU SASS调度可以带来更好的性能,而试错法在手动寻找最佳GPU SASS调度中被广泛采用。在本研究中,我们采用一种自动化方法来优化GPU SASS调度,从而可以集成到现有的编译器框架中。自动优化的关键在于训练一个强化学习代理,模仿人类专家的手动调度方式。为此,我们构建了一个汇编游戏,RL代理可以在其中寻找最佳GPU SASS调度。汇编游戏从-O3优化的SASS调度开始,RL代理可以迭代地应用操作来修改当前调度。如果修改后的调度在GPU上执行后获得更高的吞吐量,则产生正奖励。实验表明,CuAsmRL可以进一步透明地提高现有专用CUDA内核的性能,最高提升26%,平均提升9%。此外,它还被用作揭示自动学习的潜在优化操作的工具。
总结: 通过深度强化学习自动优化GPU SASS调度,CuAsmRL显著提升了CUDA内核性能,具有高度的创新性和实用性。
###【arXiv编号】2501.08071v1
###【git】: 无
###【期刊】: 无
###【领域】:
=====
摘要: 预测模型的迁移学习已被广泛研究,而相应的策略学习方法则很少被讨论。本文提出了利用两个数据集在目标领域中学习最优策略的原则性方法:一个来自源领域的完整信息数据集,另一个仅包含协变量的目标领域数据集。首先,在协变量漂移的设置下,我们从因果关系的角度来表述问题,并提出了给定策略诱导的奖励的可识别性假设。然后,我们推导了奖励的有效影响函数和半参数效率界。基于此,我们构建了奖励的双稳健和半参数效率估计器,并通过优化估计的奖励来学习最优策略。此外,我们从理论上分析了学习策略的偏差和泛化误差界限。此外,在存在协变量漂移和概念漂移的情况下,我们提出了一种新的敏感性分析方法,以评估所提出策略学习方法的鲁棒性。大量实验表明,该方法不仅能够更准确地估计奖励,还能得到一个与理论最优策略非常接近的策略。
总结: 本文提出了一种在协变量漂移下通过因果推断学习最优策略的创新性方法,并通过实验证明其有效性。
###【arXiv编号】2501.08067v1
###【git】
###【期刊】
###【领域】机器学习,因果推断,转移学习
=====
摘要: 近期的生成模型产生的图像具有高度的真实性,几乎无法与真实的照片和艺术作品区分开。这些模型的潜在有害用例需要创建稳健的合成图像检测器。然而,当前领域的数据集包含质量可疑的生成图像或具有一种主要内容类型的示例,这导致底层检测器的泛化能力差。我们发现,在各种内容类型中策划出平衡数量的高分辨率生成图像对于检测器的泛化能力至关重要,并引入了ImagiNet,一个包含20万个示例的数据集,涵盖四个类别:照片、绘画、面孔和杂项。ImagiNet中的合成图像是由开源和专有生成器生成的,而每种内容类型的真实对应物则收集自公共数据集。ImagiNet的结构允许两轨评估系统:i) 分类为真实或合成,ii) 识别生成模型。为了建立强大的基线,我们使用自监督对比目标(SelfCon)训练了一个ResNet-50模型用于每个轨道,在涉及压缩和调整大小的条件下,其评估AUC高达0.99,平衡准确率在86%到95%之间。所提供的模型具有足够的泛化能力,在之前的合成检测基准上实现了零样本的最新绩效。我们提供消融实验以展示内容类型的重要性,并发布了代码和数据。
总结: ImagiNet通过提供一个多样化的高质量合成图像数据集,大幅提升了合成图像检测器的泛化能力。
###【arXiv编号】2407.20020v3
###【git】
###【期刊】
###【领域】计算机视觉, 机器学习
该研究通过引入一个大规模、平衡且多样化的合成图像数据集,有效提升了检测器的准确性和泛化能力,具有高度的创新性和实用价值。
=====
摘要: 我们介绍了Audio-Agent,这是一种基于文本或视频输入的多模态音频生成、编辑和组合框架。传统的文本到音频(TTA)任务方法通常从文本描述中进行单次推理。虽然这种设计简单直接,但在处理复杂文本条件时难以生成高质量的音频。在我们的方法中,我们利用预训练的TTA扩散网络作为音频生成代理,与GPT-4协同工作,GPT-4将文本条件分解为原子、具体的指令,并调用代理进行音频生成。通过这种方式,Audio-Agent能够生成与提供的文本或视频高度匹配的高质量音频,能够处理复杂和多重事件,并支持可变长度和可变音量的生成。对于视频到音频(VTA)任务,大多数现有方法需要训练时间戳检测器以同步视频事件与生成的音频,这一过程可能繁琐且耗时。相反,我们提出了一种更简单的方法,通过微调预训练的大型语言模型(LLM),例如Gemma2-2B-it,获取桥接视频和音频模态的语义和时间条件。因此,我们的框架为TTA和VTA任务提供了全面的解决方案,而无需在训练中承担大量计算开销。
总结: Audio-Agent通过结合预训练的TTA扩散网络和大型语言模型,提供了一种高效且高质量的文本和视频驱动音频生成、编辑与组合的多模态框架。
###【arXiv编号】2410.03335v2
###【领域】计算机科学、电子工程、智慧交通、自动驾驶车辆
该研究创新性地结合了大型语言模型与音频生成技术,提升了文本和视频驱动音频生成的质量和效率,具有较高的实用价值。
=====
摘要: 每当在工程应用中使用基于数据的系统时,定义一个最优的统计表示形式就面临模型选择的问题。本文聚焦于模型在结构健康监测(SHM)中的泛化能力。虽然该领域的统计模型验证常常是通过启发式方法进行的,但使用统计学习理论(SLT)提供的界限可以更严格地估计泛化能力。因此,本文从SLT的角度探讨了用于模拟线性振荡器脉冲响应的核平滑器的选择过程。研究表明,将领域知识融入回归问题可以降低保证风险,从而提升泛化能力。
总结: 本文通过统计学习理论优化结构健康监测中的模型选择,强调了领域知识对提高模型泛化能力的重要性。
###【arXiv:2501.08050v1】
###【git】
###【期刊】
###【领域】
机器学习
=====
摘要: 脉冲神经网络(SNN)由于其事件驱动机制而在低功耗计算方面表现出色,但其准确率通常低于人工神经网络(ANN)。ANN到SNN的知识蒸馏可以提高SNN性能,但之前的方法要么仅关注标签信息,错过了有价值的中间层特征,要么采用逐层方法,忽略了空间和时间语义的不一致,导致性能下降。为了解决这些限制,我们提出了一种新方法,称为自注意力时空校准(SASTC)。SASTC 使用自注意力机制在ANN和SNN之间在空间和时间上识别语义对齐的层对,从而实现相关语义信息的自主转移。大量实验表明,SASTC 优于现有方法,有效解决了不匹配问题。卓越的准确率包括静态数据集上的CIFAR-10的95.12%、CIFAR-100的79.40%(2个时间步)和ImageNet的68.69%(4个时间步),以及神经形态数据集上的DVS-Gesture的97.92%和DVS-CIFAR10的83.60%。这是SNN首次在CIFAR-10和CIFAR-100上超过ANN,为SNN的潜在应用开辟了新的视野。
总结: 本文提出了一种通过自注意力机制精确校准ANN到SNN中间层匹配的方法,有效提高了SNN的准确率,首次在主要数据集上超过ANN。
###【arXiv编号】2501.08049v1
###【git】
###【期刊】
###【领域】计算机科学,人工智能,计算机视觉,机器学习
=====
摘要: 利用深度神经网络(DNN)将微音器阵列(MA)信号编码为Ambisonics空间音频格式,能够突破现有传统方法的某些限制。然而,现有的基于DNN的方法需要为每个MA单独训练。本文提出了一种基于DNN的Ambisonics编码方法,能够泛化到训练期间未见过的任意MA几何形状。该方法以MA几何形状和MA信号作为输入,采用一个多级编码器,包含用于几何和信号数据的独立路径,其中几何特征在每一级向信号编码器提供信息。该方法在模拟的无回声和混响条件下,对单源和双源情况进行了验证。结果表明,对于干场景,在整个频率范围内相比传统编码方法有所提升,而对于混响场景,提升效果依赖于频率。
总结: 本文提出的DNN方法能够泛化到未见过的微音器阵列几何形状,在空间音频编码方面超过了传统方法。
###【arXiv编号】2501.08047v1
###【git】
###【期刊】
###【领域】计算机科学,信号处理,音频工程
该研究提出了一种创新的DNN方法,实现了Ambisonics编码的几何泛化能力,具有较高的实用性和广泛的应用前景。
=====
摘要: 联邦学习因在训练过程中数据的“可用隐形”而成为“隐私计算”的一个重要研究领域。受联邦学习的启发,联邦推荐系统逐渐成为一种能够保护用户隐私的新型推荐服务架构。使用用户图来增强联邦推荐是一项有前景的研究课题。在联邦学习场景下,如何在不泄露隐私的情况下构建用户图是一大挑战。受相似用户通常具有相同属性特征这一简单理念的启发,我们提出了一种基于用户文本特征构建的用户关系图的个性化联邦推荐算法(基于用户文本描述特征的图联邦推荐系统,UFGraphFR)。该方法利用用户文本特征描述的嵌入层权重来构建用户关系图,引入Transformer机制以捕捉用户历史交互序列的序列建模。无需访问用户的历史交互和具体用户属性,体现了联邦学习数据“可用隐形”的隐私保护。 在一些基准数据集上的初步实验表明,UFGraphFR具有优越的性能。我们的实验表明,该模型在不影响推荐系统性能的情况下,能够在一定程度上保护用户隐私。代码将在 GitHub 上轻松获取。总结: UFGraphFR通过基于用户文本特征构建的用户关系图和Transformer机制,实现了在保护用户隐私的前提下提升联邦推荐系统性能。
###【arXiv:2501.08044v1】###【GitHub】https://github.com/trueWangSyutung/UFGraphFR###【领域】计算机科学 - 机器学习
=====
摘要: 标准的深度神经网络推理涉及交错的线性映射和非线性激活函数的计算。先前针对超低延迟实现的工作将这些操作硬编码到FPGA查找表(LUTs)中。然而,FPGA LUTs能够实现更多样化的功能。本文提出了一种用于FPGA部署的DNN训练新方法,使用多变量多项式作为基本构建块。我们的方法利用软逻辑提供的灵活性,将多项式评估隐藏在LUTs内部,几乎没有开销。通过使用多项式构建块,我们在软逻辑的层数上显著减少,同时保持相同的准确性,从而实现了显著的延迟和面积改进。基于LUTs的实现还面临一个重大挑战:随着输入数量的增加,LUT的大小呈指数增长。先前的工作依赖于先验固定的稀疏性,结果严重依赖于种子选择。为了解决这一问题,我们提出了一种结构化剪枝策略,使用定制的硬件感知组正则化器,鼓励特定的稀疏模式,从而每个神经元的输入数量较少。我们在三个任务上展示了PolyLUT的有效性:网络入侵检测,欧洲核子研究组织大型强子对撞机的喷注识别,以及MNIST。
总结: PolyLUT通过多项式构建块和结构化剪枝策略在FPGA上实现了超低延迟的深度神经网络推理,显著提升了性能和面积效率。
###【arXiv编号】 arXiv:2501.08043v1
###【git】 无
###【期刊】 未发表至期刊
###【领域】 计算机科学,机器学习,电子工程
=====
摘要: 循环神经网络(RNN)通常使用截断的误差反向传播(TBPTT)算法进行训练。为了计算的可行性,TBPTT算法截断了链式法则,并在整体数据序列的有限块上计算梯度。这种近似可能导致显著的不准确,因为截断反向传播的块长度通常远小于整体序列长度。相比之下,实时循环学习(RTRL)是一种在线优化算法,当序列时间步数( t \rightarrow \infty )时,RTRL渐近地跟随损失函数的真实梯度。RTRL将RNN隐藏/记忆单元对参数的导数前向传播,并使用前向导数在数据序列的每个时间步进行参数的在线更新。RTRL的在线前向传播允许对极长的数据序列进行精确优化,尽管对于具有大量参数的模型来说,它可能计算成本高昂。我们证明了RTRL算法对于一类RNN的收敛性。收敛性分析建立了数据序列、RNN隐藏层和RNN隐藏层前向导数的联合分布的固定点,当数据样本数量和训练步骤数趋于无穷时。我们证明RTRL算法收敛到损失的一个稳定点。数值研究说明了我们的理论结果。RTRL的一个潜在应用领域是金融数据的分析,这通常涉及长时间序列和具有中小数量参数的模型。这使得RTRL在计算上可行,并且是训练模型的一个有吸引力的优化方法。因此,我们包含了一个RTRL应用于限价簿数据的示例。
总结: 本文证明了实时循环学习(RTRL)在特定循环神经网络中的收敛性,并展示了其在处理长时间序列数据(如金融数据)中的应用潜力。
###【arXiv编号】2501.08040v1
###【git】
###【期刊】
###【领域】计算机科学,机器学习,循环神经网络
=====
摘要: 车对基础设施(V2I)技术实现了车辆与道路基础设施之间的信息交换。具体来说,当车辆接近路边单元(RSU)时,可以与RSU交换信息以获取有助于驾驶的准确数据。随着第16版3GPP合作伙伴项目的发布,包含了5G新无线(NR)车对一切(V2X)标准,车辆通常采用基于感知的半持久性调度(SPS)模式-2通信进行资源分配。在这种方法中,车辆在选择窗口内识别候选资源,并基于来自感知窗口的信息排除不合格资源。然而,车辆经常以不同的速度行驶,导致它们经过时与RSU的数据传输量不同,进而导致接入不公平。因此,设计一种考虑不同车辆速度以实现网络公平接入的接入方案是至关重要的。本文为车载网络制定了一个优化问题,并提出了一种多目标优化方案,通过调整5G NR V2I模式-2的SPS机制中的选择窗口来解决该问题。仿真结果证明了所提方案的有效性。
总结: 提出了一种适应车辆速度的SPS机制优化方案,有效实现了5G NR V2I网络中的公平接入。
###【arXiv编号】2501.08037v1
###【git】
###【期刊】
###【领域】计算机科学,智能交通,5G通信
=====
摘要: 多标签节点分类是图挖掘领域中的一个重要但尚未充分探索的方向,因为许多现实世界中的节点属于多个类别而非单一类别。尽管已有一些研究尝试利用图卷积网络(GCNs)来学习节点表示并在嵌入空间中建模多个标签之间的相关性,但它们仍然受到由多标签引入的模糊特征和模糊拓扑的影响,这降低了图中传递消息的可信度,并忽视了图数据上的标签相关性。因此,减少模糊性并增强GCNs以实现准确分类至关重要。然而,由于需要同时保持每个标签的独特性并充分利用标签之间的相关性,这一任务具有相当大的挑战性。针对这些问题,本文提出了一种用于多标签节点分类的相关性感知图卷积网络(CorGCN)。通过引入新颖的相关性感知图分解模块,CorGCN能够为每个标签学习包含丰富标签相关信息的图。然后,它采用相关性增强的图卷积在消息传递过程中建模标签之间的关系,以进一步强化分类过程。对五个数据集的广泛实验表明,我们提出的CorGCN具有良好的有效性。
总结: CorGCN通过相关性感知的图分解和增强的图卷积,有效提升了多标签节点分类的准确性。
###【arXiv编号】2411.17350v2
###【git】
###【期刊】
###【领域】计算机科学,图挖掘,机器学习
=====
摘要: 本文全面理解了在计算阈值附近从一般的尖峰张量模型中估计一个植入的低秩信号。依赖于大随机矩阵理论的标准工具,我们描述了数据张量展开的大维度谱行为,并展示了相关的信噪比来支配信号主方向的可检测性。这些结果允许准确预测在非平凡区域中截断多线性SVD(MLSVD)的重建性能。这一点尤为重要,因为它作为高阶正交迭代(HOOI)方案的初始化,而HOOI收敛到最佳低多线性秩逼近完全依赖其初始化。我们给出了HOOI收敛的充分条件,并显示在大维度极限下收敛前的迭代次数趋向于1。
总结: 本文利用随机矩阵方法深入分析了低秩张量逼近的谱行为,并为多线性SVD和HOOI算法的性能提供了理论基础。
###【arXiv:2402.03169v3】
###【领域】计算机科学,统计机器学习,随机矩阵理论
=====
摘要: 随着城市化的加速,开放空间在增强可持续性和福祉方面的作用日益受到认可,然而与建成空间相比,它们仍然被较少研究。本研究引入了一个由人工智能驱动的框架,整合了机器学习模型(MLMs)和可解释人工智能技术,以优化天空视野因子(SVF)和可见性,这些关键空间指标影响城市空间中的热舒适度和感知安全性。与计算量大且不适用于局部调整的全局优化方法不同,该框架支持以较低的计算成本和更大的灵活性进行增量设计改进。该框架采用SHapley自适应解释(SHAP)来分析特征重要性,并利用反事实解释(CFXs)提出最小设计变更。模拟测试了五种机器学习模型,确定XGBoost是最准确的模型,建筑宽度、公园面积和周围建筑高度对SVF至关重要,南侧建筑的距离是可见性的关键因素。与需要大约15/30分钟跨越3/4代进行收敛的遗传算法相比,测试的CFX方法在1分钟内达到了优化结果,误差为5%的RMSE,显示出显著更快的性能和适用于可扩展改造策略的适用性。这个可解释且计算效率高的框架推进了城市性能优化,提供了数据驱动的见解和实际的改造解决方案,以提升各类城市环境的可用性和环境质量。
总结: 本文提出了一个高效且可解释的人工智能框架,用于快速优化城市开放空间的关键空间指标,促进城市可持续发展和环境质量提升。
###【arXiv:2501.08019】
###【git】
###【期刊】
###【领域】 计算机科学(机器学习,人工智能)
=====
摘要: 准确且高分辨率的地球系统模型(ESM)模拟对于评估人类气候变化的生态和社会经济影响至关重要,但在足够高的空间分辨率下运行计算成本过高。近期的机器学习方法在降尺度ESM模拟方面显示出有前景的结果,优于最先进的统计方法。然而,现有方法需要为每个ESM重新训练,且在训练期间未见的气候条件下表现欠佳。我们通过学习一种一致性模型(CM)来解决这些缺点,该模型可以在零样本模式下高效且准确地降尺度任意ESM模拟,而无需重新训练。我们的方法生成的降尺度场的分辨率仅受观测参考数据的限制。我们展示了CM在保持高可控性的降尺度任务中,以一小部分计算成本超越了最先进的扩散模型。此外,我们的方法能够在没有明确制定物理约束的情况下,推广到训练时未见的气候状态。
总结: 本文提出了一种高效且具不确定性感知的一致性模型,能够在无需重新训练的情况下,将地球系统模型的模拟数据进行高分辨率降尺度,并展示了其在未见气候状态下的良好泛化能力。
###【arXiv编号】2403.02774v3
###【git】
###【期刊】
###【领域】气候变化建模、机器学习应用、地球科学
=====
摘要: 群等变性已成为深度学习中的一种有价值的归纳偏置,增强了模型的泛化能力、数据效率和鲁棒性。传统上,群等变方法需要预先知道感兴趣的群,这在实际数据中可能不现实。此外,固定的群等变性可能对模型架构施加过于严格的限制。这凸显了需要能够动态发现并将对称性作为软约束应用的方法。对于神经网络架构,等变性通常通过群变换规范权重张量来实现,导致在给定群 G G G 上的权重共享。在本研究中,我们通过定义一组可学习的双随机矩阵来学习这种权重共享方案,这些矩阵作为规范权重张量上的软置换矩阵,可以将常规群表示作为特例。这产生了与下游任务共同优化的可学习核变换。我们展示,当数据集表现出强烈的对称性时,置换矩阵将收敛于常规群表示,我们的权重共享网络有效地成为常规群卷积。此外,该方法的灵活性使其能够有效捕捉部分对称性。
总结: 本文提出了一种通过双随机张量学习权重共享方案,动态发现并应用神经网络中的对称性,从而提升模型的泛化能力和鲁棒性。
###【arXiv:2412.04594v2】
###【期刊】
###【领域】计算机科学 - 机器学习, 计算机视觉
该研究创新性地结合双随机矩阵进行权重共享,能够动态发现对称性,提升模型性能,具有较高的实用性和理论价值。
=====
摘要: 随着我们从狭义人工智能向人工超级智能过渡,用户对他们的隐私和机器学习(ML)技术的可信度越来越关注。可信度的一个共同指标是深度学习(DL)算法内在的不确定性量化,特别是在模型参数、输入数据和模型预测中。解决DL中隐私相关问题的一种常见方法是采用分布式学习,如联邦学习(FL),其中用户不共享私人原始数据。尽管FL中有隐私保护机制,但它在可信度方面仍面临挑战。具体而言,恶意用户在训练过程中可以系统地创建恶意的模型参数,以妥协模型的预测和生成能力,导致对其可靠性的高度不确定性。为了展示恶意行为,我们提出了一种名为Delphi的新型模型毒化攻击方法,旨在最大化全局模型输出的不确定性。我们通过利用不确定性与本地模型第一隐藏层模型参数之间的关系来实现这一点。Delphi采用两种优化方法,即贝叶斯优化和最小二乘信任域,来搜索最佳的毒化模型参数,分别命名为Delphi-BO和Delphi-LSTR。我们使用KL散度量化不确定性,以最小化预测概率分布与模型输出的不确定分布之间的距离。此外,我们为在FL中证明攻击效果建立了数学证明。数值结果表明,Delphi-BO比Delphi-LSTR引发了更高程度的不确定性,突显了FL系统对模型毒化攻击的脆弱性。
总结: 本文提出了一种通过贝叶斯优化最大化联邦学习模型不确定性的模型毒化攻击方法,揭示了FL系统对该类攻击的脆弱性。
###【arXiv编号】2501.08002v1
###【git】无
###【期刊】未发表
###【领域】计算机科学,机器学习,人工智能
=====
摘要: 为了在时间序列中精确并且无需先验知识地检测异常,直接从初始时间表示构建检测器更好,还是使用现有的自动变量构造库计算一个新的(表格)表示更好?本文通过对两种流行检测器(孤立森林和局部离群因子)进行深入的实验研究来解决这个问题。对于五个不同的数据集,得到的结果显示,使用 tsfresh 库计算的新表示可以显著提高孤立森林的性能。
总结: 研究表明,使用 tsfresh 库构建的新特征表示能显著提升孤立森林在时间序列异常检测中的性能。
###【arXiv:2501.07999v1】
###【git】
###【期刊】
###【领域】
时间序列异常检测、机器学习
=====
摘要: 二阶联邦学习(FL)算法通过利用曲率信息相比一阶算法具有更快的收敛速度。然而,这些算法在大规模模型下面临高计算和存储成本的挑战。此外,与大模型和数字传输相关的通信开销加剧了这些问题,导致通信瓶颈。在本研究中,我们提出了一种可扩展的二阶FL算法,采用稀疏Hessian估计并利用空中聚合,使其适用于更大规模的模型。我们的仿真结果显示,与其他一阶和二阶基线相比,通信资源和能源节约超过67%。
总结: 本文提出了一种利用空中聚合的可扩展二阶联邦学习算法,实现了显著的通信资源和能源节约。
###【arXiv编号】2410.07662v3
###【期刊】
###【领域】计算机科学,联邦学习,优化算法,通信效率
该研究在联邦学习领域提出了创新性的二阶优化算法,显著降低了通信和能源消耗,具有较高的实用价值和应用潜力。
=====
Reward Compatibility: A Framework for Inverse RL
摘要: 我们通过奖励兼容性的视角,对逆强化学习(Inverse Reinforcement Learning, IRL)进行了原创性的理论研究,这是一个用于量化奖励与给定专家演示兼容性的全新框架。直观地说,如果使用该奖励计算出的专家策略的表现越接近该奖励的最优表现,则该奖励越与演示兼容。这推广了可行奖励集的概念,后者是理论 IRL 文献中最常见的框架,在该框架中,奖励要么兼容,要么不兼容。奖励兼容性引入的灰度是将理论上可有效解决的 IRL 范围远远扩展到可行奖励集可达到的范畴之外的关键:从表格型到大规模马尔可夫决策过程(MDPs)。我们分析了 IRL 问题在各种设置下的情况,包括最优和次优的专家演示,以及在线和离线的数据收集。对于所有这些方面,我们提供了一个可处理的算法和相应的样本复杂性分析,以及关于奖励兼容性和该框架如何为更一般的问题情境铺平道路的各种见解。
总结: 本研究提出了奖励兼容性框架,拓展了逆强化学习在大规模马尔可夫决策过程中的应用,并提供了相应的算法和理论分析。
###【arXiv编号】2501.07996v1
###【git】
###【期刊】
###【领域】计算机科学,机器学习
=====
摘要: 我们研究了结合从MRI提取的成像和形状特征,用于临床相关的脑龄预测和阿尔茨海默病分类任务。我们提出的模型将ResNet提取的图像嵌入与定制图神经网络的形状嵌入融合。形状嵌入来自15个脑结构的表面网格,捕捉了详细的几何信息。结合T1加权图像的外观特征,我们观察到在两个任务的预测性能上都有所提高,尤其是在分类任务上取得显著提升。我们使用包括CamCAN、IXI和OASIS3在内的公共数据集评估了该模型,证明了融合成像和形状特征在脑部分析中的有效性。
总结: 融合MRI图像与形状特征的模型显著提升了阿尔茨海默病分类和脑龄预测的性能。
###【arXiv编号】2501.07994v1
###【git】
###【期刊】
###【领域】医学影像分析
该研究在脑部疾病分析中创新性地结合了图像和形状特征,且在多个公共数据集上验证了其有效性,具有较高的实用价值。
=====
Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective
摘要: 目前,基于Transformer的语义分割最先进的方法通常采用Transformer解码器,通过交叉注意力从图像嵌入中提取额外的嵌入,通过自注意力细化一种或两种嵌入,以及通过点积将图像嵌入投影到额外的嵌入中。尽管其取得了显著的成功,但这些经验设计仍然缺乏理论依据或解释,阻碍了潜在的原则性改进。本文认为语义分割与压缩之间存在基本的联系,特别是Transformer解码器与主成分分析(PCA)之间。从这个角度出发,我们推导出一个白盒、全注意力的基于原则的语义分割解码器(DEPICT),其解释如下:1)自注意力操作通过构建与监督对齐并保留大部分信息的理想主子空间来细化图像嵌入;2)交叉注意力操作寻求对细化后的图像嵌入进行低秩近似,期望得到主子空间的正交基集,并对应预定义的类别;3)点积操作为图像嵌入作为分割掩码提供紧凑的表示。在ADE20K数据集上的实验发现,DEPICT在轻量级和更具鲁棒性的同时,始终优于其黑盒对应物Segmenter。
总结: 通过压缩视角优化Transformer解码器,本文提出了理论基础坚实且性能优越的语义分割方法DEPICT。
###【arXiv:2411.03033v3】
###【领域】
计算机视觉、语义分割
=====
摘要: 安全强化学习(SRL)旨在通过纳入安全约束,实现深度强化学习(DRL)算法的安全学习过程。然而,SRL方法的有效性通常依赖于准确的函数逼近,这在早期学习阶段由于数据不足而特别具有挑战性。为了解决这一问题,我们在本研究中引入了一种新颖的通用安全增强器(GenSafe),能够克服数据不足的挑战并提升SRL方法的性能。利用模型降阶技术,我们首先提出了一种创新方法,构建了一个降阶马尔可夫决策过程(ROMDP),作为原始安全约束的低维近似器。然后,通过解决基于ROMDP的重构约束,GenSafe优化了代理的动作以增加满足约束的可能性。本质上,GenSafe作为SRL算法的额外安全层。我们在多个SRL方法和基准问题上评估了GenSafe。结果表明,它能够提高安全性能,尤其在早期学习阶段,同时保持令人满意的任务性能。我们提出的GenSafe不仅为现有SRL方法提供了一种新的增强手段,还展示了与各种SRL算法的广泛兼容性,使其适用于各种系统和SRL问题。
总结: GenSafe通过构建降阶马尔可夫决策过程,有效提升了安全强化学习算法的安全性能。
###【arXiv编号】2406.03912v2
###【git】无
###【期刊】无
###【领域】计算机科学,人工智能,强化学习
=====
摘要: 机器人系统在工业自动化中的应用日益增多,对于抛光等接触密集的任务,需要灵巧性和柔顺的行为。这些任务难以建模,使得经典控制方法具有挑战性。深度强化学习(RL)通过直接从数据中学习模型和控制策略,提供了一个有前景的解决方案。然而,其在现实世界中的应用受到数据效率低和探索不安全的限制。自适应混合RL方法通过适应性地融合经典控制和RL,结合两者的优势:控制结构和RL的学习能力。这导致了数据效率和探索安全性的提高。然而,它们在硬件应用中的潜力仍未得到充分探索,迄今为止没有在物理系统上的评估,这些评估对于全面评估这些方法在现实世界设置中的实用性和有效性至关重要。本工作展示了混合RL算法CHEQ在具有可变阻抗的机器人抛光任务中的实验性示范,该任务需要精确的力和速度跟踪。在仿真中,我们展示了可变阻抗增强了抛光性能。我们将独立的RL与自适应混合RL进行了比较,证明CHEQ在遵守安全约束的同时实现了有效学习。在硬件上,CHEQ实现了有效的抛光行为,仅需八小时训练,且仅发生五次失败。这些结果突显了自适应混合RL在直接在硬件上训练的现实世界接触密集任务中的潜力。
总结: 本文展示了自适应混合强化学习算法CHEQ在机器人抛光任务中的有效性和安全性,证明其在现实硬件上的应用潜力。
###【arXiv编号】2501.07985v1
###【git】
###【期刊】
###【领域】机器人学,机器学习
=====
摘要: 基于协方差的数据处理在信号处理和机器学习应用中被广泛使用,因为它能够建模数据的相互连接性和依赖性。然而,数据中的有害偏见可能会被编码到样本协方差矩阵中,导致基于数据的方法对不同子群体的不公平对待。现有的工作如公平主成分分析(PCA)能减轻这些影响,但在样本量稀少的情况下仍然不稳定,这可能危及公平性目标。为了解决偏见和不稳定性的问题,我们提出了公平协方差神经网络(FVNNs),它们在协方差矩阵上执行图卷积以实现公平和准确的预测。我们的FVNNs提供了一个灵活的模型,兼容多种现有的偏见缓解技术。具体来说,FVNNs允许通过两种方式缓解偏见:第一,它们在消除主成分偏见的公平协方差估计上操作;第二,它们通过在损失函数中引入公平性正则项,以端到端的方式进行训练,使模型参数专门用于以公平的方式直接解决任务。我们证明了FVNNs在低样本量情况下由于其稳定性,本质上比类似的PCA方法更公平。我们在合成数据和真实世界数据上验证了模型的鲁棒性和公平性,展示了FVNNs的灵活性以及公平和准确性能之间的权衡。
总结: 提出了一种兼具公平性和稳定性的公平协方差神经网络模型,可在多种数据驱动应用中有效缓解偏见问题。
###【arXiv编号】2409.08558v2
###【git】无
###【期刊】无
###【领域】计算机科学,机器学习
=====
摘要: 自注意力机制革新了深度学习架构,但其核心数学结构仍未完全理解。在本研究中,我们开发了一个范畴论框架,重点关注自注意力的线性组件。具体而言,我们展示了查询、键和值映射自然地在2-范畴 P a r a ( V e c t ) \mathbf{Para(Vect)} Para(Vect) 中定义了一个参数1-态射。在基础的1-范畴 V e c t \mathbf{Vect} Vect 上,这些映射引入了一个内函子,其迭代复合恰好模拟了多层注意力。我们进一步证明,堆叠多个自注意力层相当于构建这个内函子的自由单子。对于位置编码,我们展示了严格加性嵌入对应于仿射意义上的幺半群作用,而标准的正弦编码虽然不是加性的,但在保留位置的注入(忠实)映射中保持了普遍性质。我们还确立了自注意力的线性部分自然地对输入标记的排列具有等变性,并展示了在机械解释性中识别的“电路”如何可以解释为参数1-态射的复合。这种范畴论视角统一了几何、代数和基于解释性的Transformer分析方法,明确了注意力的基本结构。我们始终限制在使用线性映射,对非线性部分如softmax和层归一化的处理则留待更高级的范畴构造。我们的结果基于并扩展了近期关于深度学习范畴论基础的工作,提供了对注意力机制代数结构的更深入见解。
总结: 本文通过范畴论框架深入分析了Transformer架构中自注意力机制的代数结构,统一了多种分析方法。
###【arXiv编号】2501.02931v2
###【git】
###【期刊】
###【领域】计算机科学,机器学习
=====
摘要: 我们考虑无线边缘的协作推理场景,其中每个客户端的模型在其本地数据集上独立训练。客户端被并行询问以协作做出准确的决策。除了最大化推理准确性,我们还希望确保本地模型的隐私。为此,我们利用多址信道的叠加特性来实现带宽高效的多用户推理方法。我们提出了几种利用空中计算(OAC)的集成和多视图分类方法。我们展示了这些方案在使用更少资源并提供隐私保证的同时,性能优于其正交对应方案,并且具有统计显著性差异。我们还提供了实验证明了所提出的OAC多用户推理方法的优势,并进行了消融研究以证明我们设计选择的有效性。我们在Github上公开共享了该框架的源代码,以促进进一步的研究和可重复性。
总结: 本文提出了一种利用空中计算实现隐私保护的无线边缘协作推理方法,提升了推理准确性与资源利用效率。
###【arXiv编号】
2407.21151v2
###【git】
暂无
###【期刊】
预印本
###【领域】
计算机科学,机器学习,人工智能,密码学,信息理论
=====
摘要: 语言并非单一统一。虽然包括多语言的基准测试常被用来评估大型语言模型(LLM)的性能,但它们往往忽略了语言内部的细微差异,因此未能准确模拟非标准方言使用者的体验。本文专注于非洲裔美国人方言英语(AAVE),首次客观评估LLM在处理规范推理任务(包括算法、数学、逻辑和综合推理)中的公平性与鲁棒性。我们引入了ReDial(Reasoning with Dialect Queries)基准,包含1200多对标准英语与AAVE的并行查询。我们聘请了包括计算机科学背景的AAVE使用者专家,重新编写了七个流行基准测试,如HumanEval和GSM8K。利用ReDial,我们评估了包括GPT、Claude、Llama、Mistral与Phi模型系列在内的广泛使用的LLM。研究发现,几乎所有这些广泛使用的模型在处理AAVE查询时表现出显著的脆弱性与不公平性。我们的工作建立了一个系统且客观的框架,用于分析LLM在方言查询中的偏见。此外,它强调了主流LLM在推理任务中为方言使用者提供了不公平的服务,为相关未来研究奠定了关键基础。代码与数据可在GitHub访问。
总结: 该研究首次系统评估大型语言模型在处理非标准方言时的公平性与鲁棒性,并提出ReDial基准以推动相关研究。
###【arXiv编号】
2410.11005v2
###【git】
https://github.com/fangru-lin/redial_dialect_robustness_fairness
###【期刊】
(暂无)
###【领域】
计算机科学 - 自然语言处理,人工智能公平性
本研究首次系统性地评估了大型语言模型在非标准方言下的表现,发现显著的不公平性与脆弱性,并提供了ReDial基准,有助于未来提升模型的公平性和鲁棒性,具有较高的创新性和实用性。
=====
摘要: 高斯过程(GP)无疑是实践中应用最广泛的机器学习算法之一。其一个显著的应用是贝叶斯优化(BO)。尽管原生GP本身已经是BO的强大工具,但考虑多个输出之间的依赖关系往往更为有益。为此,提出了多任务GP(MTGP),但要全面理解其公式及梯度的推导并非易事。本文提供了MTGP公式及其梯度的友好推导。
总结: 本文通过详细推导,帮助读者更好地理解多任务高斯过程及其在贝叶斯优化中的应用。
###【arXiv:2501.07964v1】
###【git】
###【期刊】
###【领域】
计算机科学,机器学习,人工智能,统计学
本文详细推导了多任务高斯过程的公式及梯度,增强了其理论基础,对从事贝叶斯优化研究的学者具有一定的参考价值,但创新性一般。
=====
摘要: 本文介绍了AI导盲犬(AIGD),一种轻量级的以自我为中心的导航辅助系统,专为视障人士设计,可在智能手机上实时部署。AIGD通过采用仅基于视觉的多标签分类方法来预测方向指令,解决了盲人导航中的关键挑战,确保在多样化环境中的安全行进。我们提出了一种新颖的技术,通过集成GPS信号和高级指令,实现基于目标的户外导航,同时应对目的地不确定的室内导航多路径预测问题。我们的通用模型是首个能够在室内外环境中处理基于目标和探索性导航场景的导航辅助系统,树立了盲人导航的新标杆。我们还展示了方法、数据集、评估和部署见解,以鼓励辅助导航系统的进一步创新。
总结: AIGD是一种创新的视觉导航辅助系统,能够在室内外环境中实时为视障人士提供安全高效的导航支持。
###【arXiv编号】2501.07957v1
###【git】
###【期刊】
###【领域】机器人学, 人工智能, 计算机视觉, 人机交互, 机器学习
该研究在视觉导航辅助领域提出了创新的多标签分类方法,结合GPS技术,有效解决了室内外多路径导航问题,具有较高的实用性和创新性。
=====
摘要: 我们考虑使用熵正则化的Wasserstein-2成本及其无偏版本Sinkhorn散度对概率测度进行合成和分析。合成问题包括在这些成本下计算 m m m个参考测度的重心,给定属于 m m m维单纯形的一组系数。分析问题包括在Wasserstein-2距离下找到最接近给定测度 μ \mu μ的重心的系数。在文献中迄今为止对测度的最弱假设下,我们计算了熵正则化Wasserstein-2成本的导数。我们利用这一点建立了正则化重心作为从重心到参考测度的熵映射的平均固定点方程的解的特征。这一特征为当 μ \mu μ是重心时解决分析问题提供了一个有限维的、凸的、二次规划。结果表明,这些坐标以及重心函数的值可以以与维度无关的收敛速率从样本中估计,这是熵正则化最优传输的一个标志性特征,并且我们在实验中验证了这些速率。我们还建立了重心坐标在Wasserstein-2度量扰动下的稳定性,表明这些系数对损坏具有鲁棒性。我们将重心系数作为特征用于分类损坏的点云数据,并显示与神经网络基线相比,我们的方法在小规模训练数据阶段更加高效。
总结: 本文通过熵正则化最优传输方法,提出了有效的概率测度合成与分析技术,并展示了其在小样本分类任务中的优越性。
###【arXiv编号】arXiv:2501.07446v2
###【领域】统计学与机器学习,计算机科学
该研究在熵正则化最优传输领域提出了新的理论和方法,具有较高的创新性和实际应用价值,尤其在小数据集下表现出色。
=====
摘要: 图表示学习专注于为节点和边创建能捕捉其特征和连接的嵌入。图神经网络(GNNs)使用神经网络来建模复杂的图关系。Kolmogorov-Arnold神经网络(KAN)最近作为多层感知器(MLP)的一种替代方案出现,提供了更好的准确性和可解释性,同时参数更少。KAN已被应用于GNN任务。本文介绍了KAN与有符号图卷积网络(SGCNs)的集成。我们在有符号社区检测和链接符号预测任务中评估了增强的KASGCN,以提升有符号网络中嵌入的质量。虽然结果显示出一些变动,KASGCN在测试的功能中表现得与标准SGCN具有竞争力或相似性。其有效性取决于具体的上下文,如有符号图和参数设置。
总结: 本文通过将Kolmogorov-Arnold神经网络集成到有符号图卷积网络中,探讨了其在有符号图嵌入质量提升中的应用效果。
###【arXiv编号】2501.00709v2
###【git】
###【期刊】
###【领域】计算机科学 - 机器学习
=====
摘要: 本研究评估了在汽车生产环境中应用人工智能方法来预测非循环控制生产区域中未知的交货时间的有效性。通过分析数据结构以识别上下文特征,然后使用独热编码进行预处理。方法选择集中在监督机器学习技术上。在监督学习方法中,评估了回归和分类方法。基于目标大小分布的连续回归不可行。分类方法分析显示,集成学习和支持向量机最为适合。初步研究结果表明,基于梯度提升算法的LightGBM、XGBoost和CatBoost获得了最佳结果。经过进一步测试和广泛的超参数优化后,最终选择LightGBM算法。根据特征可用性和预测间隔粒度,预测准确率可达90%。进一步的测试强调了定期重新训练AI模型以使用数据库准确地表示复杂生产过程的重要性。研究表明,AI方法可以有效地应用于高度可变的生产数据,通过为各种控制任务提供额外的指标,同时优于当前的非AI系统,增加了业务价值。
总结: 本研究证明,人工智能方法能够在汽车生产的非循环区域中有效预测交货时间,提升生产管理的准确性和效率。
###【arXiv:2501.07317v2】
###【期刊】
###【领域】计算机科学,人工智能,机器人学
=====
摘要: 神经网络容易受到对抗性攻击,即微小的输入扰动可以显著影响神经网络的输出。因此,为了确保安全关键环境的安全性,必须对神经网络的稳健性在输入扰动(例如来自有噪声传感器的扰动)下进行形式化验证。为提高神经网络的稳健性并简化其形式化验证,我们提出了一种新颖的基于集合的训练方法,其中我们计算给定可能输入集合的可能输出集合,并首次计算梯度集合,即每个可能输出有不同的梯度。因此,我们可以通过选择指向其中心的梯度来直接减少输出包络的大小。较小的输出包络提高了神经网络的稳健性,同时简化了其形式化验证。后者的好处在于,大多数验证方法中的传播集合的大小增加了其保守性。我们的大量评估表明,基于集合的训练产生了具有竞争性能的稳健神经网络,并且由于减少了输出集,因此可以使用快速(多项式时间)验证算法进行验证。
总结: 本文提出了一种基于集合的训练方法,以提高神经网络的稳健性并简化其形式化验证过程。
###【arXiv编号】2401.14961v3
###【git】
###【期刊】
###【领域】计算机科学,机器学习,形式化验证
=====
摘要: 程序合成方法,无论是正式的还是基于神经网络的,都缺乏细粒度的控制和灵活的模块化,这限制了它们对复杂软件开发的适应性。这些限制源于僵硬的领域特定语言(DSL)框架和神经网络的错误预测。为此,我们提出了链逻辑(CoL),它将合成过程组织成一个活动流程,并提供启发式控制来引导该过程。此外,通过将神经网络与库集成,并引入神经网络反馈控制(NNFC)机制,我们的方法实现了合成的模块化,并减轻了神经网络错误预测的影响。在关系和符号合成任务上的实验表明,CoL显著提高了多指标下DSL程序合成的效率和可靠性。具体来说,CoL在准确性上提高了70%,树操作减少了91%,时间减少了95%。此外,在训练数据不足、难度增加和多领域合成等挑战性条件下,NNFC进一步将准确性提高了6%,树操作减少了64%。这些改进确认了COOL作为一个高效且可靠的程序合成框架。
总结: COOL通过链逻辑和神经网络反馈控制显著提升了程序合成的效率和可靠性。
###【arXiv编号】2410.13874v4
###【领域】程序合成、软件开发、机器学习
=====
摘要: 当前对大型语言模型(LLM)应用中针对提示攻击防御的评估往往忽视了两个关键因素:对抗行为的动态性和对合法用户由严格防御措施带来的可用性惩罚。我们提出了 D-SEC(动态安全效用威胁模型),该模型明确区分攻击者和合法用户,建模多步交互,并严格表达安全与效用的可优化形式。我们进一步通过引入 Gandalf,一个众包化、游戏化的红队平台,设计生成真实、适应性强的攻击数据集,从而解决现有评估中的不足。利用 Gandalf,我们收集并发布了一个包含 279k 次提示攻击的数据集。结合良性用户数据,我们的分析揭示了安全性和效用之间的相互作用,显示集成在 LLM 中的防御措施(例如系统提示)即使在不阻止请求的情况下也会降低可用性。我们证明了限制应用领域、防御深度和自适应防御是构建安全且有用的 LLM 应用的有效策略。代码可在GitHub链接获取。
总结: 该研究通过动态安全模型和Gandalf平台,提升了大型语言模型在应对自适应攻击时的安全性和实用性。
###【arXiv编号】2501.07927v1
###【git】https://github.com/lakeraai/dsec-gandalf
###【期刊】无
###【领域】计算机科学 - 机器学习、人工智能、计算语言学、密码学
=====
摘要: 安全是航空业的主要关注点,即使是微小的操作问题也可能导致严重后果。本研究通过利用自然语言处理(NLP)和先进的人工智能模型,使用ASN数据集中的非结构化航空事故分析叙述来对飞行阶段进行分类,从而满足对全面航空事故分析的需求。研究旨在通过NLP技术从事故后事件叙述中推断飞行阶段,并评估了各种深度学习模型的分类性能。对于单一的RNN模型,LSTM达到了63%的准确率、60%的精确率和61%的召回率。BiLSTM的准确率为64%,精确率63%,召回率64%。GRU表现出平衡的性能,准确率和召回率均为60%,精确率为63%。联合使用RNN模型进一步增强了预测能力,GRU-LSTM、LSTM-BiLSTM和GRU-BiLSTM的准确率分别为62%、67%和60%,展示了组合这些架构的优势。为了全面了解模型性能,单一和组合模型在各种指标上进行了比较。这些结果强调了模型从原始文本叙述中分类飞行阶段的能力,为航空行业利益相关者提供了宝贵的见解,以进行前瞻性的决策。因此,本研究在应用NLP和深度学习模型以提升航空安全方面取得了显著进展。
总结: 本研究通过NLP与深度学习模型有效分类航空事故叙述中的飞行阶段,显著提升了航空安全分析的能力。
###【arXiv编号】2501.07925v1
###【git】
###【期刊】
###【领域】计算机科学(机器学习)
=====
摘要: 航空安全至关重要,需要对不同飞行阶段的安全事件进行精确分析。本研究使用自然语言处理(NLP)和深度学习模型,包括长短期记忆网络(LSTM)、卷积神经网络(CNN)、双向长短期记忆网络(BLSTM)以及简单循环神经网络(sRNN),来对澳大利亚交通安全局(ATSB)的安全报告中的飞行阶段进行分类。这些模型表现出高准确率、精确率、召回率和F1分数,其中LSTM取得了最高的87%、88%、87%和88%的表现。这一表现凸显了它们在自动化安全事件分析中的有效性。NLP和深度学习技术的整合有望在航空安全分析中带来变革性提升,促进针对性的安全措施和报告处理的优化。
总结: 本研究展示了运用NLP和深度学习模型有效分类航空安全报告中飞行阶段的潜力,为航空安全分析自动化提供了有力工具。
###【arXiv:2501.07923v1】
###【git】
###【期刊】
###【领域】计算机科学 - 机器学习, 计算与语言
本研究在应用NLP与深度学习于航空安全分析方面具有实用价值,但技术方法较为常见,创新性一般。
=====
摘要: 尽管基于提示的多模态融合方法在参数效率上表现出色,但其有限的适应性和表现力通常导致性能低于其他调整方法。在本文中,我们引入了提示专家混合(MoPE),这是第一种旨在通过分解标准提示以自适应地捕捉实例级特征来克服这些限制的技术。在这一分解的基础上,MoPE通过利用多模态配对先验动态地路由最有效的提示,从而增强了提示融合的表现力。与基础提示法相比,我们基于MoPE的融合方法表现出更大的表现力,更有效地随着训练数据和可训练参数的数量扩展。我们还研究了专家路由的正则化项,这些项可导致出现专家专业化,增强了适应性和可解释性。跨越四种模态的六个多模态数据集的大量实验展示了提示融合的最新性能,匹配甚至超过了微调的性能,同时仅需0.8%的可训练参数。
总结: MoPE通过提示专家混合技术显著提升了多模态融合的适应性和表现力,达到或超越微调效果,仅需极少的参数。
###【arXiv编号】2403.10568v3
###【git】https://github.com/songrise/MoPE
###【期刊】未提供
###【领域】机器学习、人工智能、计算语言学、计算机视觉
=====
摘要: 长序列建模是自然语言处理和时间序列分析的重要方面。然而,传统模型如循环神经网络(RNNs)和Transformer在处理长序列时存在计算和内存效率低下的问题。本文介绍了对数记忆网络(LMNs),一种新型架构,利用层次对数树结构高效地存储和检索过去的信息。LMNs 动态总结历史上下文,显著减少了注意力机制的内存占用和计算复杂度,从 O(n²) 降低到 O(log(n))。该模型采用单向量、目标导向的注意力机制来访问存储的信息,并且记忆块构建工作层(summarizer)在训练期间以并行执行模式高效处理层次树结构,推理期间以顺序执行模式作为内存管理系统。它还隐式编码了位置信息,消除了对显式位置信息编码的需求。这些特点使得 LMNs 成为在资源受限环境中处理长范围序列的强大且可扩展的解决方案,在效率和可扩展性方面提供了实际的改进。代码在 GitHub 上以 MIT 许可证公开可用:https://github.com/AhmedBoin/LogarithmicMemory。
总结: LMNs 通过对数树结构显著提高长序列建模的效率,适用于资源受限的环境。
###【arXiv编号】2501.07905v1
###【git】https://github.com/AhmedBoin/LogarithmicMemory
###【期刊】无
###【领域】计算机科学,人工智能,机器学习
=====
摘要: 计算一个在给定大小限制下可证明最大化训练性能的最优分类树是NP难的,实际上,大多数最先进的方法在计算深度为三的最优树之外难以扩展。因此,大多数方法依赖于对连续特征的粗略二值化以保持可扩展性。我们提出了一种新颖的算法,使用动态规划与分支限界法直接在连续特征数据上优化树。我们开发了新的剪枝技术,当与之前计算的分割相似时,可以消除许多次优分割,同时我们提供了一个高效的子程序来计算最优的深度为两的树。我们的实验表明,这些技术使运行时间比最先进的最优方法提高了一到几个数量级,并比贪心启发式方法提高了5%的测试准确率。总结: 本文提出了一种通过动态规划和分支限界法直接优化连续特征数据上分类树的新算法,显著提升了运行效率和测试准确率。
###【arXiv编号】2501.07903v1
###【期刊】无(预印本)
###【领域】计算机科学,人工智能,数据科学
=====
摘要: 由于缺乏状态维度优化方法,深度状态空间模型(SSM)为了减轻高状态维度带来的计算成本,牺牲了模型容量、训练搜索空间或稳定性。在本研究中,我们提出了一种结构化剪枝方法——层自适应状态剪枝(LAST),通过扩展单一系统的模态截断,减少每一层的状态维度,并最小化模型级别的输出能量损失。LAST分数通过子系统的 H ∞ \mathcal{H}_{\infty} H∞范数和逐层能量归一化进行评估。这些分数作为全局剪枝标准,支持跨层状态比较和层自适应剪枝。在各种序列基准测试中,LAST优化了以前的SSM,揭示了它们状态空间的冗余性和可压缩性。值得注意的是,我们证明了在无需重新训练的情况下,剪枝33%的状态仍能保持性能,MIMO SSM的准确率损失仅为0.52%。代码可在GitHub获取。
总结: 提出了一种层自适应状态剪枝方法,有效减少状态维度并维持模型性能,展示了深度状态空间模型的可压缩性。
###【arXiv:2411.02824】
###【git: https://github.com/msgwak/LAST】
###【期刊: 无】
###【领域: 机器学习,系统,信号处理系统】
该研究提出了一种创新的结构化剪枝方法,显著优化了深度状态空间模型的计算效率和性能,同时提供了开源代码,具有较高的实用性和学术价值。
=====
摘要: 本研究主题是基于半监督学习的数据驱动贝叶斯状态估计,针对无模型过程的压缩测量(BSCM),例如用于因果跟踪应用。时间测量向量的维度低于要估计的时间状态向量的维度,因此状态估计问题成为一个欠定的逆问题。假设状态的底层动力学模型是未知的,因此我们使用“无模型过程”这一术语。在缺乏动力学模型的情况下,无法采用传统的模型驱动方法,如卡尔曼滤波(KF)和粒子滤波(PF),因此需要使用数据驱动方法。我们首先通过实验展示,现有的两种基于无监督学习的数据驱动方法无法解决无模型过程的BSCM问题——它们是数据驱动非线性状态估计(DANSE)方法和深度马尔可夫模型(DMM)方法。无监督学习使用仅包含噪声、线性测量的未标记数据。虽然DANSE在将时间测量数据建模为时间序列方面表现出良好的预测性能,但其无监督学习在状态估计方面缺乏正则化。随后,我们研究了半监督学习方法,并开发了一种基于半监督学习的DANSE方法,称为SemiDANSE。在SemiDANSE中,我们使用有限量的标记数据与大量未标记数据相结合,这有助于为解决BSCM问题提供所需的正则化。标记数据指的是成对的测量和状态数据。通过使用三个具有非线性动力学模型的混沌动力系统(或过程)作为基准,我们表明数据驱动的SemiDANSE在BSCM方面表现出与一种称为KalmanNet的混合方法以及两种模型驱动方法——扩展卡尔曼滤波(EKF)和无迹卡尔曼滤波(UKF)相媲美的性能。
总结: 本文提出的半监督学习基础的SemiDANSE方法有效解决了无模型过程的压缩测量贝叶斯状态估计问题,展现了与传统滤波方法竞争的性能。
###【arXiv编号】2407.07368v2
###【git】
###【期刊】
###【领域】信号处理, 机器学习
该研究创新性地结合半监督学习解决了无模型过程中的贝叶斯状态估计问题,并在多个混沌动力系统基准测试中证明了其与传统方法相媲美的性能,具有较高的实用性和研究价值。
=====
摘要: 移动流量预测使运营商能够提前预知网络动态和性能,具有显著提升服务质量和改善用户体验的潜力。然而,现有模型往往面向特定任务并使用定制数据进行训练,这限制了它们在基站部署、资源分配、能源优化等多样化移动网络任务中的有效性,并阻碍了在不同城市环境中的泛化能力。基础模型凭借其多任务适应和零/少样本学习能力,在自然语言处理和计算机视觉等多个领域取得了显著进展。本文提出了一种创新的移动流量预测基础模型FoMo,旨在处理多城市的短期/长期预测和分布生成等多样化预测任务,以支持网络规划和优化。FoMo结合了扩散模型与变压器,提出了多种时空遮罩以使FoMo能够学习不同任务的内在特征,并开发了一种对比学习策略以捕捉移动流量与城市背景之间的相关性,从而提升其迁移学习能力。在9个真实世界数据集上的大量实验证明,FoMo在多样化预测任务和零/少样本学习方面优于当前模型,展示了强大的通用性。
总结: FoMo模型通过结合扩散模型和变压器,实现了在多城市多任务移动流量预测中的卓越表现。
###【arXiv编号】2410.15322v2
###【git】-
###【期刊】-
###【领域】计算机科学 - 机器学习, 人工智能
FoMo在移动流量预测领域展示了高度的创新性和实用性,能够适应多样化任务并具备出色的迁移学习能力,适合用于网络规划和优化。
=====
摘要: 语言模型(LM)的后训练依赖于两个阶段的人类监督:用于监督微调(SFT)的任务演示,随后是用于来自人类反馈的强化学习(RLHF)的偏好比较。随着LM能力的增强,其所执行的任务变得更难以监督。在不可靠监督下,后训练是否仍然有效?为此,我们使用小型LM和时间受限的人类模拟不可靠的演示和比较反馈。研究发现,在不可靠监督条件下,SFT仍具有一定效果,但常用的RLHF算法DPO未能在SFT基础上进一步提升模型性能。为解决这一问题,我们提出了迭代标签细化(ILR)作为RLHF的替代方案。ILR通过利用比较反馈决定是否用模型生成的替代方案替换人类演示,从而改进SFT数据,然后在更新后的数据上通过SFT重新训练模型。在多项不可靠监督任务(数学、编码和安全指令遵循)中,SFT+ILR的表现优于SFT+DPO。我们的发现表明,随着LM应用于需要复杂且人类监督不可靠的任务,RLHF可能不再是利用人类比较反馈的最佳方式;相反,更适合将反馈用于改进训练数据,而非持续训练模型。我们的代码和数据可在GitHub获取。
总结: 在不可靠监督下,迭代标签细化比强化学习更有效地改进语言模型的训练数据。
###【arXiv:2501.07886v1】
###【https://github.com/helloelwin/iterative-label-refinement】
###【】
###【计算机科学、机器学习、人工智能、计算语言学】
=====
摘要: 本研究描述了一种应用因果建模来检测和缓解多类分类问题中算法偏见的过程。数据集来源于FairFace数据集,并补充了由DeepFace预训练模型生成的情感标签。开发了一个定制的卷积神经网络(CNN),由四个卷积块组成,后接全连接层和dropout层以减轻过拟合。识别出CNN模型分类中的性别偏见:女性更可能被分类为“开心”或“悲伤”,而男性更可能被分类为“中性”。为了解决这一问题,应用了One-vs-All(OvA)技术。为每个情感类别构建了一个因果模型,以调整CNN模型的预测类别概率。然后通过选择概率最高的类别来聚合各种类别的调整概率。结果显示,经过去偏处理的分类在所有类别中增强了性别公平性,对整体准确性的影响可以忽略不计——甚至略有提高。本研究强调了算法公平性和准确性不一定存在权衡关系。所有本研究的数据和代码都可公开下载。
总结: 本文通过因果建模方法有效缓解了多类CNN分类中的算法性别偏见,实现了公平性与准确性的双重提升。
###【arXiv编号】2501.07885v1
###【git】无
###【期刊】无
###【领域】计算机科学 - 机器学习、计算机视觉
=====
摘要: 药物组合疗法在复杂疾病中显示出有希望的治疗效果,并表现出减少药物抗性的潜力。然而,可能的药物组合数量巨大,使得传统实验难以筛选。在本研究中,我们提出了MD-Syn,一个基于多维特征融合方法和多头注意力机制的计算框架。给定药物对-细胞线三元组,MD-Syn同时考虑一维和二维特征空间。它包括一维特征嵌入模块(1D-FEM)、二维特征嵌入模块(2D-FEM)以及基于深度神经网络的分类器,用于协同药物组合预测。MD-Syn在5折交叉验证中达到了0.919的AUROC,优于现有的最先进方法。此外,MD-Syn在两个独立的数据集上显示出相当的结果。此外,多头注意力机制不仅从不同的特征方面学习嵌入,还关注重要的交互特征元素,提高了MD-Syn的可解释性。总之,MD-Syn是一个可解释的框架,用于根据用户指定的化合物和癌症细胞系基因表达谱优先考虑协同药物组合对。为了方便更广泛的社区访问该模型,我们已开发了一个网络门户(https://labyeh104-2.life.nthu.edu.tw/),可以基于用户指定的化合物实现药物组合协同效果的定制预测。
总结: MD-Syn提供了一种可解释的多维特征融合和注意力机制相结合的药物组合预测框架,显著提升了预测性能并支持用户自定义预测。
###【arXiv编号】:2501.07884v1
###【git】:无
###【期刊】:预印本,尚未发表
###【领域】:计算机科学,定量生物学
=====
摘要: 本文重新审视了对抗训练中的鲁棒过拟合现象。观察到具有较好鲁棒泛化性能的模型在预测对抗生成的训练输入时不那么确定,我们认为在预测对抗样本时的过度自信可能是一个潜在原因。因此,我们假设生成不那么确定的对抗样本可以改善鲁棒泛化,并提出了对抗确定性的正式定义,该定义捕捉了模型在对抗样本上的预测logits的方差。我们对合成分布的理论分析描述了对抗确定性与鲁棒泛化之间的联系。因此,基于对抗确定性的概念,我们开发了一种通用方法,旨在搜索能够在训练时生成确定性较低的对抗输入的模型,同时保持模型在区分对抗样本方面的能力。在图像基准上的大量实验表明,我们的方法有效地学习了具有持续改进鲁棒性的模型,并缓解了鲁棒过拟合,确认了生成不那么确定的对抗样本对于鲁棒泛化的重要性。我们的实现作为开源代码可在此处获得。
总结: 通过生成不那么确定的对抗样本,该研究有效提升了模型的鲁棒泛化能力并缓解了鲁棒过拟合。
###【arXiv编号】2310.04539
###【git】https://github.com/TrustMLRG/AdvCertainty
###【期刊】
###【领域】 计算机科学 – 机器学习
该研究提出了对抗确定性的概念,并通过理论分析和实验证实其在提升模型鲁棒泛化能力及缓解鲁棒过拟合方面的有效性,具有较高的创新性和实用价值。
=====
摘要: 考虑通信受限的非参数函数估计问题,其中每个分布式终端持有多个独立同分布的样本。在某些正则性假设下,我们刻画了所有区域的极小最大最优速率,并确定了当每个终端的样本从稀疏到密集变化时最优速率的相变。这完全解决了之前工作的开放问题,先前工作的范围仅限于稠密样本或每个终端只有单个样本的区域。为了实现最优速率,我们设计了一个分层估计协议,通过利用参数密度估计问题的协议来实现。我们使用信息论方法和强数据处理不等式,结合经典的球与盒模型,展示了该协议的最优性。各种特殊情况的最优速率是立即得到的,例如密度估计、高斯、二进制、泊松和异方差回归模型。
总结: 本文通过设计分层估计协议,全面解决了通信受限的分布式非参数估计问题,并确定了不同样本密集度下的最优速率。
###【arXiv编号】2501.07879v1
###【领域】计算机科学,信息理论,统计学
=====
摘要: 符号核是一种适用于序列和时间数据的正定核,在机器学习应用中因其强大的理论保障、良好的实证性能以及最近推出的各种可扩展变体而日益受到欢迎。在本章中,我们简要介绍了KSig,这是一个与Scikit-Learn兼容的Python包,实现在计算符号核和执行下游学习任务的各类GPU加速算法。我们还介绍了一种基于张量素描的新算法,与现有算法相比,具有卓越的性能。该软件包可在GitHub获取。
总结: 本文介绍了KSig软件包及其GPU加速算法,显著提升了符号核在机器学习任务中的计算效率。
###【arXiv编号】2501.07145v2
###【git】https://github.com/tgcsaba/ksig
###【期刊】
###【领域】机器学习,计算机科学
=====
摘要: 大型语言模型(LLM)在各个领域展示了卓越的能力,尤其是在文本和视觉数据的任务泛化方面。虽然微调这些模型可以显著提升其在特定下游任务上的表现,但通常需要高质量的数据,这些数据由于隐私问题无法共享。联邦学习(FL)为无需直接数据共享的协同训练提供了有希望的解决方案。然而,许多基于低秩适应(LoRA)的LLM在FL中的参数高效微调策略面临限制。本文批判性地分析了利用LoRA的流行FL框架的收敛性和性能保证,强调了由于低秩矩阵子空间学习的受限,LoRA的次优性。这一限制妨碍了在联邦环境中对LLM进行有效微调。通过严格的分析和实证评估,我们证明直接权重平均优于基于LoRA的策略,导致微调模型性能更优。我们的全面比较揭示了LoRA方法的低效,并突显了直接权重聚合的优势。我们将分析扩展到在本地训练步骤中使用的基于低秩梯度的优化器,如GaLore。我们的发现显示,GaLore与直接权重聚合相结合是一种更有效的方法,超过了联邦LoRA方法如FlexLoRA和FFA-LoRA,在文本和图像模态上都有更好的表现。虽然隐私在FL讨论中仍然至关重要,我们的重点是评估联邦微调模型的性能结果,并从理论和实证角度评估各种FL框架。我们的发现主张重新评估在FL环境中对LoRA的依赖,为更高效的训练方法铺平道路。
总结: 本文分析并克服了LoRA在联邦学习微调大型语言模型中的限制,提出更高效的训练方法。
###【arXiv编号】2410.23111v6
###【git】
###【期刊】
###【领域】计算机科学 > 人工智能,机器学习
=====
摘要: 预训练的基础模型展示了非凡的上下文学习性能,允许在预训练期间未遇到的新任务进行零样本泛化。在强化学习(RL)的情况下,当基础模型在自回归监督方式下对决策制定问题进行预训练时,就会出现上下文RL(ICRL)。然而,目前的最先进的ICRL算法,如算法蒸馏、决策预训练变压器和决策重要性变压器,对预训练数据集在源策略、上下文信息和行动标签方面提出了严格的要求。值得注意的是,这些算法要么要求最优策略,要么需要在所有预训练环境中对训练良好的行为策略有不同程度的需求。这显著阻碍了ICRL在现实世界场景中的应用,因为在大量现实世界训练环境中获取最优或训练良好的策略可能是难以实现的。为了解决这一挑战,我们引入了一种新方法,称为状态-行动蒸馏(SAD),它仅通过随机策略生成有效的预训练数据集。具体而言,SAD通过在信任视界内使用随机策略从整个状态和行动空间中提取优秀的状态-行动对,选择查询状态和相应的行动标签,然后在预训练期间继承经典的自回归监督机制。就我们所知,这是第一项在随机策略和随机上下文下实现有效ICRL的工作。我们还建立了SAD的可信度和性能保证的定量分析。此外,我们在多个流行的ICRL基准环境中的实证结果表明,SAD在离线评估中平均超过最佳基线236.3%,在在线评估中超过135.2%。
总结: 本文提出了一种名为状态-行动蒸馏(SAD)的方法,利用随机策略有效实现上下文强化学习,并在多个基准环境中显著超越现有算法。
###【arXiv:2410.19982】
###【期刊】
###【领域】: 机器学习,强化学习
=====
摘要: 我们考虑具有时变约束的在线凸优化,并使用两个严格的指标进行性能分析:相对于在线解决方案基准的动态后悔,以及不允许任何补偿性违反的严格约束违反。我们提出了一种高效的算法,称为具有双界队列的受约束在线学习(COLDQ),它引入了一种新型的虚拟队列,该队列既具有下限又具有上限,允许紧密控制约束违规,而无需斯莱特条件。我们通过新的 Lyapunov 漂移分析证明,COLDQ 实现了 (O(T^\frac{1+V_x}{2})) 的动态后悔和 (O(T^{V_g})) 的严格约束违反,其中 (V_x) 和 (V_g) 捕捉损失和约束函数的动态性。首次,当损失和约束的动态性减小时,这两个界限平滑地趋近于已知的最佳 (O(T^\frac{1}{2})) 后悔和 (O(1)) 违反。对于强凸损失函数,COLDQ 在保持 (O(T^{V_g})) 严格约束违反的同时,匹配了最佳的 (O(\log{T})) 静态后悔。我们进一步引入了 COLDQ 的专家跟踪变体,该变体在无需任何系统动态先验知识的情况下,实现了相同的性能界限。仿真结果表明,COLDQ 超越了最先进的方法。
总结: COLDQ 算法通过引入双界虚拟队列,有效地控制在线凸优化中的约束违反并实现了优越的动态后悔。
###【arXiv编号】2412.10703v2
###【git】
###【期刊】
###【领域】计算机科学,机器学习,在线优化
=====
摘要: deepTerra 是一个综合平台,旨在利用机器学习和卫星图像促进土地表面特征的分类。该平台包括数据收集、图像增强、训练、测试和预测模块,简化了图像分类任务的整个工作流程。本文详细介绍了 deepTerra 的功能,展示了其在各个研究领域的应用,并讨论了其未来可能的发展方向。
总结: deepTerra 提供了一个集成的机器学习平台,简化了土地分类工作流程,并在多个研究领域展示了其应用潜力。
###【arXiv编号】2501.07859v1
###【git】
###【期刊】
###【领域】计算机视觉, 人工智能, 机器学习
=====
摘要: 我们提出了新的注意力架构,多矩阵分解注意力(Multi-matrix Factorization Attention, MFA)和MFA-键重复使用(MFA-KR)。现有的标准多头注意力(MHA)变体,包括MLA等最先进方法,在严格的键值缓存(KV cache)约束下无法保持同样强劲的性能。MFA通过在查询-键(QK)电路中使用低秩矩阵分解,有效地扩展了注意力头的数量和维度,从而增强了模型容量。扩展MFA,MFA-KR通过值投影重新参数化将键缓存重新用作值,从而进一步减少了内存需求。MFA的设计使得在紧凑的KV缓存预算下具有强大的模型容量,而MFA-KR适用于更严格的KV缓存限制,性能贸易仅为轻微。在我们广泛且大规模的实验中,所提出的架构优于MLA,并与MHA表现相当,同时将KV缓存使用量分别减少了高达56%和93.7%。
总结: 提出了一种通过低秩矩阵分解和缓存优化,提升多头注意力模型性能同时显著降低KV缓存使用的新型注意力架构。
###【arXiv:2412.19255v2】
###【git】
###【期刊】
###【领域】 机器学习, 计算语言学
=====
摘要: 图像超分辨率(SR)旨在从受特定退化过程影响的低分辨率图像中恢复高分辨率图像,通过增强细节和视觉质量实现。基于Transformer的方法的最新进展通过实现超越先前的深度学习方法(如基于CNN和GAN的方法)的高质量重建,重新塑造了图像超分辨率。这有效地解决了先前方法的局限性,例如有限的感受野、全局上下文捕捉不足以及高频细节恢复的挑战。此外,本文回顾了基于Transformer的SR模型的最新趋势和进展,探索了将Transformer与传统网络结合以平衡全局和局部上下文的各种创新技术和架构。这些新方法经过批判性分析,揭示了有前途但尚未探索的空白和未来研究的潜在方向。包括几种模型和技术的可视化,以促进对最新趋势的全面理解。此工作旨在为深度学习前沿的研究人员提供结构化的路线图,特别是探索Transformer对超分辨率技术的影响。
总结: 本文综述了基于Transformer的图像超分辨率方法的技术、挑战与应用,并探讨了未来研究方向。
###【arXiv:2501.07855v1】
###【期刊】
###【领域】
计算机视觉,人工智能,电子工程,机器学习,神经网络
本文系统全面地总结了基于Transformer的图像超分辨率技术,具有较高的创新性和实用性,为相关研究提供了有价值的参考。
=====
摘要: 提高从CT血管造影(CTA)图像中分割冠状动脉粥样硬化斑块的精度对于先进的冠状动脉粥样硬化分析(CAA)至关重要,CAA明显依赖于通过曲面平面重构的血管横截面图像的分析。由于斑块和血管的边界和结构不明显,以及当前深度学习模型的性能不足,加之对这种复杂数据的标注固有困难,这一任务面临重大挑战。为了解决这些问题,我们提出了一种新颖的双一致性半监督框架,整合了帧内拓扑一致性(ITC)和帧间拓扑一致性(CTC)以利用标注和未标注的数据。ITC使用双任务网络同时预测分割掩码和骨架感知距离变换(SDT),通过一致性约束实现拓扑结构的相似预测,无需额外的标注。同时,CTC利用无监督估计器分析相邻帧中骨架和边界的像素流,确保空间连续性。在两个CTA数据集上的实验表明,我们的方法超过了现有的半监督方法,并接近了CAA中监督方法的性能。此外,我们的方法在ACDC数据集上也优于其他方法,展示了其泛化能力。
总结: 提出了一种双一致性的半监督框架,有效提升了冠状动脉斑块在CTA图像中的分割精度,优于现有方法并具有良好泛化能力。
###【arXiv编号】: 2501.07850v1
###【git】: 无
###【期刊】: 未指定
###【领域】: 计算机视觉,机器学习,医学图像处理
=====
摘要: 传统的交互环境通过固定任务限制了智能体的智力增长。最近,单智能体环境通过根据智能体的行动生成新任务,增强了任务的多样性。我们考虑了多智能体设置中的决策问题,其中任务进一步受到社会连接的影响,影响奖励和信息获取。然而,现有的多智能体环境缺乏自适应的物理环境和社会连接的结合,阻碍了智能行为的学习。为了解决这个问题,我们引入了AdaSociety,一个可定制的多智能体环境,具有扩展的状态和行动空间,以及明确可变的社会结构。随着智能体的进展,环境自适应地生成带有社会结构的新任务供智能体执行。在AdaSociety中,我们开发了三个展示不同社会结构和任务的小型游戏。初步结果表明,特定的社会结构可以促进个体和集体的利益,尽管当前的强化学习和基于LLM的算法在利用社会结构以提升性能方面显示出有限的效果。总体而言,AdaSociety作为一个有价值的研究平台,用于探索多样的物理和社会环境中的智能。代码可在 GitHub 获得。
总结: AdaSociety通过整合自适应的物理环境和社会结构,为多智能体决策提供了一个创新且可定制的研究平台。
###【arXiv编号】2411.03865v4
###【git】https://github.com/bigai-ai/AdaSociety
###【期刊】未公布
###【领域】计算机科学,多智能体系统,人工智能,机器学习,社会与信息网络
AdaSociety提出了将自适应环境与社会结构结合的新方法,为多智能体决策提供了丰富的研究平台,具有较高的创新性和实用价值,尽管当前算法在充分利用社会结构方面仍有提升空间。
=====
摘要: 基于转换器的模型已经成为自然语言处理、自然语言生成和图像生成中最广泛使用的架构之一。最先进模型的规模持续增长,参数量已达数十亿。这些庞大的模型对内存需求极高,并且即使在最前沿的AI加速器(如GPU)上也会产生显著的推理延迟。具体而言,注意力操作的时间和内存复杂度与总上下文长度(即提示和输出令牌)呈二次关系。因此,已经提出了诸如键值张量缓存和FlashAttention计算等多种优化方法,以满足依赖如此大型模型的应用对低延迟的需求。然而,这些技术没有考虑推理过程不同阶段的计算特性差异。
为此,我们提出了LeanAttention,这是一种在仅解码器的转换器模型的解码阶段(生成令牌阶段)计算自注意力的可扩展技术。LeanAttention通过重新设计解码阶段的执行流程,使注意力机制在处理长上下文长度的挑战性情况下实现扩展。我们发现在线softmax的结合属性可以作为归约操作处理,从而允许我们在这些长上下文长度上并行化注意力计算。我们将“stream-K”风格的平铺计算归约扩展到自注意力,实现了并行计算,相比FlashAttention-2平均提升了2.6倍的注意力执行速度,对于512k上下文长度,速度提升高达8.33倍。
总结: LeanAttention通过优化解码阶段的注意力计算流程,显著提升了转换器模型在处理长上下文时的执行速度。
###【arXiv编号】2405.10480v2
###【git】无
###【期刊】无
###【领域】计算机科学、人工智能、机器学习、自然语言处理