2024年1月19日Arxiv最热论文推荐:伯克利提出加速3D数据建模新方法、ICLR 2024论文让AI不再遗忘、谷歌新模型让一切皆可分割、北大多模态大模型用语言操控视频修复

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。

论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。

如需查看其他热门论文,欢迎移步 saibomaliang.com  ^_^

Top1

Enabling Efficient Equivariant Operations in the Fourier Basis via Gaunt Tensor Products

标题:

加速3D数据建模,伯克利提出高效等变操作新方法:Gaunt张量积,性能大幅提升!

标签:
Berkeley、ML、ICLR 2024

作者:
Shengjie Luo, Tianlang Chen, Aditi S. Krishnapriyan

推荐理由:
这篇论文被选为ICLR 2024的 Spotlight Presentation,这表明它在同行评审中得到了高度认可。论文的主题是高效的等变操作,这是机器学习领域一个重要的研究方向,尤其是在几何深度学习中。此外,论文来自伯克利大学,这是一个在AI领域有很高影响力的机构。论文的长度和提供的代码资源也表明这是一个深入的研究工作,值得关注。

论文简介:

在建模现实世界应用中,开发对E(3)群等变神经网络在建模3D数据方面起着重要作用。强制实现这种等变性主要涉及到不可约表示(irreps)的张量积。然而,随着使用更高阶的张量,这些操作的计算复杂度显著增加。在这项工作中,我们提出了一种系统的方法,大大加速了不可约表示的张量积的计算。我们在数学上将常用的Clebsch-Gordan系数与Gaunt系数联系起来,Gaunt系数是三个球谐函数乘积的积分。通过Gaunt系数,不可约表示的张量积等同于由球谐函数表示的球形函数之间的乘法。这种观点进一步使我们能够将等变操作的基础从球谐函数改变为2D Fourier基础。因此,由2D Fourier基础表示的球形函数之间的乘法可以通过卷积定理和快速傅里叶变换高效计算。这种转换将不可约表示的完整张量积的复杂度从(6)�(�6)降低到(3)�(�3),其中�是不可约表示的最大阶数。利用这种方法,我们引入了Gaunt张量积,它作为一种新的方法用于构建不同模型架构之间的高效等变操作。我们在Open Catalyst Project和3BPA数据集上的实验证明了我们方法的提高效率和改进性能。

论文解读链接:
https://www.saibomaliang.com/generate?session_id=9b797d7d-0867-490e-a64c-0fe4a09acbf0

Top2

Divide and not forget: Ensemble of selectively trained experts in Continual Learning

标题:
ICLR 2024论文让AI不再遗忘,持续学习领域的突破

标签:
ML、CV、ICLR 2024

作者:
Grzegorz Rypeść, Sebastian Cygert, Valeriya Khan, Tomasz Trzciński, Bartosz Zieliński, Bartłomiej Twardowski

推荐理由:
这篇论文被接受到ICLR 2024的主轨道,这是一个顶级会议,意味着论文的质量和创新性得到了认可。论文的主题是持续学习,这是当前AI研究中的一个热门话题,因为它涉及到如何让机器学习模型更好地适应新任务而

论文简介:

随着模型在不忘记已知知识的同时扩大其适用性,增量学习变得越来越受欢迎。在这一领域的一个趋势是使用混合专家技术,不同的模型共同解决任务。然而,专家通常是使用整个任务数据一次性训练的,这使得它们都容易遗忘并增加计算负担。为了解决这个限制,我们引入了一种名为SEED的新方法。SEED仅选择一个最优的专家来处理考虑的任务,并使用该任务的数据来对该专家进行微调。为此,每个专家用高斯分布表示每个类别,并根据这些分布的相似性选择最优的专家。因此,SEED增加了专家之间的多样性和异质性,同时保持了该集成方法的高稳定性。广泛的实验表明,SEED在各种情景下的无样本设置中实现了最先进的性能,展示了通过数据对专家进行多样化的持续学习的潜力。

论文解读链接:
https://www.saibomaliang.com/generate?session_id=78ac6c67-7893-4b3a-9a38-580dea4a53fe

Top3

RAP-SAM: Towards Real-Time All-Purpose Segment Anything

标题:
实时全能分割新篇章,Google RAP-SAM模型让一切皆可分割!

标签:

Google、CV

作者:
Shilin Xu, Haobo Yuan, Qingyu Shi, Lu Qi, Jingbo Wang, Yibo Yang, Yining Li, Kai Chen, Yunhai Tong, Bernard Ghanem, Xiangtai Li, Ming-Hsuan Yang

推荐理由:
这篇论文来自谷歌,这是一个在AI领域具有极高影响力的公司。论文的主题是实时的多功能分割模型,这是计算机视觉领域的一个重要研究方向,具有广泛的应用前景。此外,论文提供了项目页面,这有助于读者更深入地了解研究内容。

论文简介:

于Transformer架构的推动,视觉基础模型(VFMs)在性能和泛化能力方面取得了显著进展。Segment Anything Model(SAM)是一个可以实现广义分割的显著模型。然而,大多数VFMs无法实时运行,这使得将它们转化为多个产品变得困难。另一方面,当前的实时分割主要有一个目的,比如在驾驶场景中进行语义分割。我们认为实际应用需要多样化的输出。因此,本文探索了一个新的实时分割设置,称为全能实时分割,以实现VFMs的实时部署。它包含三个不同的任务,包括交互式分割、全景分割和视频分割。我们的目标是使用一个模型在实时环境中实现上述任务。我们首先对几个强基准进行了评估。然后,我们提出了实时全能SAM(RAP-SAM)。它包含一个高效的编码器和一个高效的解耦解码器,以进行快速驱动解码。此外,我们进一步探索了不同的训练策略和调优方法,以进一步提高协同训练的性能。我们的代码和模型可以在…处获得。

论文解读链接:
https://www.saibomaliang.com/generate?session_id=ad85b558-7cf6-42bd-aded-4ecdec52f6ae

Top4

Towards Language-Driven Video Inpainting via Multimodal Large Language Models

标题:
用语言操控视频修复!北大多模态大语言模型让你告别繁琐标注

标签:
CV

作者:
Jianzong Wu, Xiangtai Li, Chenyang Si, Shangchen Zhou, Jingkang Yang, Jiangning Zhang, Yining Li, Kai Chen, Yunhai Tong, Ziwei Liu, Chen Change Loy

推荐理由:
这篇论文涉及多模态大型语言模型在视频修复中的应用,这是一个新兴且热门的研究领域。多模态学习和大型语言模型都是当前AI领域的热点,而且论文还提供了项目页面,有助于读者更深入地了解研究内容。

论文简介:
我们引入了一项新任务——语言驱动的视频修复,它使用自然语言指令来指导修复过程。这种方法克服了传统视频修复方法的局限性,传统方法依赖于手动标记的二值掩模,这一过程通常繁琐且劳动密集。我们提出了一个名为“通过指令从视频中移除对象(ROVI)”的数据集,包含5,650个视频和9,091个修复结果,用于支持该任务的训练和评估。我们还提出了一种新颖的基于扩散的语言驱动视频修复框架,这是该任务的首个端到端基准,集成了多模态大型语言模型,能够有效理解和执行复杂的基于语言的修复请求。我们全面的结果展示了数据集的多样性以及模型在各种语言指导的修复场景中的有效性。我们将公开提供数据集、代码和模型。

论文解读链接:
https://www.saibomaliang.com/generate?session_id=e9c9b7e1-fc15-4204-9e54-a204ee550a31

Top5

Self-Rewarding Language Models

标题:
超越人类反馈限制,Meta自我奖励语言模型刷新AlpacaEval 2.0排行榜

标签:
Meta、ML、NLP

作者:
Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston

推荐理由:
这篇论文来自Meta,研究的是自我奖励的语言模型,这是一个新颖的研究方向,可能会对大型语言模型的训练方法产生影响。由于Meta是一个知名的大公司,其研究成果自然会吸引更多的关注。此外,论文的主题可能会引起社会影响和媒体传播,因为它涉及到AI的自主学习能力。

论文简介:
我们认为,为了实现超人类智能代理,未来的模型需要超人类的反馈来提供足够的训练信号。当前的方法通常是从人类偏好中训练奖励模型,但这可能会受到人类表现水平的限制,而且这些独立的冻结奖励模型无法在LLM训练过程中学习改进。在这项工作中,我们研究了自我奖励语言模型,其中语言模型本身通过LLM作为评判者的提示来在训练过程中提供自己的奖励。我们展示了在迭代DPO训练过程中,不仅指令遵循能力得到改善,而且提供高质量奖励的能力也得到了提升。通过对Llama 2 70B进行三次迭代的微调,我们得到了一个在AlpacaEval 2.0排行榜上超过许多现有系统的模型,包括Claude 2、Gemini Pro和GPT-4 0613。虽然这只是一项初步研究,但这项工作为模型在两个方向上持续改进的可能性打开了大门。

论文解读链接:
https://www.saibomaliang.com/generate?session_id=ddb1be1f-9815-441b-a342-25a7585fd1cf

本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。

论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。

如需查看其他热门论文,欢迎移步 saibomaliang.com  ^_^

你可能感兴趣的:(人工智能,nlp,语言模型,深度学习,大模型)