每月AI科研动向(2024年1月)

我是陌小北,每月不定时更新前一个月AI领域科研新进展,拿走不谢,欢迎提建议。

目前的分类包括:LLM研究、Agent、多模态(图像、音视频、其他)、特定领域应用、具身智能。

内容较多所以每个相对简略,后续会对必要的专题做更进一步的研究。

1. LLM研究

自我奖励语言模型

Meta和纽约大学的研究团队提出了自我奖励语言模型(Self-Rewarding Language Models)。在训练过程中,语言模型本身通过 LLM-as-a-Judge 提示来提供自己的奖励。研究表明,在迭代 DPO 训练过程中,不仅模型的指令遵循能力有所增强,而且它为自己提供高质量奖励的能力也得到了提升。根据这一方法对 Llama 2 70B 进行三次迭代微调后,得到的模型在 AlpacaEval 2.0 排行榜上超过了包括 Claude 2、Gemini Pro 和 GPT-4 0613 在内的许多现有系统。

论文链接:https://arxiv.org/abs/2401.10020

Meta-Prompting:语言模型功能增强

斯坦福大学和OpenAI提出的Meta-Prompting,一种提高语言模型性能的方法,通过使用模型来协调和执行多个独立提问,待合成回复后生成最终的答案。这种方法采用了集成方法,借鉴了多个专门模型的优势和多样性,以协同解决和处理具有多面性的任务或问题。核心思想在于使用一个模型来协调和执行多个独立的提问,然后综合它们的回复以生成最终的答案。它将复杂任务巧妙地分解为各个组件,然后汲取不同专业知识为每个组件提供支持,最终将各个专业领域的输出巧妙地整合在一起。

此外,研究还展示了将外部工具(如Python解释器)无缝集成到Meta-Prompting框架中,从而扩大了其适用性和实用性。通过与GPT-4进行严格的实验,证明了Meta-Prompting在常规支架方法上的优越性,带有Python解释器功能的Meta-Prompting比标准提示高出17.1%,比专家(动态)提示高出17.3%,比多人提示高出15.2%。

论文链接:https://arxiv.org/abs/2401.12954

用 LLM 增强 LLM

Google DeepMind 和 Google Research 提出了 CALM,它通过模型间的交叉注意力机制来组合它们的表征,从而将现有基础模型与更具体的模型组合起来,实现新能力,CALM 的显著特点包括:

1)通过“重新使用”现有的大型语言模型(LLMs),以及少量额外的参数和数据,在新的任务中扩展 LLM;
2)保持现有模型权重不变,从而保留了现有的能力;
3)适用于不同的领域和环境。

研究结果表明,用一个在低资源语言上训练的较小模型增强 PaLM2-S,可以在诸如翻译成英语和低资源语言的算术推理等任务上,实现最高 13% 的绝对性能提升。同样地,当 PaLM2-S 与一个专门的代码模型结合时,在代码生成和解释任务上实现了 40% 的相对性能提升 —— 与完全微调的模型相当。

论文链接:https://arxiv.org/abs/2401.02412

Thought Cloning:让 AI 模仿人类思维

本研究提出了一个模仿学习框架——思维克隆(Thought Cloning),其理念是不仅克隆人类的行为,而且克隆人类在执行这些行为时的思维。该研究假设:造成这种认知缺陷的原因之一是,智能体不具备使用语言思考的优势,希望通过训练它们像人类一样思考来改进。

语言是影响人类思维的关键要素,为我们提供了概括、探索、规划、重新规划和适应新环境的卓越能力。然而,强化学习(RL)智能体在这些能力上却远不如人类。

他们发现,思维克隆的学习速度要比行为克隆快得多,且其性能优势随着测试任务的离散程度加大而越大,这凸显了其更好地处理新情况的能力。此外,思维克隆还提高了 AI 的安全性和可解释性,并使 AI 的调试和改进变得更加容易,比如:更容易地诊断出事情出错的原因,从而更容易地解决问题;通过纠正代理的想法来引导它;或者防止它做它计划做的不安全的事情。

项目地址:https://www.shengranhu.com/ThoughtCloning/

LLM 替代方案:Blending Is All You Need

本研究提出了一种整合多个聊天 AI 的简单而有效的方法——“混合”(blending)。以往的经验表明,如果将特定的较小模型进行协同混合,它们的性能就有可能超过或赶上更大的对应模型。例如,只需要整合三个中等规模(6B/13B 参数)的模型,其性能指标就能与 ChatGPT(175B+ 参数)这样的大型模型相媲美,甚至超越。

研究人员使用 A/B 测试方法对这一假设进行了为期 30 天的严格测试,研究结果表明,“混合”策略作为一种可行方法的潜力,可以在不相应增加计算需求的情况下提高聊天 AI 的效率。

论文链接:https://arxiv.org/abs/2401.02994

小模型是弱工具学习者:多语言模型智能体

大型语言模型(LLMs)智能体显著扩展了独立 LLMs 的能力,使它们能够与外部工具(比如,APIs、functions)互动,并以自主的方式完成复杂任务。

工具使用的挑战要求 LLMs 不仅要理解用户查询并生成答案,还必须在任务规划、记忆管理、工具调用和结果总结方面表现出色。传统方法专注于训练一个具有所有这些能力的单一模型,但随着模型的变小,性能限制变得明显。此外,当工具更新时,整个模型可能需要重新训练。

为了克服这些挑战,研究者们提出了一个新颖的策略,将上述能力分解为规划器、调用器和汇总器。每个组件由专注于特定能力的单个 LLM 实现,并与其他组件协作以完成任务。这种模块化框架便于个别更新,并有可能使用较小的 LLM 来构建每个能力。为了有效地训练这个框架,研究者们提出了一个两阶段的训练范式。首先,在不区分子任务的情况下,对整个数据集的主干 LLM 进行微调,让模型全面了解任务。其次,微调后的 LLM 分别用于实例化规划器、调用器和汇总器,它们在各自的子任务上不断进行微调。对各种工具使用基准的评估表明,这一多 LLM 框架超越了传统的单 LLM 方法,凸显了其在工具学习方面的功效和优势。

论文链接:https://arxiv.org/abs/2401.07324

综述:幻觉检测与幻觉减轻

这项综述全面回顾了当前关于幻觉检测和幻觉减轻的文献,为对 LLMs 感兴趣并将其应用于实际任务中的工程师和研究人员提供了良好的参考。

论文链接:https://arxiv.org/abs/2401.08358

检索增强生成(RAG)和微调的利与弊

微团研究团队提出了一个 RAG 和微调的 pipeline,介绍了这两种方法在多个流行 LLMs(包括 Llama2-13B、GPT-3.5 和 GPT-4)中的tradeoffs。这一pipeline 包括从 PDF 中提取信息、生成问题和答案、使用它们进行微调、利用 GPT-4 评估结果等多个阶段。

研究人员通过对一个农业数据集进行深入研究,提出了评估 RAG 和微调 pipeline 不同阶段性能的指标。研究结果表明,数据集生成 pipeline 在捕捉特定地理位置知识方面非常有效,这证明了 RAG 和微调在定量和定性效益方面的优势。在对模型进行微调时,准确率提高了 6%;与 RAG 相加,准确率进一步提高了 5%。在一个特定实验中,研究者证明了微调模型可以利用跨地域信息来回答特定问题,将答案相似度从 47% 提高到 72%。

论文链接:https://arxiv.org/abs/2401.08406

让GPT-3.5比肩GPT-4

清华大学和中国人民大学的研究团队及其合作者提出了一种通过任务间自我进化来增强人工智能(AI)智能体适应性和灵活性的新策略—— Investigate-Consolidate-Exploit(ICE)。它能够减少多达 80% 的 API 调用,并显著降低对模型能力的需求。当与 GPT-3.5 结合使用时,ICE 在各种智能体任务中的性能与原始 GPT-4 不相上下。

论文链接:https://arxiv.org/abs/2401.13996

WARM:提高LLM预测的整体质量和对齐

将基于人类反馈的强化学习(RLHF)和大型语言模型(LLMs)对齐可能会导致奖励破解,LLMs 利用奖励模型(RM)中的失误来获得看似很高的奖励,却没有达到基本目标。为此,来自谷歌公司的研究团队提出了加权平均奖励模型(WARM)。实验表明,WARM 提高了 LLM 预测的整体质量和一致性;例如,使用 WARM 进行微调的策略 RL 与使用单一 RM 进行微调的策略 RL 相比,胜率高达 79.4%。

论文链接:https://arxiv.org/abs/2401.12187

AI 创造力研究

新加坡国立大学、斯坦福大学、Google DeepMind 及其合作者,通过引入一个名为“相对创造力”(Relative Creativity)的新概念,来讨论定义和评估创造力的复杂性。

研究人员没有试图普遍定义创造力,而是转而关注 AI 是否能够匹配一个假想人类的创造能力。这种观点借鉴了图灵测试,扩展了它来解决评估创造力固有的挑战和主观性。这种方法论的转变促进了对 AI 创造力的统计量化评估,研究人员将其称为“统计创造力”(Statistical Creativity)。这种方法允许直接比较 AI 与特定人类群体的创造能力。在此基础上,研究人员讨论了统计创造力在当前以提示为条件的自回归模型中的应用。除了定义和分析创造力的度量,研究人员还介绍了一个可操作的培训指南,有效地弥补了创造力理论量化与实际模型训练之间的差距。

论文链接:https://arxiv.org/abs/2401.01623

关于AI的“欺骗性”的研究

Anthropic 构建了在大型语言模型(LLMs)中展示欺骗行为的概念验证实例。例如,研究团队训练模型在提示中指定年份为 2023 时编写安全代码,但在指定年份为 2024 时插入可利用的代码。

研究人员发现,这种带后门的行为可以持续存在,因此常规的安全训练技术,包括监督微调、强化学习和对抗性训练(引发不安全行为,然后训练以消除它),都无法将其移除。

在最大的模型中,以及在被训练成能产生欺骗训练过程的思维链推理的模型中,后门行为最难以消除,即使思维链被提取出来时,这种持续性依然存在。此外,研究人员还发现,对抗性训练非但不能消除后门,反而能教会模型更好地识别其后门触发器,从而有效地隐藏不安全行为。

研究结果表明,一旦模型展现出欺骗行为,常规技术可能无法消除这种欺骗,从而造成安全的假象。

论文链接:https://arxiv.org/abs/2401.05566

ChatQA:与GPT-4水平相当的对话式QA模型

英伟达的研究团队提出了 ChatQA ——一个可获得 GPT-4 级别准确度的对话式 QA 模型。

该研究提出了一种两阶段指令微调方法,可显著改善大型语言模型(LLMs)的零样本对话式 QA 结果。为了处理对话式 QA 中的检索问题,研究人员在一个多轮 QA 数据集上对密集检索器进行了微调,其结果与使用最先进的查询重写模型相当,同时大幅降低了部署成本。

ChatQA-70B 模型在 10 个对话式 QA 数据集的平均得分上可以超越 GPT-4(54.14 vs. 53.90),而且没有依赖任何来自 OpenAI GPT 模型的合成数据。

论文链接:https://arxiv.org/abs/2401.10225

2. Agent

Agent AI:探索多模态交互的前景

微软研究院、斯坦福大学的研究团队及其合作者,将智能体 AI(Agent AI)定义为一类交互系统,它可以感知视觉刺激、语言输入和其他环境基础数据,并能与无限代理一起产生有意义的具身行动。特别是,这些系统旨在通过结合外部知识、多感官输入和人类反馈,在下一个具身行动预测的基础上改进智能体。

研究人员认为,通过在基础环境中开发 Agent AI 系统,还可以减轻大型基础模型的幻觉及其产生环境错误输出的倾向。

论文链接:https://arxiv.org/abs/2401.03568

WebVoyager:利用大型多模态模型构建端到端网络智能体

浙江大学、腾讯公司和西湖大学的研究团队推出了一种创新的大型多模态模型(LMM)驱动的网络智能体—— WebVoyager。它可以通过与真实世界的网站交互来完成端到端的用户指令。WebVoyager 的自动评估与人类判断的一致性达到了 85.3%。

论文链接:https://arxiv.org/abs/2401.13919

AgentBoard:多轮LLM智能体分析评估框架

来自香港大学、浙江大学、上海交通大学、清华大学的研究团队及其合作者提出了一个分析评估大型语言模型(LLM)智能体的开创性的综合基准和配套开源评估框架—— AgentBoard。AgentBoard 在揭开智能体行为的神秘面纱和加速开发更强大的 LLM 智能体方面迈出了重要一步。

论文链接:https://arxiv.org/abs/2401.13178

GitAgent:可基于 GitHub 自主扩展工具

虽然 ChatGPT、GPT-4 等大型语言模型(LLMs)在自然语言处理方面表现出了强大的能力,但它们在处理复杂、多方面任务上的效果仍然有限。目前,相关研究主要聚焦于如何让基于 LLM 的智能体使用外部工具来执行多样化的任务,但现有的基于 LLM 的智能体只支持有限的工具集,无法涵盖各种用户查询,尤其是涉及专业领域的查询。

对于基于 LLM 的智能体来说,如何在面对各种用户查询时自主扩展工具仍然是一个挑战。鉴于 GitHub 汇聚了众多仓库资源,一个有希望的解决方案是让基于 LLM 的智能体可以根据用户的查询自动整合 GitHub 上的仓库来扩展其工具集。

为此,来自清华大学、中国人民大学的研究团队提出了 GitAgent,这是一种能够从 GitHub 自主扩展工具的智能体。GitAgent 遵循四阶段流程来整合仓库,并能通过利用 GitHub 的 Issues/PRs 学习人类经验来解决流程中遇到的问题。涉及 30 个用户查询的实验评估结果显示,GitAgent 平均成功率达到了 69.4%,这证明了它的有效性。

论文链接:https://arxiv.org/abs/2312.17294

基于大型语言模型的智能代理:定义、方法和前景

本论文中,香港中文大学的研究团队及其合作者,通过对当前研究的调查,深入概述了单智能体和多智能体系统中基于 LLMs 的智能体,其中涵盖了它们的定义、研究框架和基础组成部分,如它们的组成、认知和规划方法、工具利用以及对环境反馈的响应。此外,研究团队还深入探讨了在多智能体系统中部署基于 LLMs 的代理的机制,包括多角色协作、消息传递和缓解代理间通信问题的策略。

论文链接:https://arxiv.org/abs/2401.03428

3. 多模态:图像

PhotoMaker:个性化定制人像照片的文生图模型

南开大学、腾讯公司和东京大学的研究团队提出了一种高效的个性化文本生成图像方法—— PhotoMaker。PhotoMaker 能够将任意数量的输入 ID 图像编码成一个堆叠的 ID 嵌入,以保留 ID 信息。作为一个统一的 ID 表示,这种嵌入不仅能够全面封装相同输入 ID 的特征,还能够容纳不同 ID 的特征以供后续整合。这为更多有趣且具有实际价值的应用提供可能。

论文链接:https://arxiv.org/abs/2312.04461

Logo设计的AI辅助工具TypeDance

香港科技大学的研究团队提出了一种结合设计原则和个性化语义排版 Logo 设计的 AI 辅助工具——TypeDance。TypeDance 中包含一个全面的设计工作流程,包括创意构思、选择、生成、评估和迭代等环节。通过包括模仿和创作在内的双任务用户评估,证实了 TypeDance 在不同应用场景下的设计实用性和可用性。

论文链接:https://arxiv.org/abs/2401.11094

一张照片生成定制肖像

阿里研究团队提出了一个 FaceChain 的零样本版本——FaceChain-FACT,它不需要进行 Face LoRA 模型训练,且只需要输入用户的一张照片,就能生成定制肖像。与 SOTA 商业应用相比,它的生成速度快了 100 倍。

另外,FaceChain-FACT 集成了基于 Transformer 的人脸特征提取器,其结构与 Stable Diffusion 类似,这使得其能更好地利用人脸信息;此外,研究团队使用密集的细粒度特征作为人脸条件,从而能够更好地还原人物特征;值得一提的是,FaceChain-FACT 与 ControlNet 和 LoRA 插件无缝兼容,即插即用。

项目地址:

https://facechain-fact.github.io

大型自回归图像模型的可扩展预训练

苹果研究团队介绍了一种名为 AIM(Autoregressive Image Models)的视觉模型集,它通过无监督的自回归预训练学习视觉特征,可以轻松扩展到数十亿参数规模。该研究有两个关键发现:(1)模型性能随着模型容量和数据量的增加而提升;(2)目标函数的值与模型在下游任务上的性能相关。

研究人员通过在 20 亿张上预训练一个 70 亿参数的 AIM 模型来验证这些发现的实际意义,该模型在 ImageNet-1k 上达到了 84.0% 的准确率,且在此过程中模型的主干部分是固定的。

值得注意的是,即使在这个规模上,研究人员也未观察到性能饱和的现象,这表明 AIM 可能代表了大规模视觉模型训练的新前沿。此外,AIM 的预训练类似于 LLMs 的预训练,不需要任何图像特定的策略来稳定大规模训练。

论文链接:https://arxiv.org/abs/2401.08541

InstantID:个性化图像合成

本研究提出 InstantID(一个基于扩散模型的解决方案),其即插即用模块能够仅使用单张面部图像就巧妙地处理各种风格的图像个性化,同时确保高保真度。为了实现这一点,研究人员设计了一个 IdentityNet,通过强语义和弱空间条件的结合,将面部图像和地标图像与文本提示相结合,引导图像生成。

InstantID 展示了优异的性能和效率,在需要保持身份真实性的实际应用中非常有价值。此外,InstantID 可以作为一个可适配的插件,能够与流行的预训练文本到图像扩散模型(如 SD 1.5 和 SDXL)无缝集成。

论文链接:https://arxiv.org/abs/2401.07519

DiffusionGPT:语言大模型驱动的文生图系统

字节跳动和中山大学的研究团队提出了 DiffusionGPT,它能够利用 LLM 提供一个统一的生成系统、无缝地适应各种类型的提示并整合领域专家模型。DiffusionGPT 根据先验知识为各种生成模型构建领域特定的树。当提供输入时,LLM 解析提示并使用思维树来指导选择合适的模型,从而放宽输入限制,确保在多样化领域中的卓越性能。此外,研究人员引入了优势数据库,通过人工反馈丰富了思维树,使模型选择过程与人类偏好相一致。

通过广泛的实验和比较,该研究展示了 DiffusionGPT 的有效性,及在多样化领域中推动图像合成边界的潜力。

论文链接:https://arxiv.org/abs/2401.10061

SUPIR:一种新的图像复原技术

中国科学院大学、上海人工智能实验室的研究团队及其合作者利用生成先验和模型扩展提出了一种突破性的图像复原方法——SUPIR(Scaling-UP Image Restoration)。SUPIR 在智能和逼真图像复原方面取得了重大进步。实验验证了 SUPIR 卓越的复原效果及其通过文本提示图像修复的新能力。

论文链接:https://arxiv.org/abs/2401.13627

CreativeSynth:基于多模态扩散的视觉艺术创意混合与合成

中国科学院大学、中国科学院、字节跳动和清华大学的研究团队基于扩散模型建立了协调多模态输入和在艺术图像生成领域执行多任务的统一框架—— CreativeSynth。它可以通过反转和实时风格转换,将现实世界语义内容导入艺术领域,在保持原始模型参数完整性的同时,对图像风格和内容进行精确操作。

论文链接:https://arxiv.org/abs/2401.14066

4. 多模态:视频和音频

Auffusion:一个新型文本到音频生成系统

北京邮电大学的研究团队提出了一个新型 TTA 系统——Auffusion,将 T2I 模型框架适配到 TTA 任务上,有效地利用它们自有的生成能力和精确的跨模态对齐。客观和主观评估表明,Auffusion 在使用有限的数据和计算资源方面超越了以前的 TTA 方法。

此外,以往的 T2I 研究已经揭示了编码器选择对跨模态对齐的重大影响,如细节和对象的绑定,而类似的评估在之前的 TTA 研究中比较缺乏。通过消融研究和交叉注意力图可视化,研究人员对 TTA 中的文本音频对齐情况进行了深入评估。该研究揭示了 Auffusion 在生成与文本描述精确匹配的音频方面的卓越能力,并在音频风格转换和其他操作等相关任务中得到了进一步证明。

论文链接:https://arxiv.org/abs/2401.01044

AI视频生成器 Lumiere

谷歌团队提出了一种专为视频生成的扩散模型—— Lumiere。它能够通过在多个时空尺度上处理视频,直接生成全帧率、低分辨率的视频;可以轻松促进包括文字到视频、图像到视频、视频修复和风格化生成等各种内容创建任务和视频编辑应用。

论文链接:https://arxiv.org/abs/2401.12945

AIGCBench:全面评估 AI 视频生成

中国科学院、中国科学院大学的研究团队提出了一个综合性、可扩展的基准测试——AIGCBench,专门用于评估各种视频生成任务,尤其是在图像到视频(I2V)生成上。据介绍,AIGCBench 解决了现有基准测试缺乏多样化数据集的限制,包含一个多样化的开放领域图文数据集,可用于在相同条件下评估不同的最新算法。

研究人员采用了文本合成器和 GPT-4 来创建丰富的文本提示,然后通过文本到图像模型生成图像。为了建立视频生成任务的统一评估框架,研究人员的基准测试包括了 11 个指标,涵盖了控制视频对齐、动态效果、时间连贯性和视频质量四个维度。这些指标既包括依赖参考视频的,也包括不依赖视频的,确保了全面的评估策略。

该研究提出的评估标准与人类判断高度相关,为当前 I2V 算法的优势和劣势提供了洞察。AIGCBench 代表了为更广泛的 AIGC 领域创建标准化基准测试迈出的重要一步,为未来视频生成任务的评估提出了一个适应性强且公正的框架。

论文链接:https://arxiv.org/abs/2401.01651

高保真视频生成器MagicVideo-V2

字节跳动提出 MagicVideo-V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到一个端到端视频生成 pipeline 中。据论文描述,MagicVideo-V2 可以生成美观的高分辨率视频,且具有出色的保真度和流畅性。通过大规模用户评估,该模型的性能优于 Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 等文本到视频系统。

论文链接:https://arxiv.org/abs/2401.04468

通用的 AI 系统 Vlogger,用于生成用户描述的分钟级 vlog

该研究提出了一个通用的 AI 系统 Vlogger,用于生成用户描述的分钟级 vlog。Vlogger 可以智能地利用大型语言模型(LLMs)作为导演,并将 vlog 的长视频生成任务分解为四个关键阶段,调用各种基础模型来扮演 vlog 专业人员的角色,包括剧本、演员、视频制作师和配音师。通过模拟人类的行为,Vlogger 可以通过自上而下的规划和自下而上的拍摄来生成 vlog。

此外,研究者们提出了一个视频扩散模型—— ShowMaker。它在 Vlogger 中担任摄像师,用于生成每个拍摄场景的视频片段。通过将剧本和演员作为文本和视觉提示融入其中,它可以有效地增强片段中的空间-时间连贯性。此外,研究者们为 ShowMaker 设计了简洁的混合训练范式,以提升其在 T2V 生成和预测方面的能力。

实验表明,这一方法在零样本 T2V 生成和预测任务上实现了最先进的性能。更重要的是,Vlogger 可以从开放世界的描述中生成超过 5 分钟的 vlogs,且在剧本和演员方面没有损失视频连贯性。

论文链接:https://arxiv.org/abs/2401.09414

5.多模态:其他

综述:多模态大型语言模型的最新进展

腾讯公司、京都大学和中国科学院大学的研究团队进行了全面的调查。概述了模型架构和训练 pipeline 的一般设计方案。简要介绍了 26 个现有的 MM-LLMs,每个模型都有其特定的构建方式。该项研究回顾了 MM-LLMs 在主流基准上的性能,总结了增强 MM-LLMs 性能的关键训练方法。

论文链接:https://arxiv.org/abs/2401.13601

克服数据限制,构建高质量视频扩散模型

腾讯 AI Lab 团队研究利用低质量视频和合成高质量图像获得高质量视频模型的可行性。研究者们分析了视频模型的空间和时间模块与低质量视频的分布转移之间的联系。与只训练时间模块相比,全面训练所有模块可以导致空间模块和时间模块之间更强的耦合。基于此,使用高质量图像对空间模块进行微调,将分布转移到更高质量且无运动降级的视频上,从而形成通用的高质量视频模型。

论文链接:https://arxiv.org/abs/2401.09047

在数百万视频中提炼视觉语言模型

本研究利用合成的教学数据,从图像语言基线出发,对视频语言模型进行微调。由此产生的视频语言模型可用于自动标注数百万个视频,从而生成高质量的字幕。研究表明,改编后的视频语言模型在各种视频语言基准测试中表现出色。例如,在开放式 NExT-QA 上,它比之前的最佳结果高出 2.8%。

此外,该模型还能为以前未见过的视频生成详细的描述,与现有方法相比,能提供更好的文本监督。实验表明,在这些自动生成的字幕上对比训练的视频语言双编码器模型,比同时利用视觉语言模型的最强基线好 3.8%。在 MSR-VTT 零镜头文本到视频检索方面,我们的最佳模型比最先进的方法高出 6%。

论文链接:https://arxiv.org/abs/2401.06129

LEGO:语言增强型多模式接地模型

当前,多模态模型主要强调捕捉每种模态中的全局信息,而忽视了感知跨模态局部信息的重要性,因而缺乏有效理解输入数据细粒度细节的能力,在需要更细致理解的任务中的表现不尽如人意。

为了提高多模态模型在各种任务中的适用性,我们迫切需要开发一个能够跨模态理解细粒度信息的模型。

为此,来自字节跳动、复旦大学的研究团队提出了语言增强型多模态接地模型 LEGO。除了像其他多模态模型一样捕捉全局信息外,该模型在要求详细理解输入中局部信息的任务中表现出色。它能精确识别和定位图像中的特定区域或视频中的特定时刻。为了实现这一目标,研究团队设计了一个多样化的数据集构建 pipeline,构建了一个用于模型训练的多模态、多粒度数据集。

论文链接:https://arxiv.org/abs/2401.06071

快速、多样的文本到 3D 生成

本研究利用预先训练好的大型 2D 扩散模型,提出了一种新方法 HexaGen3D,该方法会对预先训练好的文本到图像模型进行微调,以联合预测 6 个正交投影和相应的潜在三平面,然后对这些潜影进行解码,生成纹理网格。

HexaGen3D 不需要对每个样本进行优化,可在 7 秒内从文本提示中推断出高质量和多样化的对象,与现有方法相比,在质量与延迟的权衡方面有明显优势。此外,HexaGen3D 对新物体或新组合具有很强的通用性。

论文链接:https://arxiv.org/abs/2401.07727

ConTextual:评估大型多模态模型中对上下文敏感的富文本视觉推理

加州大学洛杉矶分校的研究团队提出了一个评估大型多模态模型(LMMs)执行上下文敏感文本丰富的视觉推理能力(context-sensitive text-rich visual reasoning)指令的新基准—— ConTextual。研究表明,表现最好的 LMM、GPT-4V(ision) 的整体性能仍然落后于人类。

论文链接:https://arxiv.org/abs/2401.13311

超越Stable Diffusion:扩散模型的大规模强化学习

来自 Pinterest 公司和麻省理工学院(MIT)的研究团队提出了一种有效的可扩展算法,利用强化学习(RL)在多个多样的奖励函数(如人类偏好、组合性和公平性)上改进扩散模型。这一方法显著超过现有方法,可以使扩散模型更符合人类偏好。

论文链接:https://arxiv.org/abs/2401.12244

6. 特定领域应用研究

对话式 AI 诊断

Google Research 和 Google DeepMind 提出了一种基于大型语言模型(LLM)、专为诊断对话优化的 AI 系统——AMIE(Articulate Medical Intelligence Explorer)。AMIE 采用了一种基于自我博弈的模拟环境,具有自动反馈机制,可在不同疾病条件、专业和环境下进行扩展学习。另外,研究团队还设计了一个框架,用于评估具有临床意义的指标,包括病史采集、诊断准确性、管理推理、沟通技巧和同理心。

在一项随机、双盲交叉研究中,研究团队将 AMIE 的表现与初级保健医生(PCP)的表现进行了比较,结果显示,AMIE 的诊断准确性更高,在 32 个指标中的 28 个指标上表现更佳;而患者行为者认为,AMIE 在 26 个指标中的 24 个指标上表现更佳。

然而,该研究也存在一些局限性,在解释时应保持适当的谨慎。临床医生仅限于使用陌生的同步文本聊天,这种聊天方式允许大规模的 LLM 患者互动,但并不代表通常的临床实践。虽然在将 AMIE 应用于现实世界之前还需要进一步的研究,但该研究成果代表了对话式 AI 诊断的重要突破。

论文链接:https://arxiv.org/abs/2401.05654

PLLaMa:植物科学领域的开源大模型

加州大学圣巴巴拉分校、林肯大学、中国农业科学院、瑞典农业科学大学的研究团队,提出了一个基于 LLaMa-2 构建的开源语言模型——PLLaMa。据介绍,PLLaMa 通过整合超过 150 万篇植物科学领域的学术文章,大大丰富了自身的知识库,显著提高了 PLLaMa 在植物和农业科学方面的知识深度和专业性。

测试结果显示,PLLaMa 在理解与植物科学相关话题方面有了显著的提升。此外,研究人员组建了一个国际专业团队,包括植物科学家、农业工程师和植物育种家。这个团队在核实 PLLaMa 对各种学术问题的回应的准确性方面发挥了关键作用,确保其在该领域的有效和可靠应用。为了支持进一步的研究和开发,研究人员向科学界开放了模型的检查点和源代码。

论文链接:https://arxiv.org/abs/2401.01600

大模型如何改变心理学研究?

清华大学心理学系、清华大学社会科学学院的研究团队,探讨了 LLMs 在心理学应用方面的最新进展。研究人员详细探讨了像 ChatGPT 这样的 LLMs 是如何改变心理学研究的。该论文讨论了 LLMs 在认知和行为、临床和咨询、教育和发展以及社会和文化心理学等各个分支上的影响,凸显了它们模拟人类认知和行为方面的潜力。该论文深入研究了这些模型模仿类人文本生成的能力,为心理学的文献综述、假设生成、实验设计、实验对象、数据分析、学术写作和同行评审提供了创新工具。

尽管 LLMs 在推进心理学研究方法论方面至关重要,但该论文也在技术和伦理挑战方面发出了警告。诸如数据隐私、在心理学研究中使用 LLMs 的伦理影响,以及对这些模型限制的深入理解等问题。研究人员应该负责任地使用 LLMs 进行心理学研究,遵守伦理标准并考虑在敏感领域部署这些技术的潜在后果。总体而言,该论文提供了 LLMs 在心理学当前状态的全面概述,探索了潜在的好处和挑战。

论文链接:https://arxiv.org/abs/2401.01519

LARP:开放世界游戏的语言代理角色扮演游戏

语言代理,在确定的环境和短期的时间内已展现出了令人印象深刻的问题解决能力。然而,随着开放世界模拟的复杂性不断增加,人们迫切需要能够灵活适应复杂环境并持续保持长期记忆以确保行为连贯的代理。

为了弥合语言代理和开放世界游戏之间的鸿沟,研究人员提出了角色扮演语言代理(LARP),其包括了一个包含记忆处理和决策助手的认知架构、一个具有反馈驱动可学习行动空间的环境交互模块,以及一个促进不同个性对齐的后处理方法。LARP 框架优化了用户和代理之间的互动,这些代理预先设定了独特的背景和个性,最终增强了开放世界环境中的游戏体验。此外,它还突出了语言模型在娱乐、教育和各种模拟场景中的多样化应用。

论文链接:https://arxiv.org/abs/2312.17653

基于大模型的教育系统:基础能力、潜力和挑战

本研究回顾了最近涌现的与教育能力相关的 LLMs 研究,包括数学、写作、编程、推理和基于知识的问题解答,从而探索它们在构建下一代 AI 教育系统中的潜力。基于当前的发展状况,进一步概述了基于 LLMs 的教育系统的两种方法:统一法和专家混合(MoE)方法。此外,该研究还探讨了面临的挑战和未来的方向,为 LLMs 适应于教育提供了新的研究机会和视角。

论文链接:https://arxiv.org/abs/2401.08664

7.具身研究

OK-Robot:基于开放知识的新型机器人框架

纽约大学和 Meta 公司的研究团队开发了一个名为 OK-Robot 的新开放知识机器人框架。OK-Robot 将用于物体检测的视觉-语言模型(VLMs)、用于移动的导航原语和用于物体操作的抓取原语结合起来,为取放操作提供了一个无需任何训练的集成解决方案。OK-Robot 在开放式取放任务中实现了 58.5% 的成功率,代表了开放词汇移动操作(OVMM)领域的最新技术水平,其性能是之前工作的近 1.8 倍。在更干净整洁的环境中,OK-Robot 的性能提高到了 82%。

论文链接:https://arxiv.org/abs/2401.12202

机器人大模型:机遇、挑战与展望

西北工业大学、佐治亚大学的研究团队及其合作者,发表 LLMs 和多模态 LLMs 整合到各种机器人任务的新兴集成的全面概述。研究团队还提出了一个利用多模态 GPT-4V 的框架,通过将自然语言指令与机器人视觉感知相结合来增强具身任务规划。

基于不同数据集的研究结果表明,GPT-4V 能有效提高机器人在具身任务中的表现。在各种机器人任务中对 LLMs 和多模态 LLMs 的广泛调查和评估,丰富了人们对以 LLMs 为中心的具身智能的理解,并为缩小人-机器人-环境交互的差距提供了前瞻性见解。

论文链接:https://arxiv.org/abs/2401.04334

MultiPLY:多感官具身大模型

人类具备在积极探索和与 3D 世界互动时将多种多感官线索综合起来的能力。然而,当前的多模态大型语言模型(LLMs)被动地吸收感官数据作为输入,缺乏主动与 3D 环境中的对象互动以及动态收集它们的多种感官信息的能力。

为此,研究者们提出了一个多感官的具身大型语言模型——MultiPLY,它能够将视觉、听觉、触觉和热信息等多种感官互动数据整合到 LLMs 中,从而建立词语、行动和感知之间的关联。

研究者们首先收集了一个包含 50 万条数据的多感官互动数据集——Multisensory Universe,这些数据是通过部署一个由 LLM 驱动的具身智能体与三维环境互动来收集的。为了在这样生成的数据上使用预训练的 LLM 进行指令微调,研究者们首先将 3D 场景编码为抽象化的以对象为中心的表示,然后提出行动 token,表示具身智能体在环境中采取了某些行动;以及状态 token,表示智能体在每一步的多种感官状态观察。在推理时,MultiPLY 能够生成行动 token,指示智能体在环境中采取行动并获得下一个多感官状态观察。观察结果随后通过状态 token 附加回 LLM,以生成后续的文本或行动 token。

该项研究通过涉及物体检索、工具使用、多感官字幕和任务分解的多样化具身任务集合展示了 MultiPLY 相较于基线的显著性能提升。

论文链接:https://arxiv.org/abs/2401.08577

在语音对话中合成“人类”

Meta 和 加州大学伯克利分校提出了一个可以生成全身逼真化身(avatar)的框架——Audio2Photoreal,其生成的化身能够根据双方对话的动态做出手势。只要给定语音音频,该框架就可以为个体输出多种手势动作的可能性,包括面部、身体和手部。

据介绍,为了生成更加动态和表情丰富的动作,该方法结合了来自矢量量化的样本多样性和通过扩散获得的高频细节的优点。该方法使用高度逼真的化身来可视化生成的动作,这些化身可以表达手势中的关键细微差别(比如,嘲笑和微笑)。此外,为了推动这一研究领域的发展,研究人员也推出了一种首创的多视角对话数据集,允许进行逼真重建。

实验显示,该模型可以生成适当且多样的手势,表现优于仅使用扩散或矢量量化的方法。此外,感知评估突出了逼真度(与网格相比)在准确评估对话手势中微妙动作细节的重要性。代码和数据集可在线获取。

论文链接:https://arxiv.org/abs/2401.01885

AutoRT:用大模型更好地训练机器人

Google DeepMind 提出了一种利用大型基础模型更好地训练机器人的新方法——AutoRT。通过收集更多的经验训练数据和更多样化的数据,AutoRT 可以帮助扩展机器人学习,有助于创建可以理解实际人类目标的机器人。

据介绍,AutoRT 结合了大型语言模型(LLM)和视觉语言模型(VLM),以及机器人控制模型(RT-1 或 RT-2),创建了一个可以部署机器人在新环境中收集训练数据的系统。AutoRT 可以同时指导多个机器人在各种环境中执行不同的任务,每个机器人都配备了视频摄像头和一个末端执行器。对于每个机器人,系统都会使用 VLM 来理解其所处环境和视线范围内的物体。接下来,LLM 会为机器人提出一系列可以执行的创造性任务,如“将零食放到台面上”,并扮演决策者的角色,为机器人选择一个合适的任务去执行。

论文链接:https://auto-rt.github.io/static/pdf/AutoRT.pdf

你可能感兴趣的:(人工智能,AI,OpenAI,Agent,多模态)