读论文 Situated Instruction Following

研究背景:在传统的指令跟随范式中,代理独自在一个空房子里行动,导致语言使用既简单又人为“完整”。与此相反,我们提出了情境指令跟随(SIF),该方法拥抱真实世界通信中固有的不完全和模糊性,具有人的物理存在。情境指令的意义通过人类的过去行动和预期未来行为自然展开。在我们的设置中,指令具有以下特征:(1) 模糊不清,(2) 具有时间演变的意图,(3) 可以通过代理的动态行动更精确地解释。

读论文 Situated Instruction Following_第1张图片

SIF中的任务包括两个阶段:探索阶段(阶段1)和任务阶段(阶段2)。PnP代表一个用于比较的传统静态拾取和放置任务,其中探索阶段后环境保持不变。Shum和Sobj引入了两种新的情境指令跟随任务。在这些任务中,对象和人类主体在任务阶段移动。对于这些移动的细致通信提供了必要的推理,这些推理涉及模糊性、时间演变和动态的人类意图。

指令生成

1.任务格式 任务通过〈H, I, C, Pe, Pt, Pg〉定义。任务嵌入在房子中,在探索(Pe)、任务(Pt)阶段和目标状态(Pg)期间的资产、代理和人类的起始位置,目标指令和关于在探索阶段后移动了哪些物体的人的通信。 H (House): 任务所在的房屋环境。 I (Instruction): 任务开始时提供给代理的目标指令。 C (Communication): 有关物体移动的模糊或明确的信息。 Pe (Exploration Phase Position): 探索阶段资产的初始位置。 Pt (Task Phase Position): 任务阶段资产的位置。 Pg (Goal Position): 任务目标状态的位置。

2.探索阶段 在探索阶段,代理被允许在静态的房屋环境中导航。这个阶段的目标是让代理有机会了解环境的布局和物体的位置。具体步骤: 环境扫描: 代理使用传感器(如RGB和深度摄像头)扫描环境,创建环境的语义地图。地图包括障碍物、语义类别(如物体类别和接收体)以及人类的位置。 定位对象: 代理识别并标记环境中的所有重要对象(如杯子、盘子等)。 更新语义地图: 代理在探索过程中不断更新语义地图,确保对环境的动态和准确表示。

3.任务阶段 在任务阶段开始时,代理接收到目标指令和有关物体移动的信息。代理需要根据这些信息执行相应的任务。 具体步骤: 接收指令: 代理接收到目标指令(I)和关于物体移动的通信(C)。 示例指令: “把杯子放在水槽里。” 示例通信: “我带着一个杯子。我将准备睡觉。” 理解意图: 代理需要理解指令的意图,这可能包括推理物体的位置变化或人类意图的变化。 计划路径: 代理根据语义地图和接收到的信息规划路径,决定采取哪些高层次的行动(如移动到特定房间、拾取物等)。 执行任务: 代理执行计划的高层次行动,完成任务目标。

4.任务类型 SIF包含三种主要任务类型: 静态任务 (PnP): 在这种任务中,探索阶段和任务阶段之间环境保持不变。代理的任务是将[Obj]放置在[Recep]上或将[Obj]带到特定位置。 示例: “把杯子放在桌子上。” 情境对象任务 (Sobj): 在任务阶段开始时,某些物体被重新定位。代理需要根据通信信息推理物体的新位置。 示例: “我移动了杯子。它现在在厨房的某个地方。” 情境人类任务 (Shum): 在任务阶段开始时,人类开始移动。代理需要跟踪人类的位置,并根据动态变化的意图进行行动。 示例: “我将在浴室洗脸。把杯子给我。”

5.模糊性处理 代理需要处理三种模糊性: 模糊指令: 指令中包含不确定信息,例如多个潜在位置或不明确的目标。 示例: “我把杯子带到了某个房间。我正在洗脸。” 时间演变的意图: 人类的行动会改变指令的解释方式,代理需要实时跟踪并调整计划。 示例: “带给我杯子。我将在浴室。” 动态环境: 代理需要在动态变化的环境中行动,决定哪些行动可以减少不确定性(例如跟随人类)。 示例: 人类在任务阶段开始时移动到不同房间。

6.具体执行工具 为了执行高层次的行动,代理使用以下执行工具: 导航工具: 用于在环境中移动,包括“移动到房间X”和“探索房间X”。 操作工具: 用于拾取和放置物体,包括“拾取物体”和“放置物体”。 跟随工具: 用于跟踪人类的移动,特别是在Shum任务中。 每当一个高层次的行动完成后,代理会更新语义地图,并生成新的提示,帮助代理做出下一步的决策。

指令生成方法

1.生成目标指令 (I): 使用模板语言生成描述目标状态的指令。 示例: “Put a [ObjectCat] on the [Recep]” 或 “Put a [ObjectCat] in the [RoomFunction]”

2.生成通信信息 (C): 描述物体移动的位置变化,使用模板语言生成。 示例: “I moved the object with me; I am ...”

3.生成环境提示: 转换语义地图和其他上下文为文本提示,包括系统提示、环境提示和格式提示。 系统提示: 概述代理的角色和不确定性。

环境提示: 转换语义地图为文本格式,包含当前状态和过去动作的结果。

格式提示: 解释动作的可执行性和预期效果。

示例任务 静态任务 (PnP): 探索阶段和任务阶段之间环境保持不变。

指令: “Put a cup on the table.”

情境对象任务 (Sobj): 任务阶段中对象移动。

指令: “I moved the cup. It is now in the kitchen.”

情境人类任务 (Shum): 任务阶段中人类主体移动。

指令: “I will be in the bathroom washing my face.”

你可能感兴趣的:(人工智能,深度学习,python)