[文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug

[文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Augmentation, and Evaluation

导读 : 自动驾驶或有条件的自动驾驶(Conditioned Autonomous Driving, CAD)允许将一部分的驾驶任务给予到自动驾驶系统(Autonomous Driving System,ADS)来完成。但是,在此期间驾驶员仍需保持对于环境的观测,而人们普遍认为,一旦认知刺激的水平低于自己的兴奋阈值(own comfortable 'setting point‘),大多数人会寻找替代的/额外的信息来源,从而导致注意力分散。文章以接管时间的预测为切入点,期望提供必要的接管警报和接管时间,实现从ADS到手动驾驶(Manual Driving)控制权的平稳转换。

  • [文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Augmentation, and Evaluation
    • 1. HighLight
    • 2. Summary
      • 2.1 概述
      • 2.2 问题理解
      • 2.3 数据集和标签
      • 2.4 模型结构
      • 2.5 训练参数的使用
    • 3. 实验
    • 4. 小结


1. HighLight

  1. 针对真实世界的接管数据,收集成本高且数据量较少的问题,使用 增强数据 的方式扩充数据集。
  2. 使用原始图像,编码驾驶员脸部,手部,脚和上半身姿态等中高维特征,以时序方式提取并使用增强数据集训练,多模态的TOT预测。
  3. 对特征组合和模型进行消融实验验证,模块和特征的有效性。

2. Summary

2.1 概述

​ 人们普遍认为,一旦认知刺激的水平低于自己的兴奋阈值(own comfortable 'setting point‘),大多数人会寻找替代的/额外的信息来源,从而导致注意力分散。这就使得L2、L3级的自动驾驶变得非常危险,这会导致驾驶员注意力不集中、对于ADs的过度信任、驾驶技能的萎缩,自满等问题,即,自动化水平的提高将导致意识水平的降低。且人类并不擅长长时间保持警惕和持续关注某项单一的任务/

有个很有意思的描述:the more advanced a control system is, the more crucial may be the contribution of the human operator。

​ 以上观点表明:注意力下降是人类行为中固有的。

2.2 问题理解

​ 文中,重点关注从自主代理到人类驾驶员的过渡。使用接管时间 (Takeover Time,TOT) 度量标准定义为:发出接管请求 (Takeover Request,TOR) 与人为控制之间的时间间隔。接管请求可以是听觉/视觉/触觉提示,用于向驾驶员指示他们需要立即进行干预。由于人类注意力的复杂性,将控制假设定义为完成以下三种行为:

​ 1)Hands on wheel:手回到方向盘并进行转向控制。

​ 2)feets on pedal:脚接触到驱动踏板

​ 3)Eyes on road:注意前方,观察周围环境
[文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug_第1张图片

图 1:接管时间 (TOT) 预测的作用:用于根据驾驶员行为预测控制转换期间的 TOT。所提出的模型可以与碰撞时间估计结合使用,以确定是否发出接管请求并将控制权转移给人类,或者部署主动安全措施以避免碰撞。

如图 1 所示,从自主代理到人类驾驶员的控制权转换应该是周围场景和驾驶员状态的函数。周围场景可以使用碰撞时间 (TTC) 等指标简洁地表达,而驾驶员的状态可以通过预测的 TOT 捕捉。结合起来,这形成了安全控制转换的标准:
T O T + ε < T T C TOT + \varepsilon < TTC TOT+ε<TTC
其中 ε 是边际余量,表示人类驾驶员获得感知并执行纠正操作所需的时间。考虑到驾驶员状态的系统可以决定是在驾驶员准备就绪时交出控制权,还是在驾驶员未准备好时安全平稳地停车。虽然有许多方法可以准确估计 TTC,但 TOT 预测(尤其是在现实世界中)仍然相对未被探索。在本文中,我们提出了一种长短期记忆 (LSTM) 模型,用于根据 TOR 之前的驾驶员行为预测 TOT。我们使用使用商用有条件自动驾驶汽车捕获的真实世界控制转换数据集来训练和评估我们的模型

2.3 数据集和标签

  1. 可控条件下收集89名驾驶员驾驶model s,其中安装了三个面向驾驶员的摄像头,捕捉驾驶员目光,手和脚的活动,行驶1h后,进行一些分散注意力的次要活动,以随机的间隔发送听觉接管报警,驾驶员根据指示接管车辆,并恢复到MD状态下。-> 1375个接管事件。

  2. label:

    自动视频分割:每个驾驶会话首先被分割成围绕已知接管事件的 30 秒窗口,包括接管请求 (TOR) 之前的 20 秒和接管事件之后的 10 秒。

    事件标注:对于一个接管事件对应的每个 30 秒片段,我们手动标注接管请求后对应驾驶员眼睛在路上、手在方向盘上、脚在车上的 3 次踏板。我们还标记了驾驶员在每次接管事件期间执行的次要活动,分配 8 种可能的活动标签之一:(1) 没有次要活动,(2) 与同行乘客交谈,(3) 闭上眼睛,(4 ) 发短信,(5) 打电话,(6) 使用信息娱乐装置,(7) 数零钱,(8) 阅读书籍或杂志。接管事件分布在次要活动之间,如表 I 所示。
    [文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug_第2张图片
    ​ 图 2 显示了 8 项次要活动中每项活动对应于眼睛注视道路、手放在车轮上和脚踩踏板的平均时间。它还显示了总接管时间,这是每 个事件的三个标记中的最大值。我们注意到,与可以合理预期的与共同乘客交谈或使用信息娱乐设备相比,发短信、打电话、数零钱 和阅读对应于更长的平均接管时间。与直觉相反,“在方向盘后面闭着眼睛”活动的接管时间很短。这主要是因为司机只是“假装”睡着 了,因为考虑到每次试验的持续时间和性质,不可能实现真正的睡眠。我们还注意到,与眼睛盯着路或脚踩踏板相比,“手放在方向 盘上”事件似乎平均花费的时间要长得多。这加强了对驾驶员手部分析的需求,这也是驾驶员可观察准备指数的关键预测指标(见下 一节)。最后,我们注意到对于更分散注意力的次要活动(阅读、发短信、打电话、数零钱),与其他次要活动相比,即使是脚踩踏 板的时间也更长,尽管次要活动不涉及驾驶员的脚。因此,似乎存在与驾驶员将注意力从次要活动转移到驾驶的主要活动相对应的延迟。
    [文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug_第3张图片

  3. 数据扩充:
    [文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug_第4张图片

在原始数据的基础上,减去 t o f f t_{off} toff ,对应于现实状态下驾驶员月来越不分心的数据。

2.4 模型结构

​ 如下下图所示,模型主要有两部分组成,第一部分对应于图像中高维特征的编码提取,主要对脸部,手部以及脚部的图像做CNN的逐帧特征编码;第二部分则是应用前面提到的2s时间窗口,做LSTM的TOT预测。
[文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug_第5张图片

​ 第一部分使用的是一些现有的backbone就不过多介绍,感兴趣的小伙伴可以自行阅读。

​ 第二部分文章中分三部逐步介绍:

  1. 首先是比较简单的基线模型-LSTM解码器,输入特征使用大小为 16(加上非线性)的全连接 (FC) 层进行转换,在每个时间步将其馈送到具有大小为 32 的隐藏状态的 LSTM。LSTM 层在每个时间步接收转换后的输入特征,并更新其称为隐藏状态的内部表示。经过 2 秒的输入和更新后,LSTM 在最新时间步后的隐藏状态通过输出转换(FC 层加非线性)来预测三个TOT时间戳。

  2. 独立的LSTM cell:

    每个目标输出时间都有自己独立的 LSTM。原因是为了适应不同驾驶员行为的不同隐藏状态的update rate,例如,眼睛注视道路的行为通常(短期)比手放在方向盘上的行为(中期/长期)更快。拥有多个独立的 LSTM 允许每个 LSTM 以不同的速率更新,从而分别捕获短期/中期/长期行为。

    虽然每个分支都有自己的 LSTM 单元,但输入和输出转换仍然在三个 LSTM 之间共享,因为三个分支的特征输入是相同的。根据实验,这往往会减少过度拟合。

  3. 多模态输出的LSTM:

​ 对每个预测值预测多个输出,并预测相应的概率值。
[文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug_第6张图片

损失函数:
L = 1 N ∑ i = 1 N min ⁡ k ( ∣ t e i − o e i ( k ) ∣ + ∣ t f i − o f i ( k ) ∣ + ∣ t h i − o f i ( k ) ∣ ) − λ 1 N ∑ i = 1 N ∑ k = 1 K p i ( k ) l o g ( q i ( k ) ) L = \frac{1}{N}\sum_{i=1}^{N}\min_{k}(|t_e^i-o_e^i(k)|+|t_f^i-o_f^i(k)|+|t_h^i-o_f^i(k)|)-\lambda\frac{1}{N}\sum_{i=1}^N\sum_{k=1}^Kp^i(k)log(q^i(k)) L=N1i=1Nkmin(teioei(k)+tfiofi(k)+thiofi(k))λN1i=1Nk=1Kpi(k)log(qi(k))
其中:
p i ( k ) = 1 ( a r g m i n l ( ∣ t e i − o e i ( l ) ∣ + ∣ t f i − o f i ( l ) ∣ + ∣ t h i − o f i ( l ) ∣ ) = k ) p^i(k) = \mathbb{1}(argmin_l(|t_e^i-o_e^i(l)|+|t_f^i-o_f^i(l)|+|t_h^i-o_f^i(l)|) = k) pi(k)=1(argminl(teioei(l)+tfiofi(l)+thiofi(l))=k)
该模型使用最小的 K 损失进行训练,其中 L1 损失仅应用于最接近地面实况目标的输出模式。此外,输出概率使用交叉熵进行细化。

2.5 训练参数的使用

整个模型使用 Adam 优化器进行训练,学习率为 0.001,持续 10 个时期。

3. 实验

4. 小结

你可能感兴趣的:(文献阅读报告,人工智能,深度学习,算法,自动驾驶)