Dynamic Occupancy Grid Prediction for Urban Autonomous Driving
Abstract
长期状况预测对智能车辆起着至关重要的作用。仍然需要克服的主要挑战是如何预测具有多个道路用户(例如行人,自行车和机动车辆)相互交互的复杂市区场景。该贡献在于通过结合用于环境表示的贝叶斯过滤技术和作为长期预测器的机器学习来解决这一挑战。更具体地说,动态占用网格图被用作深度卷积神经网络的输入。这产生了使用单个时间步长的空间分布速度估计值进行预测而不是原始数据序列的优势,从而减轻了处理多个传感器的输入时间序列的常见问题。此外,卷积神经网络具有使用上下文信息的固有特性,从而可以对道路用户交互进行隐式建模。损失函数中采用了像素级平衡,以抵消静态和动态单元之间的极端不平衡。主要优点之一是由于全自动标签生成而导致的无监督学习特征。在多个小时记录的传感器数据上对提出的算法进行训练和评估,并将其与蒙特卡洛模拟进行比较。实验表明,可以对复杂的交互过程进行建模
Introduction
过去几十年的研究在自动驾驶领域取得了巨大的成功。通过将自动驾驶汽车与人类驾驶员进行比较,人类可以通过估计未来场景演变的能力来补偿相对较长的反应时间。这还可以实现战略性和前瞻性的行为,难以用机器的快速反应和精确感知来弥补。因此,自动驾驶的长期状况预测仍然是要克服的主要挑战。我们应对汽车,卡车,自行车和行人共享道路的高度复杂的城市环境。道路使用者会各自做出反应,但具有特定于类型的运动约束。最重要的是,步行或驾车的人在这种情况下并不会独立行动,而是互动并考虑他人的可能行为。因此,个人的决定和道路可能会对某人或其他人的未来行为产生影响。因此,这种交通场景可能演变成许多可能的未来场景星座,从而激发了对预测结果进行概率表示的需求。简而言之,城市自动驾驶的长期状况预测应该能够纳入所有已知交通参与者的互动,并且由于问题的不确定性,可以应对可能结果的差异
交互和运动动力学模型是改善预测的常用工具。文献涵盖使用工程和学习模型进行的长期预测。手动设计道路用户预测中的依赖性(例如,使用数字地图或智能驾驶员模型[1])通常是相当局限性的假设,例如,车道跟踪[2]或汽车跟踪[3]场景。另外,考虑到上下文和对象关系的手工模型往往是高维的[1],[4],这激发了机器学习的替代性。与机器学习在分类方面的巨大成功相一致,提出了一些方法来预测关于离散操纵类的未来操纵,例如,停止,直行或转弯[5],[6]。然而,就时间序列而言预测轨迹与就泛化而言预测机动类别不同。为了在算法输出处获得时空分布,这是数据表示的问题。 Wiest [7],例如,切比雪夫多项式的预测参数在高斯混合模型中被视为随机变量
与算法输出相反,考虑输入处原始传感器数据的时间序列,尽管有数据表示,但仍会出现一些技术问题。在2018年5月21日至25日于澳大利亚布里斯班举行的IEEE国际机器人与自动化大会(ICRA)上,采样频率的变化,异步传感器的缩放和转换,或时域输入不规则,都是机器学习面临的挑战[8 ],但已由传感器融合社区进行了深入研究[9],[10]。从机器学习的角度来看,不是从时间序列中学习时间特征并面对上述问题,而是通过表示短期动态特征的一阶微分方程来关联单个时间戳的状态变量。此外,我们假设空间上下文可以弥补长期输入序列的不足。这个假设是受股票市场预测研究的启发[11],众所周知,使用过去的时间序列不足以预测未来的股票趋势[12]。而且,还不清楚它们是否有帮助[13]。然而,可以通过上下文信息(例如Twitter情绪[14]或在线聊天[15])来提高预测性能[11]。
如图1所示,可以在动态占用栅格图(DOGMa)中看到空间上下文。DOGMa使用贝叶斯滤波[16]融合各种传感器,并采用了鸟瞰图(静态和动态)。 每个多通道像素或单元包含概率占用率和速度估计。 此外,DOGMas的类似图像的数据结构自然建议使用卷积神经网络(CNN)来利用上下文信息以及不同对象与给定基础结构之间的依赖关系。
因此,在这项工作中,结合了基于工程和基于学习的方法的优势。 卷积神经网络(CNN)用于对长期运动进行建模,输入端使用当前动态环境的贝叶斯估计。 对于训练,无需执行手工标记,但是,使用未来和过去的估计方法应用了将稀有动态与静态网格单元分离的算法。 首先,这可以在训练过程中在静态区域和动态区域之间实现平衡,而且可以对当前环境进行学习,得出的结果优于工程方法。
论文的剩余部分的结构如下。 在第二部分中,我们概述了动态占用网格。 第三部分介绍了用于无监督学习的全自动标签生成。 IV简要介绍了所采用的CNN架构。 在第V节中,引入了像素平衡损失函数,以抵消动态单元的高代表性。 结果显示在第七节,随后是结论在第八节
Filtered Dynamic Input
如图1所示,由多个传感器提供的动态占用栅格图(DOGMa)[16]可以提供鸟瞰图,例如360°的环境表示。DOGMa数据以R^|Ω|×W×H提供,空间宽度W和高度H分别指向东和北。 通道Ω={MO,MF,vE,vN,σ2vE,σ2vN,σ2vE,vN} 包含自由空间MF∈[0,1]和占用MO∈[0,1]的Dempster-Shafer质量,指向东vE和向北vN的速度以及速度方差和协方差。占用概率的计算公式为:
高PO表示图1中的暗像素。尽管图1仅包含3个RGB通道,但所有通道Ω和扩展都可用于馈送神经网络。
由于两个主要优点,有意避免将原始传感器数据输入到CNN中:1)DOGMa单元为每个单元提供带有协方差矩阵的速度估计,从而导致空间占用和速度分布。 为此,该算法使用了与时域中的等待时间和方差有关的高级传感器融合技术,这些技术很难通过基于学习的方法来补偿[8]。 2)DOGMa输出格式与传感器设置无关,例如将雷达和激光或仅具有不同范围的激光融合在一起,这在训练具有变化传感器的神经网络时可能是有利的。 通常,该算法使用工程模型来利用依赖传感器的优势。 这些模型可以,例如,考虑从激光测量获得的自由空间,或来自雷达的自我运动补偿的多普勒速度[16]。 如果传感器规格发生变化,则可以轻松调整参数
DOGMa基于顺序蒙特卡洛滤波。 网格单元具有固定的位置和宽度,并且地图边框会移动单元宽度,以使移动中的自我车辆保持在中心单元内。 过滤器算法在两个模块中运行:在第一个模块中,使用传感器特定的测量模型将传感器数据转换为经典的占用网格图[17],[18]。 这些网格用作第二个模块的通用数据接口,一个粒子过滤器估计空间占用率和速度分布[16]。 每个网格单元均独立更新,并且不对单元之间的交互进行建模。 尽管提出了从网格单元中提取建模对象的手工方法[19],但在这项工作中,不需要在CNN输入或标记时生成对象。 由于在Dempster-Shafer域[20]中的实现,DOGMa提供了有关占用率,自由空间和不可观察区域的概率信息。
Automatic Output Label Generation
标注通常是一个广泛的过程,也是监督学习中的主要缺点之一。幸运的是,根据场景预测的性质,可以在以后的时间观察到所需的算法输出。一旦可以应用自动标签提取,生成培训数据就相对容易了。但是,大约99.75%的环境数据是静态的,这可能会使学习算法偏向于预测未来等于当前输入样本的琐碎结果。因此,需要对代表性不足的动态环境进行细分以应用平衡方法。文献[16]提出了一种在感知时在线对动态细胞进行分类的方法。但是,当静态物体进入视场或在嘈杂区域(例如,静态物体的边界)时,使用当前的像元速度估计会导致分类错误。由于标签提取可以离线进行,因此可以使用将来和过去的使用过程来实现更好的分类,从而例如区分正在生长的静态部分和实际运动的对象.
如图2所示,对于每个单元,提取准时间连续PO(t)。该图说明了在恒定空间坐标(E,N)下针对网格单元的PO(t)的提取,而自我车辆是 自身在动态环境中移动。 期望的预测结果是一个序列:
其中时间步长序列k =(1、2,…)可以在CNN的相应输出通道中表示。 另外,需要分割成静态和动态部分。 因此,一个可以写做:
在静态环境中具有恒定的占用概率PO,s和描述占用概率的序列(PO,d(k))完全源自动态元素。可以通过在静态和动态时间ts和td中按单元对数据进行划分来在时域中自动进行分段:当对象遍历某个单元时,DOGMa中的贝叶斯滤波器会平滑收敛到最大PO,而当目标遍历单元时,它会回到静态水平。物体离开细胞(见图2)。 PO(t)的上升接着信号的下降被用来检测动态对象的存在,因此之间的时间定义了间隔td。该计算基于二阶导数,然后进行非最大抑制。在离线提取序列中,通过将td内的时间步长(PO(k))设置为max(PO(td))来校正DOGMa滤波器的收敛延迟。曲线PO(t)可能非常嘈杂,尤其是在未知区域(PO = 0.5)或静态,自由和未知之间的空间过渡时。因此,使用时域中的高斯滤波器对Ω中的数据进行平滑处理。相应地平滑了空间域中的噪声,例如单个动态单元。
最后,(3)中的恒定静态PO,s由ts∈(t0,t0 + T)\ td的PO,s(ts)的中位数计算,其中t0表示DOGMa输入时间,T表示预测范围。 R | T |×W×H的网络输出提供了通道T = {PO,s,PO,d(1),PO,d(2),…,PO,d(| T | − 10)
CNN Architecture
深度神经网络架构可以利用DOGMa输入中的遥远关系。 但是,输出结构也应提供空间分布。 [21](DeconvNet)和[22](Fully Convolutional Networks,FCN)的网络体系结构在按比例缩减级联之后提供按比例缩放层。 这些方法旨在从单个输入图像进行像素精确的图像分割。 Shelhamer和Long [22] [23]周围的小组使用Zeiler和Fergus [24]提出的去卷积运算来缩小采样的特征图的大小,以实现可视化目的。 上采样是在单层中执行的,而较早的层结果则具有较高的分辨率,用于获得精细的输出图。 与可学习的内核相反,[21]和[25]的作者使用[26]的解池方法。[22]使用单个上采样步骤,[21]分阶段执行下规模镜像下采样阶段的升级,并重用最大池下规模的索引以通过下池进行上规模。 通过在每个解池层中进行后续卷积,可以使所得的稀疏特征图变得密集。 在我们的方法中,我们遵循由[21]提出的,由按比例缩小的级联和按比例放大的阶段进行镜像处理的单个输入DOGMa的策略。 但是,我们选择了可学习的反卷积内核而不是解池,并结合了按比例缩小阶段的绕过结果。
除了像素分类,我们的目标是在未来的时间步长预测占用的单元格。 此外,网络将环境的静态和动态部分分段,并在一个通道中传递静态网格单元的占用率,而在其余通道中传递动态单元的占用率。