对SLAM和主动驾驶定位的根究,最新主动驾驶视觉SLAM办法综述!
来源 | 主动驾驶之心
知圈 | 进“滑板底盘群”请加微yanzhi-6,备注底盘
摘要
简介
跟着机器人手艺和人工智能(AI)手艺的开展,主动驾驶车辆(汽车)已成为工业界和学术界的一个热门话题(Badue等人,2021)。为了平安导航,它需要为四周情况创建一个准确的表达,并估量此中的自车形态(即自车定位)。传统的定位办法基于GPS或实时动态(RTK)定位系统(Cadena等人,2016b)。然而,因为信号反射、时间误差和大气前提,GPS的丈量误差限造在十几米以内,那关于车辆导航来说是不成承受的,出格是当车辆在隧道和城市峡谷场景中行驶时(Cheng等人,2019)。RTK可以通过固定校准基站的内部校正信号来校正那些误差,但那种系统依靠于成本较高的附加根底设备(Infotip Service GmbH,2019)。SLAM办法被认为是主动驾驶车辆定位和导航的优良处理计划,它能够实时估量挪动车辆的姿势,同时构建四周情况的地图(Durrantwhyte和Bailey,2006)。根据传感器类型的差别,SLAM办法次要分为两类:LIDAR SLAM和视觉SLAM。因为激光雷达SLAM比视觉SLAM启动得早,因而在主动驾驶仪的利用中相对成熟(Debeunne和Vivet,2020a)。与相机比拟,激光雷达传感器对光照和夜间的改变不太灵敏。此外,它还能够供给具有更大视野(FOV)的3D地图信息。然而难以承担的成本和大规模的长开发周期招致激光雷达传感器难以普及。比拟之下,视觉SLAM具有信息丰富、易于安拆的长处,而且使系统更廉价、更轻。目前视觉SLAM系统能够在微型小我计算机(PC)和嵌进式设备中运行,以至能够在智妙手机等挪动设备中运行(Klein和Murray,2009)。
与室内或室外挪动机器人差别,主动驾驶车辆具有更复杂的参数,出格是当车辆在城市情况中主动驾驶时。例如,情况的面积更大,有动态障碍,因而视觉SLAM办法的性能不敷准确和鲁棒(Cadena等人,2016a)。诸如误差累积和照明改变以及快速运动等问题招致有问题的估量。已经考虑了各类办法来处理与主动驾驶车辆相关的那些问题。例如用于视觉里程(VO)的基于特征点/间接/半间接/点线合成的算法(Singandhupe和La,2019),以及用于姿势估量的扩展卡尔曼滤波器(EKF)/基于图的优化算法(Takleh等人,2018)。同时,基于视觉的多传感器合成办法也为进步自主系统的精度而引起了极大的存眷。
在基于视觉的SLAM系统中,除了建图模块之外,传感器数据的搜集(如相机或惯性丈量单位(IMU)、VO和视觉惯性里程计(VIO)系统)在前端完成,而优化、闭环在后端完成。重定位始末被认为是进步视觉SLAM系统准确性的附加模块(Taketomi等人,2017)。本文综述了视觉SLAM办法。那次要是从视觉SLAM系统的定位精度方面考虑的,而且已经尽可能详尽地研究了可能利用于主动驾驶场景的办法,包罗纯视觉SLAM办法、视觉-惯性SLAM办法和视觉-LIDAR-惯性SLAM办法,而且将论文先前工做的定位精度与公共数据集上的已知办法停止了比力。那篇综述对视觉SLAM手艺停止了详尽的综述,能够为主动驾驶汽车范畴的新研究人员供给友好的指南。此外,它能够被视为一本词典,供有体味的研究人员在将来的工做中觅觅可能的标的目的。
视觉SLAM原理
视觉SLAM系统的典范构造可分为五个部门:相机传感器模块、前端模块、后端模块、回环模块和建图模块。如图1所示,相机传感器模块负责搜集图像数据,前端模块负责跟踪两个相邻帧之间的图像特征,以实现初始相机运动估量和部分建图,后端模块负责前端的数值优化和进一步的运动估量,回环模块负责通过计算大规模情况中的图像类似度来消弭累积误差,建图模块负责重建四周情况(Gao等人,2017)。
展开全文
相机传感器
根据传感器类型的差别,常见的视觉传感器次要可分为单目、双目、RGB-D和事务摄像机。摄像机传感器如图2所示。
市场上时髦的视觉传感器造造商和产物如下,但不限于:
MYNTAI:S1030系列(带IMU的双目摄像头)、D1000系列(深度摄像头)、D1200系列(适用于智妙手机);
Stereolabs ZED:Stereolab ZED相机(深度范畴:1.5至20米);
Intel:200系列、300系列、Module D400系列、D415(主动红外双目、滚动快门)、D435(主动红外双目、全局快门)、D4 35i(集成IMU);
微软:Azure Kinect(适用于带IMU的麦克风)、Kinectc-v1(构造光)、Kinect-v2(TOF);
Occipital Structure:Structure Camera (利用于ipad);
三星:第2代和第3代动态摄像头和基于事务的视觉处理计划(Son等人,2017b)。
MYNTAI:S1030系列(带IMU的双目摄像头)、D1000系列(深度摄像头)、D1200系列(适用于智妙手机);
Stereolabs ZED:Stereolab ZED相机(深度范畴:1.5至20米);
Intel:200系列、300系列、Module D400系列、D415(主动红外双目、滚动快门)、D435(主动红外双目、全局快门)、D4 35i(集成IMU);
微软:Azure Kinect(适用于带IMU的麦克风)、Kinectc-v1(构造光)、Kinect-v2(TOF);
Occipital Structure:Structure Camera (利用于ipad);
三星:第2代和第3代动态摄像头和基于事务的视觉处理计划(Son等人,2017b)。
前端
视觉SLAM的前端被称为视觉里程计(VO)。它负责基于相邻帧的信息粗略地估量相机运动和特征标的目的。为了获得具有快速响应速度的切确姿势,需要有效的VO。目前,前端次要可分为两类:基于特征的办法和间接办法(包罗半间接办法)(Zou等人,2020)。本节次要回忆VO的基于特征的办法。关于半间接和间接办法在后文。
基于特征点的VO系统运行更不变,对光和动态目标相对不灵敏。具有高标准和优良扭转稳定性的特征提取办法能够大大进步VO系统的可靠性和不变性(Chen等人,2019)。1999年,Lowe(2004)提出了标准稳定特征变更(SIFT)算法,该算法在2004年得到了改进和开展。整个算法分为三个步调来完成图像特征点的提取和描述。(i) 通过高斯差分金字塔办法构建标准空间,并通过高斯微分函数识别感兴致的点。(ii)确定每个候选的位置和比例,然后找出关键点。(iii)将指向特征指定给关键点以获得描述子。
SIFT消耗大量计算。SURF(Herbert等人,2007)是SIFT的改进。它处理了SIFT运算量大、实时性差的缺点,连结了SIFT算子的优良性能。虽然如斯,SURF算法在利用于实时SLAM系统时具有更大的局限性。在包管性能的根底上,提出了一种愈加重视计算速度的特征提取算法。2011年,Viswanathan(2011)提出了一种基于模板和机器进修办法的部分角点检测办法,即FAST角点检测法。FAST算法将要检测的像素做为圆心,当具有固定半径的圆上的其他像素与圆心的像素之间的灰度差足够大时,该点被认为是角点。然而,FAST角点不具有标的目的和标准信息,它们不具有扭转和标准稳定性。2012年,Rublee等人(2012)提出了基于FAST角点和BRIEF描述符的定向FAST和扭转BRIEF(ORB)算法。该算法起首在图像上构建图像金字塔,然后检测FAST关键点并计算关键点的特征向量。ORB的描述符摘用了二进造字符串特征BRIEF描述符的快速计算速度(Michael等人,2010),因而ORB计算速度比具有实时特征检测的fast算法更快。此外ORB受噪声影响较小,具有优良的扭转稳定性和标准稳定性,可利用于实时SLAM系统。2016年,Chien等人(2016)比力并评估了用于VO利用的SIFT、SURF和ORB特征提取算法。通过对KITTI数据集的大量测试(Geiger等人,2013),能够得出结论,SIFT在提取特征方面最准确,而ORB的计算量较小。因而,做为计算才能有限的嵌进式计算机,ORB办法被认为更合适主动驾驶车辆的利用。
VO的其他图像特征描述子如下所列,但不限于DAISY(Tola等人,2010)、ASIFT(Morel和Yu,2009)、MROGH(Fan等人,2011a)、HARRIS(Wang等人,2008)、LDAHash(Fan等,2011b)、D-BRIEF(Trzcinski和Lepetit,2012)、Vlfeat(Vedali和Fulkerson,2010),FREAK(Alahi等人,2012),Shape Context(Belongie等人,2002)、PCA-SIFT(Ke和Sukthantar,2004)。
后端
后端领受前端估量的摄像机位姿,并优化初始位姿,以获得全局一致的运动轨迹和情况图(Sunderhauf和Protzel,2012)。与前端的多样化算法比拟,当前后端算法的类型次要可分为两类:基于滤波器的办法(如扩展卡尔曼滤波器(EKF)Bailey等人,2006)和基于优化的办法(例如因子图Wrobel,2001)。它们的描述如下:
基于滤波器的办法,该办法次要利用贝叶斯原理基于先前形态和当前看测数据来估量当前形态(Liu,2019)。典型的基于滤波器的办法包罗扩展卡尔曼滤波器(EKF)(Bailey等人,2006)、无迹卡尔曼滤波器(UKF)(Wan和Merwe,2000)和粒子滤波器(PF)(Arnaud等人,2000)。以典型的基于EKF的SLAM办法为例,它在小规模情况中的利用相对胜利。然而,因为协方差矩阵是存储的,其存储容量跟着形态量的平方而增加,因而在大型未知场景中的利用老是遭到限造。
基于优化的办法,基于非线性优化(图优化)办法的核心思惟是将后端优化算法转换为图的形式,以差别时刻的主题位姿和情况特征为顶点,顶点之间的约束关系由边表达(Liang等人,2013)。构建图形后,利用基于优化的算法来求解目标的位姿,以便顶点上要优化的形态更好地称心响应边上的约束。在施行优化算法之后,对应的图是目标运动轨迹和情况图。目前,大大都支流的视觉SLAM系统利用非线性优化办法。
回环
建图
主动驾驶汽车的一个根本构成部门是成立情况地图并在地图上定位的才能。建图是视觉SLAM系统的两项使命之一(即定位和建图),它在主动驾驶的导航、避障和情况重建中发扬着重要感化。一般来说,地图的表达能够分为两类:度量地图和拓扑地图。度量地图描述了地图元素之间的相对位置关系,而拓扑地图强调了地图元素间的毗连关系。关于典范的SLAM系统,度量地图能够进一步分为稀少地图和密集地图,稀少地图仅包罗场景中的少量信息,那合适于定位,而密集地图包罗更多信息,那有利于车辆根据地图施行导航使命。
SOTA研究
视觉SLAM
与前文描述的VO子系统类似,根据操纵图像信息的办法,纯视觉SLAM系统可分为两类:基于特征的办法和间接办法。基于特征的办法是指通过提取和婚配特征点来估量相邻帧之间的相机运动和构建情况地图。那种办法的缺点是提取特征点和计算描述符需要很长时间。因而,一些研究人员定见舍弃关键点和描述符的计算,然后产生间接办法(Zou等人,2020)。此外,根据传感器的类型,视觉SLAM能够分为单目、双目、RGB-D和基于事务相机的办法。根据地图的密度,可分为稀少、密集和半密集SLAM,介绍如下:
基于特征的办法: 2007年,Davison等人(2007)提出了第一个实时单目视觉SLAM系统,Mono-SLAM。实时特征patch标的目的估量的成果如图3(a)所示。在后端利用EKF算法来跟踪畴前端获取的稀少特征点,并利用相机位姿和界标点标的目的做为形态量来更新其均值和协方差。同年,Klein和Murray(2007)提出了一种并行跟踪和建图系统PTAM。它实现了跟踪和建图工做的并行化。特征提取和建图的过程如图3(b)所示,初次通过非线性优化办法区分了前端和后端,并提出了关键帧机造。关键图像串联毗连以优化运动轨迹和特征定向。许多随后的视觉SLAM系统设想也摘用了类似的办法。2015年,Mur Artal等人(2015)提出了ORB-SLAM,那是一种相对完全的基于关键帧的单目SLAM办法。与PTAM的双线程机造比拟,该办法将整个系统分为三个线程:跟踪、建图和回环。需要重视的是,特征提取和婚配(左列)、地图构建和轮回检测的过程都基于ORB特征(右列)。图3(c)是大学道路情况中单目相机的实时特征提取过程(左列)和轨迹跟踪和建图成果(右列)。2017年,Mur Artal等人提出了ORB-SLAM2的后续版本(Murartal和Tardos,2017)。该版本撑持回环检测和重定位,具有实时地图重用功用,此外,改进的框架还翻开了双目相机和RGB-D相机之间的接口。图3(d)的左列展现了ORB-SLAM2的双目轨迹估量和特征提取。图3(d)的右栏展现了RGB-D相机在室内场景中的关键帧和密集点云建图效果。图片中持续的绿色小方块构成了关键帧的轨迹,RGB-D相机构建的密集3D场景地图围绕着关键帧。
基于间接的办法: 2011年,Newcombe等人(2011b)提出了基于间接办法DTAM的单目SLAM框架。与基于特征的办法差别,DTAM摘用基于逆深度的办法来估量特征的深度。通过间接图像婚配计算相机的位姿,并通过基于优化的办法构建密集地图(图4(a))。2014年,Jakob等人(2014)提出了LSD-SLAM(图4(b)),那是间接办法在单眼视觉SLAM框架中的胜利利用。该办法将面向像素的办法利用于半密集单目SLAM系统。与基于特征的办法比拟,LSD-SLAM的灵敏度较低,但当相机内参和照明改变时,系统很懦弱。2017年,Forster等人(2017)提出了SVO(半间接视觉里程计)。它利用稀少间接法(也称为半间接法)来跟踪关键点(图4(c)的底部),并基于关键点四周的信息来估量位姿。图4(c)顶部展现了室内情况中稀少地图的轨迹。因为半间接办法跟踪稀少特征,既不计算描述符,也不处置密集信息,因而SVO具有较低的时间复杂度和较强的实时性。2016年,Engel等人(2018)提出了DSO,该办法还利用半间接办法以确保在更快的操做速度下获得更高的精度。然而,它们只是视觉里程计。因为贫乏后端优化模块和回环模块,系统的跟踪误差会跟着时间累积。图4(d)展现了DSO(单目视觉里程计)的3D重建和跟踪效果。间接法具有计算速度快、对弱特征前提不灵敏等长处。然而,它基于灰度级稳定的强烈假设,因而它比照明的改变十分灵敏。相反特征点办法具有优良的稳定性。2020年,Zubizarreta等人(2020)提出了一种间接稀少映射办法DSM,那是一种基于光度学束调整(PBA)算法的全单目视觉SLAM系统。表1总结了更先进的视觉SLAM框架的次要特征及其优缺点。除上述典型框架外,还研究了其他相关工做,如(i)稀少视觉SLAM;(ii)半密集视觉SLAM;(iii)密集视觉SLAM。正如你所看到的,视觉SLAM范畴有良多成就,论文只是对时髦的办法停止了回忆。即便视觉SLAM供给了优良的定位和建图成果,所有那些处理计划都有长处和缺点。在那项工做中,总结了“基于稀少的办法”、“基于密集的办法”和“基于特征的办法”的优缺点,“基于间接的办法”,“单目办法”,”双目办法“,”RGB-D办法“和”事务相机办法“可在表2中找到。
视觉-惯性SLAM
IMU传感器能够供给一个很好的处理计划,以处理当相机挪动到具有挑战性的情况中(较少的纹理和/或照明改变)时跟踪失败的问题,另一方面,视觉传感器能够填补IMU的累积漂移。那种视觉和IMU的连系被称为黄金同伴。因为相机和IMU的互补功用,在无人驾驶等范畴具有优良的开展前景(Sun和Tian,2019)。VI-SLAM的次要办法是将IMU信息连系到视觉SLAM系统的前端,该系统也称为视觉惯性里程计(VIO)系统。凡是,VI-SLAM系统可分为两类:基于滤波器的办法和基于优化的办法:
基于特征的办法:2007年,Mourikis和Roumeliotis(2007)提出了多形态约束卡尔曼滤波器(MSCKF),那是最早的基于扩展卡尔曼滤波器(EKF)算法的视觉惯性SLAM系统。与纯视觉里程计比拟,MSCKF(图5(a))能够在必然时间内适应更猛烈的运动和纹理缺失,具有更高的鲁棒性。2012年,Stephan(2012)提出了SSF(图5(b)),它是一种基于EKF和松耦合办法的时间延迟抵偿单传感器和多传感器合成框架。2013年,Li和Mourikis(2013)指出了MSCKF在形态估量过程中的纷歧致性。2017年,Paul等人(2017)提出了MSCKF2.0,那大大进步了准确性、一致性和计算效率。此外,ROVIO(鲁棒视觉惯性里程表)(Bloesch等人,2015)(图5(c))和MSCKF-VIO(Ke等人)(图6(d))也是近年来基于过滤办法的优良做品;
基于特征的办法:2007年,Mourikis和Roumeliotis(2007)提出了多形态约束卡尔曼滤波器(MSCKF),那是最早的基于扩展卡尔曼滤波器(EKF)算法的视觉惯性SLAM系统。与纯视觉里程计比拟,MSCKF(图5(a))能够在必然时间内适应更猛烈的运动和纹理缺失,具有更高的鲁棒性。2012年,Stephan(2012)提出了SSF(图5(b)),它是一种基于EKF和松耦合办法的时间延迟抵偿单传感器和多传感器合成框架。2013年,Li和Mourikis(2013)指出了MSCKF在形态估量过程中的纷歧致性。2017年,Paul等人(2017)提出了MSCKF2.0,那大大进步了准确性、一致性和计算效率。此外,ROVIO(鲁棒视觉惯性里程表)(Bloesch等人,2015)(图5(c))和MSCKF-VIO(Ke等人)(图6(d))也是近年来基于过滤办法的优良做品;
基于优化的办法:就基于优化的VI-SLAM系统而言,最典范的框架是OKVIS。2015年,Leutinegge等人提出了OKVIS,它利用IMU丈量值来揣测当前形态、空间点和二维图像特征,以构成重投影误差。揣测的IMU形态量和优化的参数构成IMU误差项,然后再投影误差与IMU误差相连系以停止优化。2017年,Tong等人(2017)提出了VINS-Mono,它被视为一种优良的单目VI-SLAM系统,前端摘用光流办法,后端摘用基于滑动窗口的非线性优化算法(Cheng等人,2021b)。此外,VINS-Mono的初始化办法值得重视,它摘用了不订交办法(以及VI-ORBSLAM Mur Artal和Tards,2017),该办法起首初始化纯视觉子系统,然后估量IMU(加速度计和陀螺仪)的误差、重力、比例和速度。通过KITTI和EuRoC数据集的测试,VINS Mono已被证明具有与OKVIS相当的定位精度,在初始化和环路闭合阶段具有更完全和鲁棒性。2019年,VINS-Mono团队提出了双目版本,并整合了GPS信息,VINS-Fusion(Tong等人,2019)。如图6(c)所示,因为增加了GPS丈量,它在户外情况中实现了优良的定位和建图效果,而且被认为是主动驾驶车辆范畴的一个优良利用。2020年,Campos等人(2020)提出了一种基于特征的密切集成视觉惯性SLAM系统ORB-SLAM3。那是通过更大后验(MAP)算法实现的更高效初始化过程的最新功效,而且它实现了多地图功用,该功用依靠于具有改进的召回率的新地点识别办法。此外,该系统可以利用单目、双目和RGB-D相机施行视觉、视觉-惯性和多地图SLAM。户外场景的尝试成果如图6(d)所示。ORB-SLAM3的管道与ORB-SLAM2类似,整个系统由三个线程构成:跟踪、部分建图和回环线程。此外,ORB-SLAM3能够在长时间的不良视觉信息中保存,当它丧失时,它会启动一个新的地图,当从头拜候地图区域时,它将与以前的地图无缝合并。表3总结了近年来视觉惯性SLAM框架中的次要算法。目前,基于优化的VI-SLAM办法已成为支流。除上述办法外,还有其他更先进的工做能够总结如下,但不限于BASALT、Kimera、ICE-BA、Maplab、StructVIO。
基于优化的办法:就基于优化的VI-SLAM系统而言,最典范的框架是OKVIS。2015年,Leutinegge等人提出了OKVIS,它利用IMU丈量值来揣测当前形态、空间点和二维图像特征,以构成重投影误差。揣测的IMU形态量和优化的参数构成IMU误差项,然后再投影误差与IMU误差相连系以停止优化。2017年,Tong等人(2017)提出了VINS-Mono,它被视为一种优良的单目VI-SLAM系统,前端摘用光流办法,后端摘用基于滑动窗口的非线性优化算法(Cheng等人,2021b)。此外,VINS-Mono的初始化办法值得重视,它摘用了不订交办法(以及VI-ORBSLAM Mur Artal和Tards,2017),该办法起首初始化纯视觉子系统,然后估量IMU(加速度计和陀螺仪)的误差、重力、比例和速度。通过KITTI和EuRoC数据集的测试,VINS Mono已被证明具有与OKVIS相当的定位精度,在初始化和环路闭合阶段具有更完全和鲁棒性。2019年,VINS-Mono团队提出了双目版本,并整合了GPS信息,VINS-Fusion(Tong等人,2019)。如图6(c)所示,因为增加了GPS丈量,它在户外情况中实现了优良的定位和建图效果,而且被认为是主动驾驶车辆范畴的一个优良利用。2020年,Campos等人(2020)提出了一种基于特征的密切集成视觉惯性SLAM系统ORB-SLAM3。那是通过更大后验(MAP)算法实现的更高效初始化过程的最新功效,而且它实现了多地图功用,该功用依靠于具有改进的召回率的新地点识别办法。此外,该系统可以利用单目、双目和RGB-D相机施行视觉、视觉-惯性和多地图SLAM。户外场景的尝试成果如图6(d)所示。ORB-SLAM3的管道与ORB-SLAM2类似,整个系统由三个线程构成:跟踪、部分建图和回环线程。此外,ORB-SLAM3能够在长时间的不良视觉信息中保存,当它丧失时,它会启动一个新的地图,当从头拜候地图区域时,它将与以前的地图无缝合并。表3总结了近年来视觉惯性SLAM框架中的次要算法。目前,基于优化的VI-SLAM办法已成为支流。除上述办法外,还有其他更先进的工做能够总结如下,但不限于BASALT、Kimera、ICE-BA、Maplab、StructVIO。
测试和评估
为了曲看天文解上述SLAM办法的定位效果,在装备Intel Core i7-9700 CPU、16 GB RAM和Ubuntu18.04+Melodic操做系统的统一机载计算机上测试了一些典型算法,并将其与我们之前的一项工做(Cheng等人,2021a)停止了比力。如Cheng等人(2021a)所述,基于传统的高斯-牛顿(G-N)线性迭代战略,提出了一种改进的相信域迭代战略,然后将该战略集成到VI-ORBSLAM框架中(Mur-Artal和Tards,2017),以实现更快的初始化和更高的定位精度。相信区域迭代战略的模子如图7所示。它连系了最速下降算法和G-N算法,用相信模子迫近目标函数。当解被认为是当前点四周模子函数的最小值时,则在每个迭代步调中求解最小化子问题。
需要估量的初始参数包罗比例因子、速度、重力以及加速度计和陀螺仪的误差。为了使所有变量都可看察到,纯ORB-SLAM系统需要施行几秒钟。该办法的详细步调如下:起首,施行视觉初始化过程,包罗ORB提取、地图初始化和初始位姿估量。其次,摘用IMU预集成手艺对IMU相机停止频次瞄准,生成关键帧。第三,提出了一种改进的基于相信域的迭代战略,用于陀螺误差估量,并对重力标的目的停止了细化。最初,在先前估量的根底上估量加速度计误差和视觉标准。论文之前工做的管道如图8所示。
EuRoC数据集V2_01_easy序列上算法的2D轨迹如图9所示。能够看到,与GT比拟,每个算法的测试成果都有差别水平的误差,论文算法的轨迹(红线)更接近GT(黑虚线),而VI-ORBSLAM(蓝线)的漂移更大。X、Y、Z标的目的的位置改变曲线如图10所示。欧拉角(即横摇、俯仰、偏航)的比力曲线如图11所示。表4展现了在整个11个序列中测试的统一CPU平台(i7-9700 CPU)中的定量均方根误差(RMSE)成果和帧速度,因为所有算法都摘用多线程,所以表4的第三列陈述了处置图像流时的帧速度。图12和图13别离供给了平移误差的RMSE和累积散布函数(CDF),图14和图15别离供给了定向误差的RMSE和累积散布功用(CDF)。能够晓得,论文之前的工做,一个快速单目视觉惯性系统,具有改进的迭代初始化战略办法,在几乎所有序列中实现了更佳的定位精度。现实上,因为超卓的初始化过程,论文的办法在六个序列和七个序列上供给了更佳的定向性能,即便系统无法提取ORB特征,系统也能够快速从头启开工做。
视觉-LIDAR SLAM
视觉和激光雷达有各自的长处,例如视觉能够从情况中获得大量的纹理信息,而且具有很强的场景识别才能,而LADAR不依靠光,可靠性好,间隔丈量精度更高。因而,在主动驾驶范畴,集成视觉和激光雷达的SLAM系统能够供给更智能、更可靠的情况感知和形态估量处理计划。它遵照具有三个次要步调的典范SLAM架构:(i)数据处置步调;(ii)估量;(iii)全局建图步调。根据视觉和激光雷达在SLAM系统中的差别比例,视觉激光雷达SLAM计划可分为三类:视觉引导办法、激光雷达引导办法和视觉激光雷达彼此校正办法。
视觉引导办法:视觉SLAM,特殊是关于单目视觉SLAM而言,老是无法有效地提取特征点的深度信息,而LIDAR是那方面的专家。为了填补视觉SLAM的缺点,研究人员试图将LIDAR数据合成到视觉SLAM系统中。视觉引导SLAM的代表做是LIMO(Graeter等人,2018)。该办法将激光雷达获得的空间点云投影到图像平面上,以估量视觉特征的标准,然后将激光雷达恢复的视觉特征标准和从相机位姿估量得到的特征标准构造误差项做为后端优化的约束。Shin等人(2018b)提出了一种利用LIDAR获取视觉SLAM的稀少深度点云的办法,因为相机的辨认率远高于LIDAR,该办法存在大量像素没有深度信息的问题。为领会决那个问题,De Silva等人(2018)在计算两个传感器之间的几何变更后,摘用了高斯回回模子来插值缺失的深度值。该办法利用激光雷达间接初始化图像中检测到的特征,其效果与利用RGB-D传感器的办法不异。还有一些研究将激光雷达集成到视觉SLAM中,以进步处理计划的利用价值,例如降低成本、进步性能和加强系统鲁棒性。一些研究在建图阶段利用视觉SLAM的姿势估量停止点云标注。Zhang等人(2018b)提出了一种基于一维激光雷达测距仪的单目视觉SLAM办法,该办法在低成本硬件上实现了有效的漂移校正,并用于处理单目SLAM中经常呈现的标准漂移问题。Scherer等人(2012)摘用无人机建图河流沿线的水道和植被,利用视觉里程丈量和IMU相连系的合成框架来估量形态,并利用激光雷达检测障碍物并建图河流鸿沟,但那种办法产生了包罗遮挡点的点云,那在必然水平上降低了形态估量的准确性。Huang等人(2019)处理了那一问题,并提出了一种包罗遮挡点检测和共面点检测机造的间接SLAM办法。
LIDAR引导办法:在LIDAR引导的办法方面,它摘用视觉信息来进步回环检测的准确性,或者在姿势估量阶段构建LIDAR特征变更误差和视觉重投影误差的结合优化函数来进步位姿估量的鲁棒性,例如Bai等(Bai等人,2016)利用卷积神经收集提取特征以实现回环检测,并通过设置婚配范畴有效制止环路闭合场景的失配,并通过特征压缩确保SLAM系统的实时性能。Liang等人(2016)利用扫描婚配和基于ORB特征的回环检测手艺来改进基于LIDAR的SLAM的弱性能。Zhu等人(2018)提出了一种利用视觉回环检测的3D激光SLAM办法,该办法通过利用视觉词汇袋的关键帧手艺来实现回路检测。此外,迭代比来点(ICP)办法(Arun等人,1987)也能够通过激光雷达和视觉合成停止优化。Pande等人(2011)利用视觉信息来估量刚体变更,然后提出了一个广义ICP框架。
视觉-激光雷达彼此校正办法:上述研究办法大多利用单一SLAM办法,并利用另一个传感器做为辅助设备。也有一些研究试图将两种SLAM办法连系起来,以彼此纠正。VLOAM(Zhang和Singh,2015)是视觉激光雷达彼此校正的典范实时办法。该办法利用激光雷达扫描圆内的视觉里程计估量的相机位姿来校正激光点云。点云运动失实,利用在相邻扫描校正之后从LIDAR点云估量的相对位姿来校无视觉估量姿势,并将校正后的点云映射到部分地图以停止后续位姿优化。Seo和Chou(2019)提出了一种并行SLAM办法,该办法同时利用激光雷达SLAM和视觉SLAM,其特征在于在后端利用两种形式的丈量残差来优化后端。Jiang等人(2019)利用LIDAR约束和特征点约束来定义图优化的成本函数,并构建了2.5D地图以加快回环检测过程。目前,基于视觉LIDAR合成的SLAM办法的研究功效和现实利用比视觉惯性合成少,需要进一步摸索和研究。
视觉引导办法:视觉SLAM,特殊是关于单目视觉SLAM而言,老是无法有效地提取特征点的深度信息,而LIDAR是那方面的专家。为了填补视觉SLAM的缺点,研究人员试图将LIDAR数据合成到视觉SLAM系统中。视觉引导SLAM的代表做是LIMO(Graeter等人,2018)。该办法将激光雷达获得的空间点云投影到图像平面上,以估量视觉特征的标准,然后将激光雷达恢复的视觉特征标准和从相机位姿估量得到的特征标准构造误差项做为后端优化的约束。Shin等人(2018b)提出了一种利用LIDAR获取视觉SLAM的稀少深度点云的办法,因为相机的辨认率远高于LIDAR,该办法存在大量像素没有深度信息的问题。为领会决那个问题,De Silva等人(2018)在计算两个传感器之间的几何变更后,摘用了高斯回回模子来插值缺失的深度值。该办法利用激光雷达间接初始化图像中检测到的特征,其效果与利用RGB-D传感器的办法不异。还有一些研究将激光雷达集成到视觉SLAM中,以进步处理计划的利用价值,例如降低成本、进步性能和加强系统鲁棒性。一些研究在建图阶段利用视觉SLAM的姿势估量停止点云标注。Zhang等人(2018b)提出了一种基于一维激光雷达测距仪的单目视觉SLAM办法,该办法在低成本硬件上实现了有效的漂移校正,并用于处理单目SLAM中经常呈现的标准漂移问题。Scherer等人(2012)摘用无人机建图河流沿线的水道和植被,利用视觉里程丈量和IMU相连系的合成框架来估量形态,并利用激光雷达检测障碍物并建图河流鸿沟,但那种办法产生了包罗遮挡点的点云,那在必然水平上降低了形态估量的准确性。Huang等人(2019)处理了那一问题,并提出了一种包罗遮挡点检测和共面点检测机造的间接SLAM办法。
LIDAR引导办法:在LIDAR引导的办法方面,它摘用视觉信息来进步回环检测的准确性,或者在姿势估量阶段构建LIDAR特征变更误差和视觉重投影误差的结合优化函数来进步位姿估量的鲁棒性,例如Bai等(Bai等人,2016)利用卷积神经收集提取特征以实现回环检测,并通过设置婚配范畴有效制止环路闭合场景的失配,并通过特征压缩确保SLAM系统的实时性能。Liang等人(2016)利用扫描婚配和基于ORB特征的回环检测手艺来改进基于LIDAR的SLAM的弱性能。Zhu等人(2018)提出了一种利用视觉回环检测的3D激光SLAM办法,该办法通过利用视觉词汇袋的关键帧手艺来实现回路检测。此外,迭代比来点(ICP)办法(Arun等人,1987)也能够通过激光雷达和视觉合成停止优化。Pande等人(2011)利用视觉信息来估量刚体变更,然后提出了一个广义ICP框架。
视觉-激光雷达彼此校正办法:上述研究办法大多利用单一SLAM办法,并利用另一个传感器做为辅助设备。也有一些研究试图将两种SLAM办法连系起来,以彼此纠正。VLOAM(Zhang和Singh,2015)是视觉激光雷达彼此校正的典范实时办法。该办法利用激光雷达扫描圆内的视觉里程计估量的相机位姿来校正激光点云。点云运动失实,利用在相邻扫描校正之后从LIDAR点云估量的相对位姿来校无视觉估量姿势,并将校正后的点云映射到部分地图以停止后续位姿优化。Seo和Chou(2019)提出了一种并行SLAM办法,该办法同时利用激光雷达SLAM和视觉SLAM,其特征在于在后端利用两种形式的丈量残差来优化后端。Jiang等人(2019)利用LIDAR约束和特征点约束来定义图优化的成本函数,并构建了2.5D地图以加快回环检测过程。目前,基于视觉LIDAR合成的SLAM办法的研究功效和现实利用比视觉惯性合成少,需要进一步摸索和研究。
Visual-LIDAR-IMU SLAM
目前,多传感器合成办法(如视觉-LIDAR-IMU合成SLAM)被认为适用于L3级此外主动驾驶,并引起了许多学者的存眷。基于激光雷达的SLAM系统能够获得普遍的情况细节,但在欠缺构造信息的场景(出格是主动驾驶场景)中很随便失败。例如,长长的走廊或开阔的广场。基于视觉的办法在具有丰富纹理信息的场景中表示优良,而且很随便从头识别场景(Shin等人,2020)。但它比照明、快速挪动和初始化过程的改变十分灵敏。因而,激光雷达和视觉传感器经常与IMU合成,以进步系统的准确性和鲁棒性。IMU能够消弭点云的运动失实,并在欠缺特征的情况中继续一段时间,同时能够搀扶帮助视觉系统恢复标准信息。目前,关于视觉-LIDAR-IMU合成SLAM的研究功效很少(Debeunne和Vivet,2020b)。一些学者测验考试利用视觉-IMU合成系统(即视觉-惯性系统,VIS)和LIDAR-IMU合成系统(如LIDAR-惯性系统,LIS),因为那两个零丁的模块进一步合成,以构成性能更好的视觉-LIDAR-IMU合成系统(LIDAR-视觉-惯性系统,LVIS)(Chen等人,2018)。本文还介绍了激光-IMU合成SLAM办法的研究情状。
基于LIDAR-IMU合成的计划分为两类: 松耦合和紧耦合计划。典型的松耦合计划是LOAM,(图16(a))和LeGO-LOMA(Shan和Englot,2018),此中IMU丈量信息未用于优化步调。与松耦合计划比拟,紧耦合计划处于开发阶段,那凡是大大进步了系统的准确性和鲁棒性。在当前公开的密切耦合系统中,LIO-Mapping(Ye等人,2019)利用VINS-Mono中的优化过程来最小化IMU残差和LIDAR丈量误差。因为LIO建图旨在优化所有丈量值,因而系统的实时效果较差。Zou等人提出了LIC合成,如图16(b)所示。它合成了点云中提取的LiDAR特征和稀少视觉特征,蓝色和红色的LiDARR点别离是平面和边沿特征,估量的轨迹用绿色标识表记标帜。为了节约计算资本,LIO-SAM(图16(c))引进了滑动窗口优化算法,利用因子图办法结合优化IMU和LIDAR的丈量约束。LINS(图16(e)),专门为空中车辆设想,利用基于误差形态的卡尔曼滤波器迭代批改待估量的形态量。Zhang和Singh(2018)提出了一种密切耦合的LVIO(激光雷达视觉惯性里程表)系统,该系统利用从粗到精的形态估量办法,从IMU揣测起头停止粗略估量,然后由VIO和LIO进一步细化。目前,LVIO算法是KITTI数据集上测试精度更高的算法。Zoo等人(2019)基于MSCKF框架实现了时空多传感器的在线校准。不幸的是,Zhang和Singh(2018)和Zoo等人(2019)施行的代码目前不是开源的。Shan等人(2021)于2021发布了最新的可视化LIDAR-IMU紧耦合计划:LVI-SAM(图16(d))。为了进步系统的实时性能,它利用了光滑和建图算法。做者将视觉IMU和激光雷达IMU视为两个独立的子系统。当检测到足够多的特征点时,那两个子系统将链接在一路。当此中一个子系统检测不到时,那两个子系统能够独立别离,因为不会彼此影响。表5总结了近年来视觉-惯性SLAM框架中的次要算法。
讨论
虽然如前所述,视觉SLAM在主动驾驶车辆的定位和地图绘造方面获得了浩荡胜利,但现有手艺还不敷成熟,无法完全处理当前的问题。当前基于视觉的定位和建图处理计划仍处于起步阶段。为了称心复杂城市情况中的主动驾驶要求,将来的研究人员面对许多挑战。那些手艺的现实利用应被视为一个系统的研究问题。此外,SLAM系统只是主动驾驶车辆复杂系统的构成部门,主动驾驶系统不克不及完全依靠SLAM系统,还需要装备掌握、目标检测、途径规划和决策等模块。本节讨论了主动驾驶车辆利用的视觉和基于视觉的SLAM的当前关键问题以及将来开展趋向的总体看察和揣度。
实时性能:主动驾驶车辆的利用要求视觉SLAM系统尽可能快速地响应。在视觉算法的情状下,10 Hz的频次被认为是车辆在城市道路上庇护主动驾驶所需的最小帧速度。一方面,已经提出了一些视觉算法来显式优化实时性能,另一方面,能够通过具有更高规格性能的硬件(如GPU)来进一步改进。此外,考虑到系统的准确性和鲁棒性,应考虑各类情况动态(例如场景改变、挪动障碍物和照明稳定量。目前,在特定场景下,如主动代客停车(APV),摄像头最常用于实现主动驾驶的障碍物检测或躲避和车道连结;
定位:城市道路场景的主动驾驶仍处于L2和L3之间的手艺攻关阶段,此中一个关键问题是车辆的位置精度很粗拙。论文看察到,高量量的主动驾驶离不开切确的位置,即便在未建图的情况中,车辆也能在厘米级的位置上导航。仅依靠精度约为10米的传统GPS领受机无法实现那种精度,凡是安拆高贵的差分GPS(DGPS)领受机来实现那一点,但它引进了冗余,而视觉SLAM算法自己可用于切确定位。如本文所述,研究了实现相对定位的其他独立于GPS的办法,如视觉-惯性合成办法、视觉-LIDAR合成办法和视觉-LIDAR-IMU合成办法,由IMU引进的漂移误差将指数地影响精度。在视觉LIDAR合成办法方面,因为欠缺本身的航位推算(DR)传感器(如编码和IMU传感器),主动驾驶车辆的定位鲁棒性无法包管。就视觉LIDAR-IMU合成办法而言,据论文所知,目前还没有成熟的基于视觉的合成SLAM算法胜利利用于实在世界的主动驾驶车辆,但近年来正在研究许多优良的合成办法。跟着激光雷达传感器成本的降低,我们认为视觉激光雷达IMU合成办法是主动驾驶车辆高精度定位的最末计划;
测试:目前现实世界中的施行还不敷够,那能够回因于本地立法和欠缺用于主动驾驶测试的开发车辆。在那里,论文看察到,几乎所有比来闪现的视觉SLAM做品都在公共数据集(例如KITTI、EuROC、TUM等)长进行了测试。诚然,它们是用于算法验证的绝佳数据集,但那些算法最末在实在世界情况中的表示仍有待验证。此外,对那些数据集的测试还将测试情况限造在捕获数据集的位置,那可能不是其他国度或城市的算法的有效目标。欠缺实在世界实现的另一个原因似乎是因为视觉SLAM算法的较高计算要求,那表白在线实现将需要具有足够和公用并行处置硬件的计算机。凡是的挪动计算机(如条记本电脑)不具备桌面GPU的并行计算才能。Nvidia的DRIVE PX2(Nvidia Corporation,2017a)等商用主动驾驶计算机价格高贵,凡是无法在预算内停止开发。令人鼓励的是,比来呈现了具有改进的视觉算法的高性能和低成本嵌进式设备,例如,Nvidia Jetson和快速VO(即前端或部门视觉SLAM)办法的优化能够促进那些实现;
将来开展趋向:因为视觉SLAM的复杂模块(例如前端、后端、回环和建图等)增加了硬件平台的计算承担,高性能挪动计算平台凡是限造了上述视觉SLAM算法在主动驾驶中的利用。基于多代办署理的视觉SLAM手艺似乎可以征服那个问题。目前,基于多智能体的可视化SLAM凡是用于无人机,假设它安拆在主动驾驶汽车长进行挪动计算,挪动计算机平台只负责处置前端数据,然后端优化和建图的过程则由长途办事器通过5G/6G通信收集来处置,我们相信,那将大大加快视觉SLAM在将来主动驾驶车辆中的利用;
实时性能:主动驾驶车辆的利用要求视觉SLAM系统尽可能快速地响应。在视觉算法的情状下,10 Hz的频次被认为是车辆在城市道路上庇护主动驾驶所需的最小帧速度。一方面,已经提出了一些视觉算法来显式优化实时性能,另一方面,能够通过具有更高规格性能的硬件(如GPU)来进一步改进。此外,考虑到系统的准确性和鲁棒性,应考虑各类情况动态(例如场景改变、挪动障碍物和照明稳定量。目前,在特定场景下,如主动代客停车(APV),摄像头最常用于实现主动驾驶的障碍物检测或躲避和车道连结;
定位:城市道路场景的主动驾驶仍处于L2和L3之间的手艺攻关阶段,此中一个关键问题是车辆的位置精度很粗拙。论文看察到,高量量的主动驾驶离不开切确的位置,即便在未建图的情况中,车辆也能在厘米级的位置上导航。仅依靠精度约为10米的传统GPS领受机无法实现那种精度,凡是安拆高贵的差分GPS(DGPS)领受机来实现那一点,但它引进了冗余,而视觉SLAM算法自己可用于切确定位。如本文所述,研究了实现相对定位的其他独立于GPS的办法,如视觉-惯性合成办法、视觉-LIDAR合成办法和视觉-LIDAR-IMU合成办法,由IMU引进的漂移误差将指数地影响精度。在视觉LIDAR合成办法方面,因为欠缺本身的航位推算(DR)传感器(如编码和IMU传感器),主动驾驶车辆的定位鲁棒性无法包管。就视觉LIDAR-IMU合成办法而言,据论文所知,目前还没有成熟的基于视觉的合成SLAM算法胜利利用于实在世界的主动驾驶车辆,但近年来正在研究许多优良的合成办法。跟着激光雷达传感器成本的降低,我们认为视觉激光雷达IMU合成办法是主动驾驶车辆高精度定位的最末计划;
测试:目前现实世界中的施行还不敷够,那能够回因于本地立法和欠缺用于主动驾驶测试的开发车辆。在那里,论文看察到,几乎所有比来闪现的视觉SLAM做品都在公共数据集(例如KITTI、EuROC、TUM等)长进行了测试。诚然,它们是用于算法验证的绝佳数据集,但那些算法最末在实在世界情况中的表示仍有待验证。此外,对那些数据集的测试还将测试情况限造在捕获数据集的位置,那可能不是其他国度或城市的算法的有效目标。欠缺实在世界实现的另一个原因似乎是因为视觉SLAM算法的较高计算要求,那表白在线实现将需要具有足够和公用并行处置硬件的计算机。凡是的挪动计算机(如条记本电脑)不具备桌面GPU的并行计算才能。Nvidia的DRIVE PX2(Nvidia Corporation,2017a)等商用主动驾驶计算机价格高贵,凡是无法在预算内停止开发。令人鼓励的是,比来呈现了具有改进的视觉算法的高性能和低成本嵌进式设备,例如,Nvidia Jetson和快速VO(即前端或部门视觉SLAM)办法的优化能够促进那些实现;
将来开展趋向:因为视觉SLAM的复杂模块(例如前端、后端、回环和建图等)增加了硬件平台的计算承担,高性能挪动计算平台凡是限造了上述视觉SLAM算法在主动驾驶中的利用。基于多代办署理的视觉SLAM手艺似乎可以征服那个问题。目前,基于多智能体的可视化SLAM凡是用于无人机,假设它安拆在主动驾驶汽车长进行挪动计算,挪动计算机平台只负责处置前端数据,然后端优化和建图的过程则由长途办事器通过5G/6G通信收集来处置,我们相信,那将大大加快视觉SLAM在将来主动驾驶车辆中的利用;
结论
比来研究的可用性对处理视觉SLAM问题有很大奉献。那项工做回忆了各类类型的视觉SLAM和/或基于视觉的SLAM办法及其在主动驾驶中的利用。目前视觉SLAM在主动驾驶汽车中的利用被认为还不成熟,但那仍然引起了普遍的存眷。因为主动驾驶公共数据集的易获取性,视觉SLAM算法老是易于验证,并鼓舞对新算法的研究。然而,虽然数据集的可用性促进了新的视觉SLAM算法的提出,但目前城市道路情况中的实在世界视觉SLAM利用仍然存在不敷。此外,数据集评估的成果往往与当地实在世界情况中的性能的完全指示不符,因而,主动驾驶车辆的利用有看呈现适用的视觉SLAM。通过回忆更先进的视觉SLAM算法,能够确认当前视觉SLAM系统的趋向是轻量化和多智能体协做,鼓舞将其利用于低功耗硬件,如嵌进式设备,而且多传感器合成算法被认为是主动驾驶车辆中视觉SLAM利用的核心。综上所述,主动驾驶范畴仍存在各类问题,特殊是视觉SLAM和主动驾驶车辆的连系需要摸索。虽然如斯,公家对主动驾驶汽车和即将推出的高性能挪动计算机的日益承认无疑将在不久的未来激发视觉SLAM的现实利用。
参考
[1] A review of visual SLAM methods for autonomous driving vehicles