文章:WoodScape: A multi-task, multi-camera fisheye dataset for autonomous driving

作者:Senthil Yogamani, Ciaran Hughes, Jonathan Horgan, Ganesh Sistu, Padraig Varley, Derek O’Dea,

编辑:点云PCL

主页:https://github.com/valeoai/WoodScape.git

欢迎各位加入知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。

公众号致力于点云处理,SLAM,三维视觉,高精地图等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。文章未申请原创侵权或转载联系微信cloudpoint9527。

摘要

鱼眼摄像头通常用于监控、虚拟现实和特别是汽车应用中,以获得大范围的视野。尽管它们广泛使用,但很少有公开的数据集,用于详细评估计算机视觉算法在鱼眼图像上的性能。我们发布了第一个大规模的鱼眼汽车数据集,命名为WoodScape,以纪念1906年发明鱼眼相机的Robert Wood。WoodScape包括四个环视摄像头和九项任务,包括分割、深度估计、3D边界框检测和污染检测。对于超过10,000张图像提供了40个类别的语义实例级注释,其他任务的标注则提供了超过100,000张图像。通过WoodScape,我们希望鼓励社区为鱼眼相机调整计算机视觉模型,而不是使用简单的矫正方法。

a9fc507dedff4582ab22c58139c04fb1.png

图1:介绍了WoodScape,这是第一个专门用于自动驾驶的鱼眼图像数据集。它包含四个摄像头,覆盖360°,配备了高精激光扫描仪、惯性测量单元(IMU)和全球导航卫星系统(GNSS)。图中展示了九项任务的标注,特别是3D物体检测、深度估计(叠加在前置摄像头上)和语义分割。

主要贡献

WoodScape是一个综合性的数据集,使用图2所示的四个鱼眼摄像头在车辆周围进行360°感知。

20159193e676637397aa15d8e444cab8.png

图2:来自全景摄像头网络的样本图像,显示了宽广的视场和360°的覆盖范围。

它旨在补充已经存在的汽车数据集的范围,在这些数据集中只有狭窄的视场图像数据:其中,KITTI 是第一个拥有各种任务的开创性数据集,推动了许多自动驾驶研究;Cityscapes提供了第一个全面的语义分割数据集,而Mapillary提供了一个规模更大的数据集;Apolloscape 和BDD100k是更近期的数据集,将标注规模进一步推向前进。WoodScape的独特之处在于它提供了鱼眼图像数据,以及一系列综合性的标注类型。这些不同数据集的比较摘要在表1中提供。WoodScape的主要贡献如下:

  • 第一个包含超过10,000张图像的鱼眼数据集,包含实例级别的语义标注。

  • 四摄像头九任务数据集,旨在鼓励统一的多任务和多摄像头模型。

  • 引入了一项新颖的污染检测任务,并发布了首个此类数据集。

  • 提出了一种高效的3D框检测任务度量标准,将训练时间缩短了95倍。

内容概述

鱼眼摄像头在汽车应用中具有明显的优势。由于其极宽的视场,它们可以用最少的传感器观察到车辆的全周围,通常只需要四个摄像头就可以实现全方位的覆盖。然而,这种优势伴随着鱼眼摄像头展现出的投影几何形状明显更复杂的缺点,鱼眼摄像头的图像显示出严重的畸变。标准计算机视觉模型不容易推广到鱼眼相机,因为存在大量的非线性畸变。例如对于标准卷积神经网络(CNN),平移不变性会丧失。为了开发适用于鱼眼相机的算法,一种朴素的方法是执行矫正操作,以便可以应用标准模型。最简单的去畸变方法是将像素重新映射到一个矫正图像,如图4(a)所示。

58bd96bf891efc0c538994dc37b042ba.png

图4:去除鱼眼图像的畸变:(a)矫正到矩形;(b)分段线性矫正;(c)圆柱形矫正。左边:原始图像;右边:去畸变后的图像。

缺失的视场可以通过如图4(b)所示的多个线性视口来解决。然而,在从一个平面到另一个平面的过渡区域存在问题。这可以看作是对鱼眼镜头曲面的分段线性逼近。图4(c)展示了使用圆柱形视口的准线性校正,其中在垂直方向上是线性的,垂直的物体如行人被保留下来。然而,在水平轴上存在二次畸变。在许多情况下,这提供了一个合理的折衷方案,但仍然存在局限性。

aca5aaa4671adddbe90abbccf9277443.png

概述WoodScape数据集 

数据集采集:WoodScape数据集是一项全面的数据集,包括来自美国、欧洲和中国三个不同地理位置的多样化数据。这些数据涵盖了轿车和多功能车,保证了不同机械配置传感器的充分混合。驾驶场景划分为高速公路、城市驾驶和停车场使用案例。WoodScape提供了所有传感器的内部和外部校准以及时间戳文件,以实现数据同步。此外,还包括有关车辆机械方面的数据,如轮胎周长和轴距。数据质量经过多个阶段的严格质量检查。

传感器信息:WoodScape数据集记录了多种传感器的信息,包括4个1MPx RGB鱼眼摄像机、1个以20Hz旋转的激光雷达、1个GNSS/IMU、1个具有SPS的GNSS定位和车辆总线上的航向数据。这些传感器的多样性为数据集提供了多个自动驾驶任务的标签,包括语义分割、单目深度估计、目标检测(2D和3D边界框)、视觉里程计、视觉SLAM、运动分割、污染检测和端到端驾驶(驾驶控制)。

数据质量:WoodScape确保了数据的高质量,包括数据采集过程中的多个质量检查阶段和高技能评审员对注释数据的质量保证。激光扫描仪点云数据经过准确的预处理,为深度估计和视觉SLAM等任务提供了密集的点云地面真值。此外,WoodScape提供了40个类别的标签,包括主要类别的分布。

数据集的独特性:WoodScape数据集的独特之处在于,它提供了鱼眼图像数据,以及各种任务的数据,任务数量多达九个,包括污染镜头检测等全新任务。图像分辨率为1MPx 24位,视频以30fps无损压缩格式提供,持续时间从30秒到120秒不等。数据集还提供了一组使用真实相机模型的合成数据,可用于研究额外任务。总之,WoodScape数据集为自动驾驶领域的计算机视觉研究提供了丰富而多样化的数据资源。

90bfccdcae157a47ff7cec49be3d6a69.gif

在表1中,我们将流行数据集的几个属性与WoodScape进行了比较。除了提供鱼眼数据外,我们为许多任务提供了比通常多得多的数据(总共九个),提供了完全新颖的任务,如污染镜头检测。

0fcd626ae4a751c4b235deaf480f0f4c.png

我们数据集中提供的激光扫描仪点云经过商业SLAM算法的准确预处理,为深度估计和视觉SLAM等任务提供了更密集的点云地面真值,如图5所示。

60e9cb0921e58bf23696d6969d3e19b4.png

图5:停车场的SLAM点云俯视图。物体的高度以颜色编码(绿色表示高值,蓝色表示中等值,灰色表示低值)。

实验

简要描述每个任务的度量标准和基线实验,并在表2中总结它们。

1512a61dafe455a28a0dad5e53aeedf5.png

be91e9ee4b35141d577b59574367c756.png

图6:WoodScape语义分割类别的实例分布。

46c0709b08e8b75e900604e9ecc7dfa9.png

图7:使用ENet进行分割的定性结果(顶部)和使用Faster RCNN进行目标检测的结果(底部)。

f4f0dd6604e7907032c216c43c880192.png

图8 污渍标注

a3fd5b0eea950b3c692adda2c7fcbb63.png

图9:基于原始鱼眼图像的视觉SLAM基线结果(右)

0be5af246c73663eae518d3723736fcc.png

图10:模拟鱼眼光学效应的合成图像

总结

本文提供了一个广泛的多摄像头鱼眼数据集,用于自动驾驶,涵盖了九项任务的注释,我们希望通过发布这个数据集,鼓励开发原生的鱼眼模型,而不是对鱼眼图像进行校正并应用标准模型。在深度学习算法的情况下,这可以帮助我们了解是否可以学习空间畸变,或者是否必须明确建模。在未来的工作中,我们计划探索和比较各种校正方法,以及在CNN模型中明确地引入鱼眼几何结构。

以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除

63e192da041019b834f093ab7f9a6239.png

扫描二维码

                   关注我们

让我们一起分享一起学习吧!期待有想法,乐于分享的小伙伴加入知识星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉,点云,高精地图,自动驾驶,以及机器人等相关的领域。

分享与合作方式:微信“cloudpoint9527”(备注:姓名+学校/公司+研究方向) 联系邮箱:dianyunpcl@163.com。

为分享的伙伴们点赞吧!

fcbc93c22d6cfe1d198673af6f2979fb.gif

Logo

NVIDIA官方入驻,分享最新的官方资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐