KITTI 数据集 ¶
约 543 个字 11 行代码 预计阅读时间 2 分钟
Abstract
waymo 提供了两种数据集,motion
与 perception
两种,其中 motion
是鸟瞰图,官网中有介绍,主要用于轨迹预测之类的任务,perception
主要用于目标检测跟踪之类的任务,是第一视角,有相机和雷达信息。
Waymo 包含 798 个训练场景、202 个验证场景和 150 个测试场景,每个场景的时长为 20 s。Waymo 数据集的标注频率比 nuScenes 高 5 倍,场景数量是 nuScenes 数据集的 3 倍,有数量更多且更密集的 2D/3D 标签。Waymo 数据集对自动驾驶算法的鲁棒性和泛化能力提出了更高的要求,是目前为止最大、最多样化的数据集。
数据集格式 ¶
结构 ¶
data
├── waymo
│ ├── waymo_format
│ │ ├── training
│ │ ├── validation
│ │ ├── testing
│ │ ├── gt.bin
│ │ ├── cam_gt.bin
│ │ ├── fov_gt.bin
│ ├── kitti_format
│ │ ├── ImageSets
Ground Truth Labels¶
数据集中对汽车、行人、交通标志、自行车人员进行了详细标注。对于激光雷达数据,将每一个物体标注为 7 自由度 3D bbox:(cx, cy, cz, l, w, h, θ)。其中 cx, cy, cz 表示为 bbox 中心坐标,l, w, h 表示为物体长宽高,θ 表示为物体偏航角,此外对于每一个物体还标注了一个唯一的追踪 ID 编号。
图像标注中将每一个物体标注为 4 自由度 2D bbox:(cx, cy, l, w)。其中 cx, cy 表示为 bbox 中心图像坐标,l 表示为物体长度,w 表示为物体宽度。
此外,还将标注物体划分为了两个难度:LEVEL_2 为物体对应激光雷达点数少于 5 个,其余则划分为 LEVEL_1。
Tasks¶
数据集任务划分为 2D 和 3D 物体检测和追踪任务,训练集场景有 798 个,验证集场景有 202 个,测试集场景有 150 个。
Experiments¶
对于 3D 物体检测,Waymo 提供了一个 Baseline,其使用的检测方法是 PointPillars。对于 2D 物体检测,使用了 Faster R-CNN 作为 baseline,对于 3D 物体追踪,使用了 AB3DMOT 作为 Baseline。
Waymo 转换 COCO 格式 ¶
Reference¶
创建日期: 2024年5月29日 21:40:42