跳转至

KITTI 数据集

707 个字 41 行代码 预计阅读时间 3 分钟

Abstract

该数据集用于评测立体图像 (stereo),光流 (optical flow),视觉测距 (visual odometry)3D 物体检测 (object detection) 3D 跟踪 (tracking) 等计算机视觉技术在车载环境下的性能。

KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达 15 辆车和 30 个行人,还有各种程度的遮挡与截断。

整个数据集由 389 对立体图像和光流图,39.2 km 视觉测距序列以及超过 200k 3D 标注物体的图像组成 [1] ,以 10Hz 的频率采样及同步。总体上看,原始数据集被分类为Road , City , Residential , CampusPerson。对于 3D 物体检测,label 细分为 car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram 以及 misc 组成。

数据集格式

结构

data
├── kitti
│   ├── ImageSets
│   ├── testing
│   │   ├── calib
│   │   ├── image_2
│   │   ├── velodyne
│   ├── training
│   │   ├── calib
│   │   ├── image_2
│   │   ├── label_2
│   │   ├── velodyne
│   │   ├── planes (optional)
  • image_2 2 号彩色相机所拍摄的图片(.png
  • calib 对应每一帧的外参(.txt
  • label_2 是每帧的标注信息(.txt
  • velodyne Velodyne64 所得的点云文件(.bin)

标定文件

KITTI 提供了三种标定文件,不需人工转换。

  • calib_cam_to_cam
  • calib_imu_to_velo
  • calib_velo_to_cam

ImageSets

  • train.txt:训练集 列表信息
  • test.txt:测试集 列表信息
  • val.txt:验证集 列表信息

image 文件

image 文件以 8 PNG 格式存储,如下所示:

velodyne 文件

velodyne 文件是激光雷达的测量数据(绕其垂直轴(逆时针)连续旋转,以 "000001.bin" 文件为例,内容如下:

7b14 4642 1058 b541 9643 0340 0000 0000
46b6 4542 1283 b641 3333 0340 0000 0000
4e62 4042 9643 b541 b072 0040 cdcc 4c3d
8340 3f42 08ac b541 3bdf ff3f 0000 0000
e550 4042 022b b841 9cc4 0040 0000 0000
10d8 4042 022b ba41 4c37 0140 0000 0000
3fb5 3a42 14ae b541 5a64 fb3f 0000 0000
7dbf 3942 2731 b641 be9f fa3f 8fc2 f53d
cd4c 3842 3f35 b641 4c37 f93f ec51 383e
dbf9 3742 a69b b641 c3f5 f83f ec51 383e
2586 3742 9a99 b741 fed4 f83f 1f85 6b3e
           .
           .
           .

点云数据以浮点二进制文件格式存储,每行包含 8 个数据,每个数据由四位十六进制数表示(浮点数,每个数据通过空格隔开。一个点云数据由四个浮点数数据构成,分别表示点云的 x、y、z、r(强度 or 反射值,点云的存储方式如下表所示:

calib 文件

calib 文件是相机、雷达、惯导等传感器的矫正数据。以 "000001.txt" 文件为例,内容如下:

P0: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 0.000000000000e+00 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00
P1: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.875744000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00
P2: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 4.485728000000e+01 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.163791000000e-01 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.745884000000e-03
P3: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.395242000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.199936000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.729905000000e-03
R0_rect: 9.999239000000e-01 9.837760000000e-03 -7.445048000000e-03 -9.869795000000e-03 9.999421000000e-01 -4.278459000000e-03 7.402527000000e-03 4.351614000000e-03 9.999631000000e-01
Tr_velo_to_cam: 7.533745000000e-03 -9.999714000000e-01 -6.166020000000e-04 -4.069766000000e-03 1.480249000000e-02 7.280733000000e-04 -9.998902000000e-01 -7.631618000000e-02 9.998621000000e-01 7.523790000000e-03 1.480755000000e-02 -2.717806000000e-01
Tr_imu_to_velo: 9.999976000000e-01 7.553071000000e-04 -2.035826000000e-03 -8.086759000000e-01 -7.854027000000e-04 9.998898000000e-01 -1.482298000000e-02 3.195559000000e-01 2.024406000000e-03 1.482454000000e-02 9.998881000000e-01 -7.997231000000e-01

label 文件

label 文件是 KITTI object 的标签和评估数据,以 "000001.txt" 文件为例,包含样式如下:

Truck 0.00 0 -1.57 599.41 156.40 629.75 189.25 2.85 2.63 12.34 0.47 1.49 69.44 -1.56
Car 0.00 0 1.85 387.63 181.54 423.81 203.12 1.67 1.87 3.69 -16.53 2.39 58.49 1.57
Cyclist 0.00 3 -1.65 676.60 163.95 688.98 193.93 1.86 0.60 2.02 4.59 1.32 45.84 -1.55
DontCare -1 -1 -10 503.89 169.71 590.61 190.13 -1 -1 -1 -1000 -1000 -1000 -10
DontCare -1 -1 -10 511.35 174.96 527.81 187.45 -1 -1 -1 -1000 -1000 -1000 -10
DontCare -1 -1 -10 532.37 176.35 542.68 185.27 -1 -1 -1 -1000 -1000 -1000 -10
DontCare -1 -1 -10 559.62 175.83 575.40 183.15 -1 -1 -1 -1000 -1000 -1000 -10
  • 1 列(字符串:代表物体类别(type)
  • 2 列(浮点数:代表物体是否被截断(truncated)
  • 3 列(整数:代表物体是否被遮挡(occluded)
  • 4 列(弧度数:物体的观察角度(alpha)
  • 5~8 列(浮点数:物体的 2D 边界框大小(bbox)
  • 9~11 列(浮点数3D 物体的尺寸(dimensions)
  • 12-14 列(整数3D 物体的位置(location)
  • 15 列(弧度数3D 物体的空间方向(rotation_y)
  • 16 列(整数:检测的置信度(score只有测试集中有

Reference


最后更新: 2024年5月29日 20:43:37
创建日期: 2024年5月29日 20:43:37
回到页面顶部