CV常用数据集汇总
本文最后更新于:2021年1月8日 晚上
I. MNIST
深度学习领域的“Hello World!”,最早的深度卷积网络LeNet便是针对此数据集的,当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程。
- MNIST是一个手写数字的数据集,它有60000个训练样本集和10000个测试样本集
- 图片一共有10类,对应阿拉伯数字0-9,每个样本图像的宽高为28*28。
- 此数据集是以二进制存储的,不能直接以图像格式查看;在机器学习中,我们一般将它转成784维的向量作为输入层的输入
- 数据集大小:~50MB
- 下载地址:地址1
II. ImageNet
MNIST将初学者领进了深度学习领域,而Imagenet数据集对深度学习的浪潮起了巨大的推动作用。深度学习领域大牛Hinton在2012年发表的论文《ImageNet Classification with Deep Convolutional Neural Networks》在计算机视觉领域带来了一场“革命”,此论文的工作正是基于Imagenet数据集。
- ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个单词,ImageNet平均提供了大约1000个图像来说明每个单词。
- Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注
- 从2010年起,ImageNet每年都会举办一场ImageNet大规模视觉识别竞赛。在ImageNet上最重要的几个深度学习模型有AlexNet、VGGNet、GoogLeNet和ResNet(深度残差网络)。
- 数据集大小:~1TB
- 下载地址:地址1,地址2
III. COCO
COCO(Common Objects in Context)是由微软赞助开发的一个新的图像识别、分割和图像语义数据集
其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。
数据集大小:~40GB
下载地址:地址1
IV. CIFAR-10
CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。
CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。
CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
下载地址:地址1
V. PASCAL VOC数据集
PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。
PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。
PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能
数据集大小:~2GB
VOC数据格式
.
└── VOCdevkit #根目录
└── VOC2012 #不同年份的数据集,这里只下载了2012的,还有2007等其它年份的
├── Annotations #存放xml文件,与JPEGImages中的图片一一对应,解释图片的内容等等
├── ImageSets #该目录下存放的都是txt文件,txt文件中每一行包含一个图片的名称,末尾会加上±1表示正负样本
│ ├── Action
│ ├── Layout
│ ├── Main
│ └── Segmentation
├── JPEGImages #存放源图片
├── SegmentationClass #存放的是图片,分割后的效果,见下文的例子
└── SegmentationObject #存放的是图片,分割后的效果,见下文的例子
VI. Open Images数据集
- 该数据集由Google开发,包含了9,011,219张图像的训练集、41,260张图像的验证集以及125,436张图像的测试集。
- 其图片通过标签注释被分为6000多类,相比于ImageNet(1000类)包含更真实生活的实体存在,它足够让我们从头开始训练深度神经网络。
- 不足的可能就是它只提供图片URL,使用起来可能不如直接提供图片方便。
- 下载地址1 下载地址2
参考链接
【3】常用的机器视觉数据集介绍
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!