深度学习经典数据集
深度学习经典数据集
图像识别领域
1. MNIST (1998)
- 数据集出处:MNIST数据集由Yann LeCun、Corinna Cortes和Christopher J.C. Burges创建,并由美国国家标准与技术研究所(NIST)提供。
- 简介:MNIST是一个手写数字图像数据集,包含了6万个训练样本和1万个测试样本。
- 学术评价:该数据集被广泛用于机器学习和深度学习算法的入门和基准测试,用于手写数字识别任务。
2. CIFAR-10 (2009)
- 数据集出处:CIFAR-10数据集由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton创建。
- 简介:CIFAR-10是一个10类图像数据集,包含10个不同的标签,每个标签有6000张32x32彩色图像,总共有60000张图像。数据集分为50000张训练图像和10000张测试图像。
- 学术评价:CIFAR-10是一个广泛用于计算机视觉和深度学习算法的图像数据集,用于图像识别和分类任务。
3. ImageNet (2011)
- 数据集出处:ImageNet数据集由李飞飞和普林斯顿视觉机器学习中心创建。
- 简介:ImageNet是一个大规模的图像分类数据集,包含14.2万个训练样本和5.4万个测试样本,总共有1000个不同的类别。每张图像都被标记为其中一个类别。
- 学术评价:ImageNet是计算机视觉和深度学习领域最著名的数据集之一,用于图像分类、对象检测和识别等任务。该数据集的挑战推动了深度学习算法的快速发展和创新。
4. Pascal VOC (2009 - 2012)
- 数据集出处:Pascal VOC数据集由Visual Object Classes Challenge组织提供。
- 简介:Pascal VOC是一个用于对象检测和图像分割的挑战赛数据集,包含约9千个带有标签的图像和视频帧。该数据集包含20个不同的对象类别。
- 学术评价:Pascal VOC是计算机视觉领域的重要挑战赛之一,推动了对象检测和图像分割技术的进步。该数据集也常用于评估和比较不同算法的性能。
5. COCO (2014 - 2017)
- 数据集出处:COCO数据集由Microsoft和研究机构共同创建。
- 简介:COCO是一个大规模的目标检测、分割和关键点检测数据集,包含超过20万个图像和超过50万个注释。该数据集包含80个不同的对象类别。
- 学术评价:COCO是计算机视觉领域最全面、最具有挑战性的数据集之一,推动了目标检测、分割和关键点检测技术的快速发展和创新。该数据集也被广泛应用于医学图像分析和自然语言处理领域。
6. ILSVRC (2012 - 2017)
- 数据集出处:ILSVRC数据集由ImageNet组织提供。
- 简介:ILSVRC是ImageNet挑战赛的一部分,用于图像分类任务。该挑战赛吸引了众多研究者和企业参加,评估算法的准确率和性能。ILSVRC包含约14万张训练图像和5万张测试图像。
- 学术评价:ILSVRC挑战赛推动了深度学习和计算机视觉领域的快速发展和创新,成为评估图像分类算法性能的重要基准之一。该挑战赛也促进了不同算法之间的竞争和发展。
7. Places (2014 - 2017)
-
数据集出处:Places数据集由麻省理工学院人工智能实验室创建。
-
简介:Places是一个大规模的场景分类数据集,包含超过36万张高质量图像,涵盖了365个不同的场景类别。该数据集旨在促进对图像场景分类的研究。
-
学术评价:Places数据集是计算机视觉领域的重要数据集之一,用于评估图像场景分类算法的性能。该数据集推动了场景分类技术的创新和发展,成为评估算法性能的重要基准之一。
目标检测领域
1. PASCAL VOC Challenge (2005 - 2012)
- 数据集出处:PASCAL VOC挑战赛由Visual Object Classes Challenge组织提供。
- 简介:PASCAL VOC挑战赛是一个目标检测和物体识别的挑战赛,评估算法在识别和定位图像中物体的能力。该挑战赛的数据集包含约10万个图像和20个不同的对象类别。
- 学术评价:PASCAL VOC挑战赛推动了目标检测和物体识别技术的快速发展和创新,成为评估算法性能的重要基准之一。该挑战赛也促进了不同算法之间的竞争和发展。
2. ImageNet ILSVRC (2012 - 2017)
- 数据集出处:ImageNet ILSVRC数据集由ImageNet组织提供。
- 简介:ImageNet ILSVRC是ImageNet挑战赛的一部分,用于目标检测任务。该挑战赛吸引了众多研究者和企业参加,评估算法的准确率和性能。ILSVRC包含约1.3万个类别的130万张图像。
- 学术评价:ImageNet ILSVRC挑战赛推动了深度学习和计算机视觉领域的快速发展和创新,成为评估目标检测算法性能的重要基准之一。该挑战赛也促进了不同算法之间的竞争和发展。
3. COCO (2014 - 2017)
- 数据集出处:COCO数据集由Microsoft和研究机构共同创建。
- 简介:COCO是一个大规模的目标检测、分割和关键点检测数据集,包含超过20万个图像和超过50万个注释。该数据集包含80个不同的对象类别。
- 学术评价:COCO是计算机视觉领域最全面、最具有挑战性的数据集之一,推动了目标检测、分割和关键点检测技术的快速发展和创新。该数据集也被广泛应用于医学图像分析和自然语言处理领域。
4. YOLO (You Only Look Once) Challenge (2016)
- 数据集出处:YOLO Challenge由Kaggle平台提供。
- 简介:YOLO Challenge是一个目标检测挑战赛,评估算法在实时目标检测任务上的性能。该挑战赛的数据集包含约15万个图像,涵盖了多个不同的对象类别。
- 学术评价:YOLO Challenge推动了实时目标检测技术的快速发展和创新,为相关领域的研究提供了重要的参考依据。该挑战赛也促进了不同算法之间的竞争和发展。
5. SSD (Single Shot MultiBox Detector) Challenge (2016)
- 数据集出处:SSD Challenge由Kaggle平台提供。
- 简介:SSD Challenge是一个目标检测挑战赛,评估算法在单次射击多框检测任务上的性能。该挑战赛的数据集包含约6万个图像,涵盖了多个不同的对象类别。
- 学术评价:SSD Challenge推动了单次射击多框检测技术的快速发展和创新,为相关领域的研究提供了重要的参考依据。该挑战赛也促进了不同算法之间的竞争和发展。
6. RetinaNet Challenge (2017)
- 数据集出处:RetinaNet Challenge由Kaggle平台提供。
- 简介:RetinaNet Challenge是一个目标检测挑战赛,评估算法在解决倾斜和遮挡问题上的性能。该挑战赛的数据集包含约3万个图像,涵盖了多个不同的对象类别。
- 学术评价:RetinaNet Challenge推动了解决倾斜和遮挡问题的技术的快速发展和创新,为相关领域的研究提供了重要的参考依据。该挑战赛也促进了不同算法之间的竞争和发展。
7. Faster R-CNN Challenge (2017)
- 数据集出处:Faster R-CNN Challenge由Kaggle平台提供。
- 简介:Faster R-CNN Challenge是一个目标检测挑战赛,评估算法在快速区域卷积神经网络上的性能。该挑战赛的数据集包含约2万个图像,涵盖了多个不同的对象类别。
- 学术评价:Faster R-CNN Challenge推动了快速区域卷积神经网络技术的快速发展和创新,为相关领域的研究提供了重要的参考依据。该挑战赛也促进了不同算法之间的竞争和发展。
推荐算法领域
合集:https://recbole.io/cn/dataset_list.html
1. Netflix (2006)
- 数据集出处:Netflix是一家在线电影租赁公司,其数据集由用户对电影的评分和电影元数据组成。
- 简介:Netflix数据集包含了超过4万个电影和1亿个用户评分,每个用户对每个电影都有一个评分值,范围从1到5分。
- 学术评价:该数据集被广泛用于推荐算法研究和基准测试,用于电影推荐任务。
2. Movielens (2007)
MovieLens | GroupLens
Movielens
- 数据集出处:Movielens是一个在线电影推荐系统,其数据集由用户对电影的评分和电影元数据组成。
- 简介:Movielens数据集包含了超过20万用户对超过1万部电影的评分,每个用户对每个电影都有一个评分值,范围从1到5分。
- 学术评价:该数据集被广泛用于推荐算法研究和基准测试,用于电影推荐任务。
3. Yahoo! Music (2008)
- 数据集出处:Yahoo! Music是一个音乐流媒体平台,其数据集由用户对歌曲的播放记录和歌曲元数据组成。
- 简介:Yahoo! Music数据集包含了超过30万首歌曲和超过100万用户的播放记录,每个用户对每个歌曲都有一个播放次数。
- 学术评价:该数据集被广泛用于音乐推荐算法研究和基准测试,用于歌曲推荐任务。
4. Amazon(2014)
https://jmcauley.ucsd.edu/data/amazon/links.html
- 数据集出处:Amazon是一个在线购物平台,其数据集由用户对商品的评分和商品元数据组成。包括电子产品、图书、服装、食品等多个类别。
- 简介:Amazon数据集包含了超过1亿个商品评分和超过1万个商品的信息。
- 学术评价:该数据集被广泛用于商品推荐算法研究和基准测试,用于商品推荐任务。
5. Foursquare (2014)
- 数据集出处:Foursquare是一家基于位置服务的社交网络公司,其数据集由用户的位置签到信息和地点元数据组成。
- 简介:Foursquare数据集包含了超过10亿个地点签到记录和超过50万个地点的信息。
- 学术评价:该数据集被广泛用于位置推荐算法研究和基准测试,用于地点推荐任务。
6. Yelp (2014)
- 数据集出处:Yelp是一家基于位置的在线评论平台,其数据集由用户的评论信息和地点元数据组成。
- 简介:Yelp数据集包含了超过370万个商家评论和超过3万商家的信息。
- 学术评价:该数据集被广泛用于位置推荐算法研究和基准测试,用于地点推荐任务。
7. IMDB (2015)
- 数据集出处:IMDB是一个在线电影数据库,其数据集由用户对电影的评分和电影元数据组成。
- 简介:IMDB数据集包含了超过4万部电影的评分信息,每个用户对每个电影都有一个评分值,范围从1到10分。
- 学术评价:该数据集被广泛用于电影推荐算法研究和基准测试,用于电影推荐任务。
自然语言处理领域
1. Brown Corpus (1961)
- 数据集出处:Brown Corpus是由美国布朗大学开发的大型英语语料库,是自然语言处理领域最早的公开语料库之一。
- 简介:Brown Corpus包含了超过1百万个单词,涵盖了多个主题和文体的文本。
- 学术评价:该数据集被广泛用于语言学和自然语言处理研究,为研究者提供了大量的真实语言数据。
2. Wall Street Journal (1987)
- 数据集出处:Wall Street Journal是一个美国著名的财经报纸,其数据集由该报纸的新闻文章组成。
- 简介:Wall Street Journal数据集包含了超过20万篇新闻文章,涵盖了多个主题和事件。
- 学术评价:该数据集被广泛用于自然语言处理和文本挖掘研究,为研究者提供了大量的真实新闻文章数据。
3. Switchboard Dialog Act Corpus (1997)
- 数据集出处:Switchboard Dialog Act Corpus是一个英语对话语料库,由美国国家标准技术研究院(NIST)开发。
- 简介:Switchboard Dialog Act Corpus包含了超过3千小时的电话对话录音,涵盖了多个主题和场景。
- 学术评价:该数据集被广泛用于对话系统研究和自然语言处理应用开发,为研究者提供了真实的对话数据。
4. Movie Dialogues (2007)
- 数据集出处:Movie Dialogues是一个英语对话语料库,由IMDb网站提供。
- 简介:Movie Dialogues包含了超过10万部电影的对话信息,涵盖了多个主题和场景。
- 学术评价:该数据集被广泛用于对话系统研究和自然语言处理应用开发,为研究者提供了真实的对话数据。
5. Web Crawl (2008)
- 数据集出处:Web Crawl是由Common Crawl网站定期发布的网页爬取数据集。
- 简介:Web Crawl包含了从互联网上抓取的大量网页信息,涵盖了多个主题和网站。
- 学术评价:该数据集被广泛用于自然语言处理和信息检索研究,为研究者提供了大量的真实网页数据。
6. Stack Exchange (2010)
- 数据集出处:Stack Exchange是一个问答网站,其数据集由用户提问和回答组成。
- 简介:Stack Exchange包含了超过3千万个问题和答案,涵盖了多个主题和技术领域。
- 学术评价:该数据集被广泛用于自然语言处理和问答系统研究,为研究者提供了大量的真实问题和答案数据。
7. English Web Texts (2016)
- 数据集出处:English Web Texts是一个大规模的英语文本语料库,由Google公司提供。
- 简介:English Web Texts包含了超过万亿个单词的文本数据,涵盖了多个主题和领域。
- 学术评价:该数据集被广泛用于自然语言处理和文本挖掘研究,为研究者提供了大量的真实英语文本数据。
reference
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 JLChenBlog!
评论