TensorFlow 中最大的 30 个机器学习数据集

作者：Limarc Ambalina
编译：ronghuaiyang

导读: 包括图像，视频，音频，文本，非常的全。

由谷歌 Brain 的研究人员创建的 TensorFlow 是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台，适用于初学者和有经验的数据科学家。TensorFlow 库包括工具、预训练模型、机器学习指南，以及开放数据集的语料库。为了帮助你找到所需的训练数据，本文将简要介绍一些用于机器学习的最大的 TensorFlow 数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。

图像数据集

CelebA: 最大的公开的人脸图像数据集之一，名人脸属性数据集(CelebA)包含超过 20 万名名人的图像。

celebrity face images dataset 每幅图像包含 5 个面部特征点和 40 个二值属性标注。

Downsampled Imagenet：该数据集用于密度估计和生成建模任务。它包含 130 多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率：32 x 32 和 64 x 64。
Lsun – Lsun 是一个大型图像数据集，用于帮助训练模型理解场景。数据集包含超过 900 万张图像，这些图像被划分为场景类别，例如卧室、教室和餐厅。
Bigearthnet – Bigearthnet 是另一个大型数据集，包含来自 Sentinel-2 卫星的航空图像。每幅图像覆盖 1.2 km x 1.2 km 的地面。每张图像包括 43 个不平衡标签。
Places 365 – 顾名思义，Places 365 包含了 180 多万张不同地方或场景的图片。其中包括办公室、码头和小屋。Places 365 是用于场景识别任务的最大数据集之一。
Quickdraw Bitmap – Quickdraw 数据集是 Quickdraw 玩家社区绘制的图像集合。它包含了 500 万幅横跨 345 个类别的画作。这个版本的 Quickdraw 数据集包括 28 x 28 灰度格式的图像。
SVHN Cropped – 来自斯坦福大学的街景门牌号(SVHN)是一个 TensorFlow 数据集，用来训练数字识别算法。它包含 600,000 个真实世界的图像数据样本，这些数据被裁剪成 32 x 32 像素。
VGGFace2 – 最大的人脸图像数据集之一，VGGFace2 包含从谷歌搜索引擎下载的图像。这些脸因年龄、姿势和种族而不同。每个受试者平均有 362 张图像。
COCO – 由谷歌，FAIR, Caltech 和更多的合作者制作，COCO 是世界上最大的标记图像数据集之一。它用于目标检测、分割和图像描述任务。

Coco TensorFlow Dataset 数据集包含 330,000 张图像，其中 200,000 张已被标注。在这些图像中有分布在 80 个类别中的 150 万个物体实例。

10、Open Images Challenge 2019 – 包含大约 900 万幅图像，这个数据集是在线可用的最大的标注图像数据集。包含图像级标签、物体边框和物体分割掩码，以及视觉关系。

11、Open Images V4 – 这个数据集是上面提到的开放图像数据集的另一个迭代。V4 有 600 个不同的物体类包含 1460 万个边框。边界框是由人工标注人员手动绘制的。

12、AFLW2K3D – 该数据集包含 2000 个面部图像，所有标注了 3D 人脸特征点。它是用来评估三维人脸特征点检测模型的。

视频数据集

13、UCF101 – 来自中佛罗里达大学的 UCF101 是一个用来训练动作识别模型的视频数据集。该数据集有 13,320 个跨越 101 个动作类别的视频。

14、BAIR Robot Pushing – 来自伯克利人工智能研究中心的 BAIR Robot Pushing 包含了 44000 个机器人推动运动的示例视频。

15、Moving MNIST – 该数据集是 MNIST 基准数据集的一个变体，Moving MNIST 包含 10,000 个视频。

16、EMNIST – 扩展 MNIST 包含从原始 MNIST 数据集转换为 28 x 28 像素格式的数字。

本文地址：TensorFlow 中最大的 30 个机器学习数据集
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

音频数据集

17、CREMA-D – CREMA-D 是为情感识别任务而创建的，包括声音情感表达。这个数据集包含 7,442 个音频片段，由 91 个不同年龄、种族和性别的演员配音。

18、Librispeech – Librispeech 是一个简单的音频数据集，它包含 1000 小时的英语语音，这些语音来自 LibriVox 项目的有声读物。它被用于训练声学模型和语言模型。

19、Libritts – 这个数据集包含大约 585 小时的英语演讲，是在谷歌 Brain team 成员的协助下准备的。Libritts 最初是为文本到语音(TTS)研究设计的，但可以用于各种语音识别任务。

20、TED-LIUM – TED- lium 是一个包含超过 110 小时的英语 TED 演讲的数据集。所有谈话都已抄录下来。

21、VoxCeleb – VoxCeleb 是一个用于扬声器识别任务的大型音频数据集，包含来自 1,251 名扬声器的超过 150,000 个音频样本。

文本数据集

22、C4 (Common Crawl’s Web Crawl Corpus) – Common 抓取是 Web 页面数据的开放源码存储库。它有 40 多种语言，涵盖了 7 年的数据。

23、Civil Comments – 这个数据集包含了来自 50 个英语新闻网站的超过 180 万份公众评论。

24、IRC Disentanglement – 这个 TensorFlow 数据集包含了来自 Ubuntu IRC 频道的 77000 多条评论。每个样本的元数据包括消息 ID 和时间戳。

25、Lm1b – 这个数据集被称为语言模型基准测试，它包含 10 亿个单词。它最初是用来衡量统计语言建模的进展。

26、SNLI – 斯坦福自然语言推理数据集是一个包含 570,000 对人类书写的句子的语料库。所有对都经过人工标记，以达到类别平衡。

27、e-SNLI – 这个数据集是上面提到的 SNLI 的扩展，它包含了原始数据集的 570,000 对句子，分类为：entailment，contradiction 和 neutral。

28、MultiNLI – 以 SNLI 数据集为模型，MultiNLI 包括 433,000 对句子对，它们都标注了 entailment 信息。

29、Wiki40b – 这个大规模数据集包括来自 40 种不同语言的维基百科文章的文本。数据已经被清洗，非内容部分以及结构化对象已经被删除。

30、Yelp Polarity Reviews – 这个数据集包含 59.8 万个高度两极分化的 Yelp 评论。它们是从 2015 年 Yelp 数据集挑战赛的数据中提取出来的。

英文原文：https://lionbridge.ai/datasets/tensorflow-datasets-machine-learning/

本文地址：https://www.6aiq.com/article/1594376861493
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

更多内容请访问：IT源点

注意：本文归作者所有，未经作者允许，不得转载

TensorFlow 中最大的 30 个机器学习数据集

图像数据集

视频数据集

音频数据集

文本数据集

全部评论: 0 条

本文目录

热门标签

程序员导航

热门文章

阿里云新老用户最新优惠

最新发布

最新评论