导读:学习机器学习是一个不断探索和实验的过程,因此,本文将主要介绍常见的开源数据集,便于读者学习和实验各种机器学习算法。
作者:张春强 张和平 唐振
来源:大数据DT(ID:hzdashuju)
01 开源数据集介绍
在学习机器学习算法的过程中,我们经常需要数据来学习和试验算法,但是找到一组适合某种机器学习类型的数据却不那么方便。下文对常见的开源数据集进行了汇总。
1. UCI数据集
2. Kaggle竞赛数据集
3. ImageNet
4. VisualData
5. MS COCO
6. Stanford CoreNLP
7. IMDB
8. Sentiment140
9. HotspotQA
10. Enron Email
11. Amazon
12. 百度Apolloscapes
13. Berkeley DeepDrive
14. Robotcar
15. Data.gov
16. Food Environment Atlas
17. Annual Survey of School System Finances
18. NCES
19. Data USA
20. 中国国家统计局
21. Quandl
22. WorldBank
23. IMF
24. Markets
25. Google Trends
26. US Macro Regional
27. Google Audioset
28. 2000 HUB5 English
29. LibriSpeech
02 scikit-learn中的数据集
scikit-learn是Python中进行数据挖掘和建模中常用的机器学习工具包。scikit-learn的datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法。模块的主要函数如下所示。
自带数据集的datasets模块里包含自带数据集,使用load_*加载即可,使用示例如下所示。
fromsklearn.datasets importload_iris
data = load_iris
# 查看数据描述
print(data.DESCR)
X = data.data
y = data.target
自带数据集的基本信息及序号30、31、32的自带数据集做简单的介绍如下。读者也可以使用data.DESCR,查看其英文描述。
30. 波士顿房价数据集
这个数据集包含了506处波士顿不同地理位置的房产的房价数据(因变量),房屋以及房屋周围的详细信息(自变量),其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数等13个维度的数据,波士顿房价数据集能够应用到回归问题上。波士顿房价数据集与属性描述如下所示。
31. 鸢尾花数据集
鸢尾花数据集是一个非常经典的数据集,著名的统计学家Fisher在研究判别分析问题时收集了一些关于鸢尾花的数据,包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本,以及它们各自对应的4种关于外形的数据(自变量)。该数据集可用于多分类问题,测量数据如下所示。
类别共分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。
32. 手写数字数据集
这个数据集是结构化数据的经典数据,共有1797个样本,每个样本有64个元素,对应一个8×8像素点组成的矩阵,矩阵中值的范围是0~16,代表颜色的深度,控制每一个像素的黑白浓淡,所以每个样本还原到矩阵后代表一个手写体数字。
33. 糖尿病数据集
34. 葡萄酒数据集
35. 乳腺癌数据集
36. 体能训练数据集
scikit-learn在线下载数据集的datasets模块包含在线下载数据集的方法,调用fetch_*接口从网络下载,示例如下所示。
fromsklearn.datasets importfetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset= ‘train’)
newsgroups_test = fetch_20newsgroups(subset= ‘test’)
注意,fetch_*接口由于需要从国外网址下载数据,速度可能很慢!
在线下载数据集的基本信息如下所示。
37. Olivetti脸部图像数据集
38. 20类新闻分类数据集(文本)
39. 20类新闻文本数据集(特征向量)
40. 带标签的人脸数据集
41. 路透社新闻语料数据集
42. 加州住房数据集
43. 森林植被
scikit-learn包括用于以svmlight/libsvm格式加载数据集的实函数。在这种格式中,每一行都采用表格,此格式特别适用于稀疏数据集。在该模块中,使用SciPy稀疏CSR矩阵,并使用numpy数组,示例如下。svmlight / libsvm格式的公共数据集可以从网上下载。
网址:
https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/
fromsklearn.datasets importload_svmlight_file
X_train , y_train = load_svmlight_file ( “/ path / to / train_dataset.txt “)newsgroups_test = fetch_20newsgroups(subset= ‘test’)
openml.org是机器学习数据和实验的公共存储库,允许每个人上传开放数据集。sklearn.datasets能够从存储库下载数据集。示例如下:
fromsklearn.datasets importfetch_openml
mice = fetch_openml(name= ‘miceprotein’, version= 4)
print(mice.DESCR)
mice.url
更多数据集信息描述请查看官网:
https://www.openml.org/search?type=data
本文摘编自《机器学习:软件工程方法与实现》,经出版方授权发布。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。
注意:本文归作者所有,未经作者允许,不得转载
阿里云新老用户最新优惠