现在,我们面临着5-10年前的相反问题。那时,实际上很难找到数据科学和机器学习项目的数据集。
从那时起,我们就被大量的数据集和列表淹没了。今天,问题不是寻找数据集,而是筛选数据集来保存相关数据集。
好吧,我们已经在这里为你做了。
下面,你可以找到一个免费的数据集列表,用于数据科学和机器学习,由他们的用例组织起来。你会发现手工挑选的数据集和我们最喜欢的聚合器。
数据集目录表
探索性分析
通用机器学习
深度学习
自然语言处理
基于云的机器学习
时间序列分析
推荐系统
特定行业
流数据
刮网
时事
探索性分析数据集
探索性分析是大多数数据科学练习的第一步。实践探索性分析最好的数据集应该是有趣的、有趣的和非平凡的(即需要你挖掘一点来发现所有的洞察力)。
所有链接在一个新的标签中打开。
我们的选择:
1.《霸王游戏》是一部基于George R.R. Martin《火与冰》系列的流行电视连续剧。通过这个数据集,你可以探索它的政治景观、人物和战斗。
2.世界大学排名——排名大学可能是困难的和有争议的。有数以百计的排名系统,他们很少达成共识。这个数据集包含三个全球大学排名。
3.IMDB 5000电影数据集——这一数据集探讨了我们是否能够在电影发行前预测它的受欢迎程度的问题。
聚合器:
KGLE数据集——由Kaggle社区贡献的开放数据集。在这里,你会发现一大堆话题。另外,您可以从伴随数据集的简短教程和脚本中学习。
R/DATSETS:ReDIT社区贡献的开放数据集。这是有趣和古怪的数据集的另一个来源,但是数据集往往不那么精细。
通用机器学习数据集
在这种情况下,我们将“一般”机器学习称为回归、分类和用关系(即表格式)数据进行聚类。这些是最常见的ML任务。
我们的选择:
1.葡萄酒质量(回归)——葡萄牙北部红葡萄酒和白葡萄酒的特性我们的目标是基于物理化学试验来模拟葡萄酒质量。(我们也有教程。)
2.信用卡违约(分类)-预测信用卡违约是一种有价值的和常用的机器学习。这个丰富的数据集包括人口统计、支付历史、信用和默认数据。
3.美国人口普查数据(聚类)——基于人口统计学的聚类是一种尝试和真实的方式来进行市场研究和分割。
聚合器:
UCI机器学习库——UCI ML库是机器学习数据集的一个古老而流行的聚合器。提示:他们的大多数数据集都链接了可以用于基准测试的学术论文。
深度学习数据集
虽然不适合一般用途的机器学习,但深度学习一直主导着某些小生境,特别是那些使用图像、文本或音频数据的小生境。从我们的经验来看,开始深入学习的最好方法是实践图像数据,因为有丰富的教程可用。
我们的选择:
1.MNIST-MNIST包含手写数字分类的图像。它被认为是深度学习的一个伟大的入门数据集,因为它复杂到足以保证神经网络,同时仍然可以在单个CPU上进行管理。(我们也有教程。)
2.CIVAR——下一步困难的是CiWOR10数据集,它包含60000个图像,分成10个不同的类。对于更大的挑战,您可以尝试CiWOR100数据集,它有100个不同的类。
3.IMANETET——IMANET每年举办计算机视觉竞赛,许多人认为它是现代性能的基准。当前图像数据集有1000个不同的类。
4.YouTube 8M ——准备解决视频,但不能存储万亿字节的存储空间?这个数据集包含数百万个YouTube视频ID和数十亿个音频和视觉特征,它们是使用最新的深度学习模型预先提取的。
聚合器:
NeDeleRun.NET-最新的数据集,用于深度学习算法的基准测试。
深度学习4J.ORG -最新的高质量数据集,用于深度学习研究。
自然语言处理数据集
自然语言处理(N.L.P.)是关于文本数据的。对于像文本这样杂乱的数据,数据集拥有真实世界的应用程序是非常重要的,这样您就可以执行简单的安全检查。
我们的选择:
1.安然数据集-电子邮件数据从高级管理的安然,组织成文件夹。这个数据集最初是公开的,并由联邦能源管理委员会在其调查期间发布到网络上。
2.亚马逊评论——包含3500万个评论来自亚马逊跨越18年。数据包括产品和用户信息、评级和明文审查。
3.新闻组分类-收集大约20000个新闻组文档,在几乎20个不同的新闻组中平均分配(几乎)。用于实践文本分类和主题建模。
聚合器:
NLP数据集(GITHUB)——用于NLP中的具有文本数据的自由/公共域数据集的字母表。
QuOLA答案——NLP注释语料库列表。
云机器学习的数据集
从技术上讲,任何数据集都可以用于云计算机器学习,如果您只将其上传到云计算。但是,如果你只是开始和评估一个平台,你可能希望跳过所有的数据管道。
幸运的是,主要的云计算服务都提供可以轻松导入的公共数据集。它们的数据集都是可比的。
我们的选择:
AWS公共数据集
谷歌云公共数据集
微软Azure公共数据集
时间序列分析的数据集
时间序列分析需要用时间戳标记的观测数据。换句话说,每个主题和/或特征都是跨越时间跟踪的。
我们的选择:
1.EOD股票价格——由Quangl社区管理的3000家美国公司的股票价格、股息和拆分。
2.ZiLoW房地产研究——住房价格和租金的大小,类型和层次,切片由邮政编码,邻里,城市,地铁区,县和州。
3.全球教育统计——教育访问、进展、完成、识字、教师、人口和支出的4000个国际可比指标。
聚合器:
QUANDL - QUANDL包含免费和溢价时间序列数据集的财务分析。
世界银行包含全球宏观经济时间序列,可通过国家或指标进行搜索。
ZILOW房地产数据
推荐系统的数据集
推荐系统受到了娱乐和电子商务行业的冲击。亚马逊、Netflix和Spotify都是很好的例子。
我们的选择:
1.MOVELIENS -评级来自MOVIELLIES网站的数据集。完美的开始,感谢各种数据集的大小可用。
2.JEST——构建一个简单的协作过滤器的理想选择。包含410万个连续评级(-10 00至10)的100个笑话从73421个用户
3.百万歌曲集-大型,丰富的音乐推荐数据集。您可以从纯协同过滤器开始,然后将其扩展到其他方法,如基于内容的模型或Web刮削。
聚合器:
EndoAuDun(GITHUB)-推荐系统的数据集的集合。提示:检查最近数据集的注释部分。
特定行业数据集
在本纲要中,我们通过用例来组织数据集。这是有帮助的,如果你需要练习某种技能,比如深度学习或时间序列分析。
然而,您也可能希望通过特定的行业进行搜索,例如神经科学、天气或制造业的数据集。这里有几个选项:
聚合器:
令人敬畏的公共数据集——高质量的数据集。
DAT.GOV——政府主导的政府数据。
流数据集
流数据集用于构建实时应用,如数据可视化、趋势跟踪或可更新(即“在线”)机器学习模型。
我们的选择:
1.Twitter API——Twitter API是流数据的经典来源。你可以跟踪推特、哈希标签等等。
2.库存股票API就像股票交易者和投资者的推特。您可以通过使用时间戳和股票代码将其加入到时间序列数据集中,以许多有趣的方式展开此数据集。
3.地下天气-全球覆盖的可靠天气API。特点是免费层和付费选项放大。
聚合器:
SATORI - SATORI是一个平台,它允许你在超低延迟(免费)连接流数据。他们经常添加新的数据集。
Web刮削数据集
网络刮擦是数据科学研究的一个常见部分,但是你必须小心违反网站的服务条款。幸运的是,有一个设计的网站可以自由地刮。
我们的选择:
ToCuraP.com -网络刮沙箱与两个子域名。你可以修剪一家虚构的书店或一个列出名人名言的网站。
虚拟书店
当前事件的数据集
查找当前事件的数据集可能是棘手的。幸运的是,一些出版物已经开始发布他们在文章中使用的数据集。
聚合器:
FiveThirtyEight——FiveThirtyEight是新闻和体育网站,有数据驱动的文章。他们在GITHUB上公开了他们的数据集。
BuffFoeNew——BuffFoestin以其LISTICLE和浅表著称,但后来扩展为研究性新闻。他们的数据集在GITHUB上可用。
原标题:Datasets for Data Science and Machine Learning
翻译:徐大白
注意:本文归作者所有,未经作者允许,不得转载