作为数据科学家应该学习的第一件事

star2017 1年前 ⋅ 3167 阅读

根据30年的商业经验，下面的列表是我认为首先应该在数据科学课中讲授的（非全面的）内容选择。这是我文章的后续内容为什么Logistic回归应该最后讲解。

我不确定下面这些主题是否在数据营或大学课堂上讨论过。问题之一是招聘教师的方式。招聘过程是有利于以学业成就或其“明星”身份而闻名的个人，并且他们倾向于在数十年内反复教导同一事物。厉害的专业人士对成为老师毫无兴趣（俗话说：如果你做不到，就写出来，如果你写不出来，就教你。）

作为数据科学家应该学习的第一件事

它不一定是那样。大量合格的专业人士，尽管不是明星，但他们会成为完美的老师，并不一定是受到金钱的激励。他们在实战中获得大量的经验，可能会是很棒的老师，帮助学生处理真实的数据。他们不需要成为数据科学家，许多工程师完全有能力（并且有资格）提供强大的数据科学培训。

作为数据科学家应该学习的第一件事

在数据科学课程中应该尽早讲解的主题

我的建议如下：

概述算法如何工作
不同类型的数据和数据问题（数据缺失，数据重复，数据错误）以及探索真实样本数据集，并且有建设性地批判他们
如何确定有用的度量指标
数据科学项目的生命周期
编程语言简介和基本命令行指令（Unix命令：grep，sort，uniq，head，Unix管道等）。
将结果传达给非专家并理解决策者的请求（将请求转化为数据科学家的行动项目）
概述常见技术的优缺点，以及何时使用它们
实例探究
能够识别有缺陷的研究

相比之下，传统数据科学课程中首先讨论了一个典型的主题列表：

概率论，随机变量，最大似然估计
线性回归，逻辑回归，方差分析，一般线性模型
K-NN（最近邻居聚类），层次聚类
假设检验，非参数统计，马尔可夫链，时间序列
NLP，尤其是词云（适用于小样本Twitter数据）
协同过滤算法
神经网络，决策树，线性判别分析，朴素贝叶斯

这些技术没有什么根本性的错误（除了最后两个），但是你不可能在职业生涯中使用它们 – 而不是在课堂上提出的基本版本 – 除非你是在一群志同道合的人中全部使用相同的老式黑盒子工具。确实应该教他们，但也许不是一开始。

数据科学课程中应包含的主题

下面列出的不应该在一开始就教，但是非常有用，很少包括在标准课程中：

模型选择，工具（产品）选择，算法选择
经验法则
最佳实践
将非结构化数据转换为结构化数据（创建分类法，编目算法和自动标注）
如此处所述，混合多种技术以获得最佳效果
测量模型表现（R-Squared是最差的指标，但通常是课堂上教授的唯一指标）
数据增强（找到外部数据集和功能以获得更好的预测能力，将其与内部数据混合）
建立你自己的自制模型和算法
大数据的诅咒（与维度的诅咒不同）以及如何区分相关和因果关系
应该更新数据科学实现（例如查找表）的频率
从设计原型到生产模式部署：警告
蒙特卡洛模拟（一种简单的替代方案，可以计算置信区间和测试统计假设，甚至不需要知道随机变量是什么）。

原文链接：
https://www.datasciencecentral.com/profiles/blogs/the-first-things-you-should-learn-as-a-data-scientist-not-what-yo

编译：数据人网

出处：http://shujuren.org/article/587.html

本文为专栏文章，来自：数据人网，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/54876.html 。

更多内容请访问：IT源点

注意：本文归作者所有，未经作者允许，不得转载

#数据科学家 #数据科学课程 #逻辑回归

阅读全部

全部评论: 0 条

我有话说:

star2017
- 1298发布
- 0评论
收藏 0

作为数据科学家应该学习的第一件事

在数据科学课程中应该尽早讲解的主题

数据科学课程中应包含的主题

全部评论: 0 条

本文目录

热门标签

广告位

热门文章

阿里云新老用户最新优惠

最新发布

最新评论