Kaggle 首份机器学习大调查:最常用的算法、语言

star2017 1年前 ⋅ 6256 阅读

数据平台 Kaggle 发布的2017 机器学习及数据科学调查报告,也是 Kaggle 首次进行全行业调查。该调查收集了1.6万多问卷,问卷内容包括在机器学习行业中最火的编程语言,以及如何更好的入门数据开发等,下面就是其中一部分调查结果,如:


1、Python 是最常用的工具, R 语言用户的忠诚度更高。

2、数据科学家的年龄平均在30岁左右,但这种平均年龄在不同国家之间有所不同。例如,来自印度的平均受访者年龄比澳大利亚的平均受访者年龄年轻9岁。

3、获得了硕士学位的受访者占比最多,但那些收入超过 150K + 的,大部分获得博士学位。


以下就是 Kaggle 报告内容:


年龄


本次调查对象的平均年龄在 30 岁左右。当然,不同国家之间的数值会有所不同。例如,日本的机器学习从业者的年龄中位数为 33 岁


全球全职工作者占比为 65.7%,中国为 53%, 其中,白俄罗斯的占比最高,全职工作者占比达到 75.5%


学历


正常情况下,在数据科学工作中,获得硕士学位的人数比例最高。但那些收入高于 150K+ 的人大部分取得博士学位。拥有硕士学位的开发者,年薪约 5.5 万美元。


全职薪资(年薪)


尽管在调查中发现,对于受访者来说,“薪酬福利”的重要性不及“专业发展的机会”,但如果能了解到自己行业中的普遍薪资情况也是不错的。调查发现,在美国,机器学习工程师的薪资是最高的。


在全球范围内,机器学习工程师的薪资中位数是 55,441 美元,不过由于很多人没有全职工作(收入为 0),所以这一数值还是存在一定误差。


最常使用的数据科学方法


Logistic 回归是除了军事和国安领域外,最常用的数据科学研究方法。在军事和国防安全领域以及神经网络领域使用更为广泛。


工作中最常使用什么工具?

Python 是数据科学家们最常用的语言,不过仍然有很大一部分数据科学家忠诚于 R 语言。


最常使用的数据类型


关系型数据是开发者在工作中最常用的数据类型,因为大多数产业工程师都较青睐关系型数据。而学术研究者和国防安全产业则更青睐于文本和图像。


Dirty Data (脏数据)是从业者遇到的最大障碍。数据科学家一般最常见的困扰就是需要对数据进行大量的预处理工程。理解不同算法的能力不足也是困扰数据工作者的一大障碍。此外,缺乏一定有效管理和资金支持也是面临的两大外在困境。


Git 是他们最常用的代码共享和托管方式 ,占比有 58.4%。但大公司的开发者更倾向于将代码保留在本地,通过电子邮件的方式来共享代码。而初创公司为了追求便捷可能更青睐于云共享。


当你进入一个新的职业生涯时,了解别人成功的秘诀可以让你少走很多弯路。以下是数据科学行业的前辈给出的几条最有用的建议,希望对想要进入这个行业的人有一定帮助:


入门数据科学最推荐先学哪门语言?

每个数据科学家都坚信自己选择的语言是正确的。比如完全使用 Python 或 R 的人,他们分别最先推荐学习的语言分别为 Python 和 R。但是,同时使用 R 和Python的人中,推荐使用 Python 的人数是推荐学习 R 语言的两倍。


数据科学学习平台


数据科学是个变化极快的领域,业内人员需要不断更新知识体系,才可以在业内保持一定地位,不被时代淘汰。Stack Overflow Q&A、Conferences 和 Podcasts 是已从业者经常使用的学习平台。


开源数据获取平台

没有数据就没有数据科学。当谈到学习数据科学时,知道如何找到开放数据集用于实践项目是相当重要的。dataset aggregators 正发展为数据科学社区成员中最频繁使用的工具,排行第二的是谷歌搜索。


说到找工作,更多的人可能是到指定技术方向的招聘网站上找,但是根据多年数据科学领域工作经验的前辈们,直接联系招聘者或通过自己的人际圈进入这个领域才是他们的首选。


注意:该报告包含多个国家的数据,可能存在收集不够全面的情况,仅供参考。

更多内容请访问:IT源点

相关文章推荐

全部评论: 0

    我有话说: