互联网公司在面试数据分析师的工作时具体会被问什么样的问题?

star2017 1年前 ⋅ 5589 阅读

作为一名应届毕业生,金融专业,大学有修过相应的统计数理课程。平时通过自学SQL、R语言、python编程、数据挖掘导论。可是越学越有一个疑问,数据分析行业涵盖的知识太多了,就想知道学习的东西都能在工作中被检验吗?而且毕业将近迫于就业的压力,自己作为一只菜鸟,想找找数据分析方面的实习工作干干看。就想知道各位数据分析行业的师兄师姐们,当初在面试时都被问到什么样的问题?

@董昊天

我是金融科班出身,本科一毕业就去BAT做了数据分析师,目前也是面试官之一。

我被面试,和面试别人的时候,主要关注7个方面。

1. 基本工具

包括规定动作和自选动作两类。目前我所在的组不需要关心数据来源和结构化的问题,有专门的工程师团队写爬虫、做清洗、维护计算集群和数据库。所以主要考察点在于查询和衍生指标的计算方面。

1.1 规定动作

SQL查询:JOIN ON、DISTINCT、GROUP BY、ORDER BY等等。从数据库中提取数据是数据分析的第一步。另外我们的数据规模是TB级的,所以还要能使用SQL让集群做一些简单的计算,不然都下载到本地的话运算资源是肯定不够的。可能还会问一些非常基础的问题,比如PRIMARY KEY、int、str、double之类。

Excel:数据透视表、VLOOKUP、COUNTIFS、SUMIFS、VAR.P、条件格式等等,可能会涉及到诸如VLOOKUP中的TRUE和FALSE参数有什么区别,VAR.P和VAR.S有什么区别等细节问题。

1.2 自选动作

根据简历来问,简历上写什么就问什么,会问得比较深入。Python、Stata、R、SPSS、SAS、EViews都算比较常见的数据分析工具。顺便奉劝各位不要作死,毕竟不作死都有可能会死。比如简历上写“精通Python”,虽然我知道简历注水是常态,但既然都“精通”了,那我问到pandas,regular expression,DataFrame.iterrows()返回的是Series还是dictionary还是list of tuples,tuple和list的区别的时候好歹都得答出来吧……

2. 逻辑思维

主要分为两方面,对业务逻辑的理解能力和行文的逻辑水平。

2.1 业务逻辑

虽然一个业务看似流程简单清晰,但产生数据的复杂程度往往超过大多数人的想象。对业务逻辑的考察主要通过相关项目经历。如果是典型的学校项目,我会比较关心指标设计选取、代理变量选择、误差分析、因果性解释等。

这里再次奉劝各位不要作死,写在简历上的项目经历起码自己要非常熟悉,对答如流。如果我听你介绍15秒项目后提出的问题(如“你为什么说 北京经济适用房建筑面积与房屋建造年份的乘积 是一个非常重要且有实际意义的解释变量”)就能把你难住的话,那你也会把我难住的——尼玛面试评价表怎么写啊摔!我回去就得把HR批判一番!!!

以我为例,我每天接触的是700多张表,每张表的字段往往超过200个。这些表和字段往往还有关联。面对这么多业务指标,能否迅速理解它们之间的联系 面对新的数据需求,能否逻辑清晰地将它拆分成指标、二级指标并进行各种计算 面对复杂的局部最优化和全局最优化需求,能否“抓大放小”,能否迅速找到关键控制点、关键影响因素并加以优化 我每天通常只有不到1小时的时间用来出一份要发给CEO等大佬的,关于业务数据分析和后续指导意见的报告。思维不敏捷,逻辑不清晰的话,是很难做好这份工作的。

2.2 行文逻辑

毕竟最终产出是一份份报告,可能是HTML邮件也能是PDF。文章结构还是很重要的。这里不展开说了,不过关键的几点是先说结论,先写摘要。

3. 理论储备

也分为规定动作和可选动作。

3.1 规定动作

主要是基础的统计学理论,如方差、协方差、算数平均数、几何平均数、中位数、众数、分位值、双峰数据、长尾数据、假设检验、期望迭代法则、贝叶斯原理等。

3.2 自选动作

根据简历来问,简历上写什么我一定会问什么。第三次奉劝各位不要作死,写的检验也好机器学习算法也好好歹自己要知道原理、适用条件、局限性。不然我跟你聊起Pearson distance、K-means cluster的随机性问题的时候你接不上来也是很尴尬的。

4. 对细节的敏感度

作为数据分析师,每天要关注大量数据指标。对细节的敏感度是非常必要的。这主要分为两方面,对统计口径的敏感度和对数据的敏感度。

4.1 统计口径

统计口径一致是确保数据可比性的基础,这非常考验数据分析师的敏感度和行业经验。比如转化率,是点击算转化还是注册算转化还是购买算转化配送时间,是从用户下单开始计时还是从订单确认开始计时还是从商品出库开始计时客单价包不包括配送费、打包费、代金券形式的折扣优惠

4.2 数据

我非常关心候选人对数据异常波动、离群值、平均数没有代表意义等情况的迅速识别能力。比如已知然寿司套餐单价1,500,酒水单价300,平均客单价2,500,能不能马上想到这可能是双峰数据或者长尾数据,抑或既双峰又长尾的数据

5. 学习能力

互联网行业瞬息万变,光数据的存储就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三驾马车等一大堆奇奇怪怪的东西。互联网行业的从业者经常要面对新需求、新工具、新方法。能否迅速掌握新知识,解决新问题是候选人必须证明给我看的。

主要考察的方式是了解过往项目经历,或者我出作业题(比如Sci-Hub)。

6. 排版和简单UI设计

我认为数据分析报告必须简洁、清晰、重点突出。主要考察方式是出作业题让候选人限时交一份slides(就是PPT啦)出来。能掌握标准的Microsoft Design Language是大大的加分项。

7. 价值观

主要看工作热情、态度、道德水平等等,这方面我问的问题比较随机,没什么规律可循,甚至问过机械键盘、人体工程学设计等方面的问题。

对互联网行业有兴趣的话,欢迎给我私信发简历。腾讯阿里百度滴滴美团今日头条之流我都去面过,HR也是认识几个的~

@桑文峰

我是神策数据的创始人桑文锋,从2008年底开始带数据团队,最开始的时候团队有专门的响应统计需求的同学,就是数据分析师。后来就偏向于带工程团队了,直到去年开始创业,公司里有专门的分析师团队,我谈一下我的面试要求。

首先,是和分析能力无关的三点:

1,候选人是否对大数据分析真的感兴趣。一个人对一件事情很感兴趣,就会花120%的精力去学习和研究它,相反,可能在工作的时间还在考虑别的事。数据分析的工作通常都比较枯燥,获取需求并满足需求,不断的在重复这一过程。如果不是感兴趣的,干三个月挺新鲜,干六个月就不想干了,干一年就立马走人了。而对于有兴趣的人来说,会从一个个的需求和一堆堆的数字里发现有趣的东西,进而去影响产品发展。

2,积极主动。数据分析往往不是说需求是明确的,源数据是现成的,只要按部就班的实现就可以了。往往还需要推动工程团队帮着去完成数据采集,推动数据平台团队去实现更好的分析工具。如果不够积极主动,这些事情往往是原地踏步的。另外,对于业务方提出的需求,不能说只是停留在需求本身,还要思考业务方想要什么,我从数据上怎么能够帮助到他们。

3,快速学习能力。大数据分析是一个探索型的行业,许多事情都是雏形。这就要求分析师要不断的学习,学习专业知识,学习国内外好的实践。而不能固步自封,只停留在书本上的那点知识。还要尝试各种新工具。

除了以上三点基本的要求,我就会考察:

4,抽象能力。是不是能够从杂乱的需求中抽象共性,用优雅的方法更高效的解决问题。比如我自己在2008年的时候根据以往的许多脚本,分析出常见的统计需求无非是计数,去重数,top N这三类流量统计的需求,于是抽象了一个交互界面,让需求开发代价从几天降到了几分钟,并且连产品经理都可自助完成。

5,数据分析工具的熟悉程度。会不会SQL,对常用的统计分析工具是不是够了解。

6,通过数据为业务带来价值的经历。

等等。

来源:知乎

链接:https://www.zhihu.com/question/48315705

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

更多内容请访问:IT源点

相关文章推荐

全部评论: 0

    我有话说: