Back to Homepage

前言

今天在COS沙龙上介绍了数据科学家这个职业。很感谢所有参加沙龙的小伙伴们:-)下面是关于这个话题的文字内容,除了报告所讲之外这里还有一些补充,以及相关参考资料。

数据科学和数据科学家成为了流行词汇。当有人问你干什么,你回答说数据科学家。对方会恍然大悟,觉得特别高大上,奥,数据科学家啊,听说过。是啊,没听说过数据科学家那就out了。如果接着问,数据科学家具体干什么的?然后就没有然后了。不知道你们有没有听过这样一则轶事,美国最高法院法官Potter Stewart被问到什么是淫秽时,他回答:“看下才知道。”这和数据科学很类似,很多概念,在大而化之的时候都可以存在,大家口耳相传,聊的不亦乐乎,但一追究细节,立即土崩瓦解。在这里我想将数据科学家这个行业具体化,让大家看看数据科学家都干什么,需要哪些技能,目前北美的数据科学家教育背景是什么?哪些行业需要数据科学家?数据科学家在北美的就业形势如何?希望能对各位有启发,还原一个有血有肉的数据科学家。

这个行业定义很模糊。因为看国内很多朋友都用知乎,于是两个月前我也注册了一个知乎帐号,但之后就忘了。直到有一天突然收到一封邮件,说什么点名回答,问题是:“我国CPI是如何计算的?”算CPI、GDP什么的那是神仙干的事,不该问数据科学家。我当时就觉得这个行业的定义真是挺浑的。于是我谷歌了一下数据科学家的定义,下面是其中的一些:

 1. 住在加州的数据分析师 [Data analyst who lives in California]
 2. 数据科学家是商业(数据)分析师的进化版 [A data scientist represents an evolution from the business or data analyst role.]
 3. 比软件学家更懂统计,比统计学家更懂软件科学的人 [Person who is better at statistics than any software engineer and better at software engineering than any statistician.]
 4. 拥有出众数据分析能力的BI咨询师,尤其是能用大量数据增加商业竞争力的人 [A data scientist is a job title for an employee or business intelligence (BI) consultant who excels at analyzing data, particularly large amounts of data, to help a business gain a competitive edge.]
 5. 会编程,懂统计,能通过多种方式从数据中掘金的人 [Data Scientists are people with some mix of coding and statistical skills who work on making data useful in various ways.]
 

此外,很多其它职位其职责都和“从数据中获取信息”有关,比如:数据分析师,BI咨询师,统计学家,金融分析师、商业分析师,预测分析师……这些不同职业有什么区别?即便都是数据科学家,教育背景等等也是千差万别。由于媒体的炒作,现在大部分商业领域所谓的分析,大部分都到不了“科学”的程度,而是加减乘除游戏。这些不同的职位要求有何不同?总的来说:

 - 金融分析师一般有金融方向的MBA学位。他/她会用电子表格,知道会计软件,分析各部门的预算数据,分析实际经营结果和预测之间的差别,做一些预测,但这里的预测不会涉及复杂的机器学习,统计模型。  
 - 数据分析师一般有MBA学位,有一些计算机背景,很擅长使用电子表格,会用高阶的电子表格编程功能如VBA,自定义函数,宏。根据情况,会使用一些BI的软件,如Tableau,主要都是用鼠标点拖的方式。会用SQL从数据库中读取数据。我所见的商业分析师拥有很少(或没有)统计知识。所以这部分人有处理数据的知识,但是没有统计学的知识,能做的分析非常有限。
 - 统计学家一般多在药厂,生物技术公司,做一些非常传统的混合效应模型,方差分析等生物统计分析。由于行业要求,多用SAS而非开源软件R。
 - BI咨询师,一般也是工商管理专业,有MBA学位,受传统的商学院教育(熟悉4Ps或6Ps,4Cs, 使用SWOT法分析市场),熟练使用电子表格,很少或没有其它技术背景。
 - 数据科学家,多是数学/统计,计算机,工程学专业出身,会使用R,Python等多种编程语言,熟悉数据可视化。大多数在入职前没有太多市场营销知识。掌握高等概率统计,熟悉如下概念:抽样,概率分布,假设检验,方差分析,拟合优度检验,回归,时间序列预测模型,非参数估计,实验设计,决策树,马尔可夫链,贝叶斯统计(很快就能在白板上写下贝叶斯定理)

上面只是一些大致的分析行业状况。下面我会着眼于数据科学家这个职位。

数据科学家都分布在那些行业呢?下图来自Burtch Works Executive Recruiting在2015年4月发布的“Salaries of Data Scientists”报告[之后的调查结果都来自该报告],展示了各行业雇佣数据科学家的分布:

其中各个行业定义如下:

该结果显示,科技公司(包括互联网)是数据科学家最大的雇主。图中并未显示,但在原报告中有提到2014年创业公司雇佣了29.4%的数据科学家,2015年这个比例降至14.3%,原因不是创业公司招的数据科学家职位少了,而是大公司招入的数据科学家增长迅速,整体基数变大。总体来说数据科学家就业前景是非常好的。

什么时候开始有数据科学家这个职位?