关于统计建模、机器学习与人工智能之间的关系和区别,近来无论是在国内外像知乎一类的知识网站上,还是在业内业外爱好者的线下活动组织间,都引发了激烈讨论。今天,SAS首席技术官 Oliver Schabenberger 先生为我们带来了他的见解,希望能对各位小伙伴们有一些启发。
统计建模
统计建模最基本的目标是回答一个问题:哪一种概率模型可以产生我所观察到的数据?因此你必须:
· 从一个合理的模型群里挑出候选模型
· 预估未知变量(参数,又叫做根据数据拟合模型。)
· 比较拟合模型与其他备选模型
举个例子,如果你的数据需要计数,例如流失客户数或者细胞分裂数,那么泊松模型(Poisson)、负二项模型或者零膨胀模型(zero-inflated model)都可能适用。
一旦某统计模型被选定,那预估模型将用于假设检验、创建预测值以及置信度测量。预估模型将成为我们解析数据的透镜。我们从未宣称选定模型就能产生数据,但是我们能观察它基于某验证推理在随机过程所获取的合理近似值。
验证推理是统计建模的一个重要部分。举例而言,要决策到底是三种医疗设备中的哪一种可以让病患获得最好的治疗,你也许会感兴趣使用一个模型,该模型能捕获某种数据机制来判断该病患在接受不同治疗所获得的不同结果。如果某个模型可以很好地捕获数据产生机制,那么其也可以在那些被观察数据区间内做出很好的预测,甚至可能预测出新的观察结果。
经典机器学习
经典机器学习是一种数据驱动型技术,受模式识别启动,专注于回归算法和分类算法。其潜在的随机机制通常并没有作为最首要一项关注点。当然很多机器学习技术也能通过随机模型和回归计算来定义,但是数据并不被认为是由其模型直接生成的。因此,最重要的关注点是对于某特定任务需要采用的算法或技术(或者集成方法):如客户如何被最好地细分,是使用K-Means聚类,还是DBSCAN,或者是决策树,或者是随机森林,又或者是SVM?
简而言之,对统计人员来说模型是第一位的,对机器学习者而言,数据是第一位的。因为机器学习的重点是数据,而不是模型。将数据分离出来去做训练集和测试集的验证技术(鉴定方法)是很重要的。一个解决方案的质量高低并不仅仅依赖p-值,而是需要证明这个解决方案在以前不可见数据中是否表现良好。将一个统计模型拟合到一个数据集,或者将一个决策树训练成一个数据集,将会需要融合一些未知值的预估值。该决策树的最佳分割点取决于从属变量的条件分布参数的预估值。
对我而言,没有什么技术被证明可以自我学习。训练才是成型某种学习的必要过程,换句话说,这意味着要获取一项新的技能技术,训练就是学习的一部分。训练深度神经网络取决于输入数据的权重和偏差,如果它学习分类,而该网络就变形成为一个分类器。
现代机器学习
机器学习系统如果不是编程去执行一个任务,而是编程去学习执行一项任务,那么这就是一个真正的学习系统,我把这叫做现代机器学习。就像经典机器学习的变体,这也是一个数据驱动型的实践。但不一样的地方是,现代机器学习不依赖于丰富的算法技术,几乎所有的这类机器学习的应用都基于深度神经网络技术。
这个领域我们现在倾向于称它为深度学习,一种机器学习的细分,经常应用于人工智能,也就是说让机器去执行人类的任务。
数据扮演什么角色?
我们可以通过数据所承担的角色区分统计建模、经典机器学习和现代机器学习。
统计建模:数据引导我们去选择随机模型,来形成对不同问题概率的抽象表达,例如假设、预测和预报。
经典机器学习:数据驱动的是对分析技术的选择,如何最佳地执行当前任务,这是数据训练算法。
现代机器学习:数据驱动基于神经网络算法的系统,去学习具体任务,系统可以自动判定数据常量规则。在训练神经网络数据的过程中,系统逐渐学习到执行任务,就像某人所说:“是数据在做编程。”
【关于SAS】
SAS是数据分析领域的领导者。通过提供创新的分析、商业智能和数据管理软件与服务,SAS帮助全球超过80,000家用户更好、更快地进行决策。自1976年以来,SAS一直向全球客户提供知的力量(THE POWER TO KNOW®)。
原创文章,作者:xsmile,如若转载,请注明出处:http://www.17bigdata.com/sas-cto%e5%91%8a%e8%af%89%e4%bd%a0%e7%bb%9f%e8%ae%a1%e5%bb%ba%e6%a8%a1%e3%80%81%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e4%b8%8e%e4%ba%ba%e5%b7%a5%e6%99%ba%e8%83%bd%e7%9a%84%e5%8c%ba%e5%88%ab/
注意:本文归作者所有,未经作者允许,不得转载