分析大师系列:商业智能的前世今生

star2017 1年前 ⋅ 1159 阅读

(一)从数据到智能

Google的首席经济学家 Hal Varian 在2010年指出“在接下来的岁月里,最时髦的工作将是统计学家…领悟数据的能力——理解数据、处理数据、提炼价值、可视化数据、沟通数据——必将成为一种极其重要的技能”。言犹在耳,大数据、数据可视化都已成了当下商业分析中的重要基础概念。然而,一种令人悲哀的事实是,概念炒作或者以和概念沾边来获取商业利益的行为比比皆是,真正去理解这些从数据到价值过程中所引入的概念之内涵,如何夯实技术基础来真正达到计算领域所谓智能则鲜有所闻!

近年来IT行业飞速发展,数据作为一种基本的概念已经深入到社会生活的每一个角落!个体的经济活动和社会活动都已经数据化了,消耗在各种数据接入设备的关注时间,成了互联网企业争相竞逐的最重要的资源。五花八门的新兴技术概念,甚至让一些业内人士都眼花缭乱云里雾里。变革性的技术创新如量子计算(QC)还在路上,机器智能(AI)却依稀可见;虚拟现实(VR)正在模糊我们的现实与虚拟的界限,移动应用则让人类长出了章鱼般的触角,与世界各地的真实或虚幻的实体进行交互。现实是多彩的,技术却是骨感的!而正是骨感的技术支撑了如今互联网繁华的表象,一如各种基础的数据结构与算法永远是计算的基础。也许乐观者会说AlphaGO 已经化身为 Master在人类视为智力象征的围棋领域击败了最厉害的人类大脑,机器的智能世界还会远吗? 看看《西部世界》吧,终有一天我们只要一个VR头盔,就能一头扎进虚拟的海洋里自由翱翔!

分析大师系列:商业智能的前世今生

还是让我们回到分析领域的基本原理上来吧!既然标题是《商业智能的前世今生》,我们当然需要了解一下这些概念从何而来,如何构建?如果我们把人比作一个实体,则除了自身以外的世界就是外部环境,是人一切活动的容器。在我们认知之初,并没有所谓的智能,一切都是从最初的感觉和体验开始… …触觉,听觉,到新生儿睁开眼的第一霎那,认知的第一个问题“我是谁(WHO)?” 就开始了,而这个问题答案则是父母对婴儿最初的教诲中慢慢找到的;后来,何时(WHEN)何地(WHERE)发生了什么(WHAT)逐渐成为我们描述认知世界的基本框架!

再后来你知道了树上的鸟儿不但会叫,还会在天空飞翔;水里的鱼儿不但会吐泡泡,也会游来游去。你会想知道他们是如何(HOW)做到的,到底翅膀和鱼鳍有什么不同;弄明白了长毛的翅膀和光滑的鱼鳍,你甚至会问为什么(WHY)不是鱼在天上飞,鸟在水底游?而我们自己为什么既没有翅膀,也没有鱼鳍?

分析大师系列:商业智能的前世今生

如果你是沿着这个框架去认识你的外部世界,那么恭喜你!因为你正走在从感受、体验到知识和智能的道路上!记忆力给了人类很好的数据存储单元,让我们能够记住那些由各种各样的符号、标识组成的数据(DATA)——如果没有可用的符号/坐标系统,人类也会创建标尺来计量它所观察到的一切;这些数据是原始的,自身就是没有含义的客观存在。数据的存在本身就是数据的唯一价值!比如A,65,卐,...符号是构成数据的基本单元。人类会将自身遇到的一切与这些基础符号或符号系统进行关联,从而赋予这些数据以含义,从而成功地将数据变成了有意义的信息(INFORMATION),信息是人类适应/控制外部世界过程中交换的内容,反映事物的形成、关系和差异。

信息集合之间明确的相互作用一旦被人类所感受和体验,逐渐就成了确定性的知识(KNOWLEDGE)被记忆,它能够解释实体之间是如何(HOW)相互发生作用的。而基于既往所发生的各种事实,利用内插法和概率进行认知性和分析性的总结归纳,就形成了人的理解(UNDERSTANDING)过程。知识和理解的区别在于,知识是死的,理解却是活的。 理解可以应用到各种新出现的问题上,能够很好地解释事情为什么(WHY)是这么发生的。譬如,小学生能够记住个位数相乘6X6=36这个知识点,但如果给它一个百位数相乘的问题,则对他来说是很难的求解过程,根本原因是没有真正理解乘法这一运算本质。

数据、信息和知识举例如下:

数据:珠峰的高度8844.43米,坐标:27°59′17″ N 和86°55′31″ E 都是数据。

信息:描述珠峰地理特征的书籍,包括气候等各种各样数据的描述;

知识:探讨具体如何最好地登上珠峰的报告。比如攀登珠穆朗玛峰必须遵守著名的“两点钟规则”:即攻顶一定要在下午2点前完成,不然就必须回头。美国登山好手费雪(Scott Fischer),曾经四次成功登上珠峰,但在第五次时因过晚登顶,结果在下山时遇大风雪丧命。

分析大师系列:商业智能的前世今生

智慧:剑桥英语词典将它定义为:使用知识和经验来做作出正确决定或判断的能力;而维基百科认为智慧是使用知识,经验,理解、常识、洞察(对特定上下文中的明确因果关系的理解)进行思考和行动的能力。将智慧加诸于特定实体就是实体的智能。剑桥的定义是:学习,理解,决策或者拥有基于推理的形成观点的能力;维基百科则认为是:逻辑、理解、自知、学习、情绪表达、知识、计划、创新和问题解决的能力。本质上智能就是对非确定性,非概率性的外延,它是基于知识之上的已经评估过的理解,能够用于处理尚未发生的不确定的情景,知道对于尚未发生的未来什么是最好的选择!

想想看, 如果某系统具有发现历史订单中有大于5%的订单同时包含啤酒和尿布,最小置信度β 大于 70%的知识,难道我们不应该推导出一个独自去超市的新生儿父亲买尿布时没有忘记顺便给自己买罐啤酒的生动场景么?难道作为一个号称有智能的超市系统不应该注意到这一事实,而将这些具有显著关联的商品放在相邻货架以不知不觉中促进消费?泰伦提乌斯早就说过:真正的智慧不仅在于能明察眼前,而且还能预见未来!

(二)早期:报表和查询时代

在现代企业中,企业的首要使命是追求利润,概莫能外。在企业运作的过程中自然产生了大量的商业数据,包括各种财务数据,法务数据、业务数据、人力资源等等。这些数据可以在企业的运作过程中与组织内外的实体进行交换或流转,随着业务种类和系统的复杂性提升,企业的管理层和决策层有越来越多的辅助决策之需求,因此决策支持系统(DSS)应运而生!

不过,DSS的前提条件之一是企业的信息化,即企业积累了足够多的历史数据,并且有从中挖掘商业价值的需求和实施的可能!商业智能(Business Intelligence)概念本身在1958年就已经被IBM的Hans Peter 提出,但商业智能作为一种复合的技术和应用,直到1989年才被来自Garner 的Howard Dresner通俗化才广为人知:即一类由数据仓库,查询报表,数据分析,数据挖掘,备份/恢复等部分组成、帮助企业决策为目的的技术和应用。

简单而言,那个时候产业界将数据转化为知识主要利用三大杀器:数据仓库(Data Warehouse),联机分析处理(OLAP)和 数据挖掘(DATA MINING)!这些在技术上讲称不上什么新技术(相当多的统计方法和算法在上世纪中叶就已经有过研究),但却是计算机工程技术的综合应用。将业务交易系统和各种各样的数据源,整合到企业级的数据仓库是那个年代商业智能的主旋律。

90年代,数据仓库已经从探索阶段走向了实用阶段。W.H Inmon 在《Building the Data Warehouse》一书中对数据仓库作出了明确定义:“数据仓库是支持管理决策过程,面向主题,不断变化的持久化数据集合”。 建设数据仓库主要是根据预先设计好的数据仓库架构,将分散存储与企业各种系统中的企业数据变换合并到同一模式数据的过程。那个时候,企业数据集成(Data Integration)包括数据的抽取(Extract)、转换(Transformation)、清洗(Cleaning)、加载(Loading)以及数据准备(Staging)等概念就像现在的Hadoop、大数据和数据可视化一样火热,越来越多的企业将业务数据源源不断地整合到统一集中的企业数据仓库(Data Warehouse)和按照主题组织的数据集市(Data Mart)中,供OLAP和DATA MINING使用。

联机分析处理(OLAP)概念和十二准则的提出(E F Codd 1993),以及越来越多的数据库厂商在技术上的推动,让企业分析人员在企业业务数据之外,有了一个基于数据仓库的多维度概念视图,直观的数据操作和灵活的报表生成,让数据立方体的概念深入人心。企业的决策人员和高级管理人员可以轻松地在 OLAP 客户端(最主要的是数据透视表和数据透视图)上进行上钻/下钻/旋转、数据切片/切块操作,可以快速呈现上百万条的历史数据的聚集;如果需要,甚至可以钻透到事实表的明细数据来调查数据异常。复杂的查询也可以通过多维数据库访问接口如OLE DB for OLAP、ADOMD、ADOMD.NET配合MDX 查询语句进行。就像SQL之于关系数据库,MDX搭配多维数据库似乎很美妙,因为该有的都有了!

分析大师系列:商业智能的前世今生

然而,支撑企业信息系统决策支持(DSS)模块的数据是有代价的,而且是预处理的。一方面数据仓库自身的数据需要大量的ETCL作业支撑,而用于OLAP的数据立方体构建本身也是非常复杂繁重的。这通常导致决策数据和最新的业务数据不一致,两个版本的数据(事实)可能导致决策失当或者延误。因此,实时商业智能(Real-time BI)和数据探索的概念开始兴起!

2004年开始到2007年,也许是商业智能行业史上最为激动人心的岁月。根据07年美国高盛公司的调查,70%的企业在IT采购中对商业智能工具或者应用具有采购计划;人们认识到企业对商业智能的呼唤不仅仅是少数公司的行为,而是已经从企业的“想要”逐渐变成了企业的“需要”。商业智能行业一开始只是一个规模有限而且专业性很强的细分市场,以至于一开始SAP,ORACLE,IBM和Microsoft 这些巨头都忙于自己的专业领域,未曾暇顾。目前的行业格局基本上奠定于2007年左右的大规模商业并购。

软件巨头们如SAP, Oracle,IBM,Microsoft…在商业智能领域大打出手,制造了软件领域除了操作系统平台,数据库、浏览器、应用服务平台之后的又一竞争热点!随后,商业智能领域的真正独立玩家日渐减少…

  • 2004年Microsoft收购 ActiveViews、2006年收购ProClarity改进数据探查和集成分析
  • 2007年07月Oracle 以33亿美元现金收购绩效管理软件解决方案提供商Hyperion;
  • 2007年10月SAP 以68亿美元收购行业翘楚 Business Objects;
  • 2007年11月IBM 以50亿美元收购 Cognos;

对比Gartner 2007年和2008年的商业智能平台魔力象限,你会发现在商业智能领导厂商第一梯队中,除SAS 外,其他4家都已经城头变幻大王旗:Oracle(Hyperion Solutions), SAP(Business Objects),IBM(Cognos)和 Microsoft(ProClarity),而第二梯队则只剩下Information Builders,MicroStrategy 和QlikTech 三家公司。

分析大师系列:商业智能的前世今生

(三)加速转型期

截至到2013年,商业智能的那些传统功能,比如参数化报表,联机分析处理(OLAP)和即席查询(Ad-Hoc Query)并没有被广大管理者和分析师所完全拥抱,主要是大部分人认为他们对许多分析用例而言太过难用。因此,商业智能和分析平台市场从主要用于测量和报表BI系统,加速转型到那些支持分析,预报,预测和优化的BI系统。

企业和独立软件供应商不断地将传统报表,仪表盘和交互式分析,以及从BI平台既有统计功能和算法构建出的更高级,更规范的分析嵌入到业务流程和应用中,从而将分析的价值扩大到更多的消费者和非传统BI用户。报表分发和移动商业智能(Mobile BI)在移动设备上增长显著;基于NoSQL数据库存储的多结构数据和基于位置的分析也逐渐兴起。社交媒体和文本分析,自然语言处理也日渐兴起。

根据Gartner 2013年的报告,商业智能BI系统被定义为提供17个能力的软件平台,覆盖分析,信息交付和集成三个方面。

  • 分析

1.联机分析处理OLAP:以传统OLAP风格对数据以多维度的视角进行快速且切片/切块和浏览,也可通过支持回写用于计划和What-If建模。

  2.交互式可视化:通过可视化选项,以图形图表的方式与数据进行交互和沟通,探索数据集的特征和规律,这是目前数据可视化探索的主要部分。

3.基于搜索的数据发现:利用类似搜索引擎的索引功能,作用于结构化和非结构化数据,并映射到维度/度量等分类结构上,供用户浏览和探索;

 4.地理空间和位置智能:提供地理/时空数据的的专门分析和可视化,通过在交互式地图上覆盖分析数据和映射来达到数据融合;

 5.嵌入式高级分析:在既有分析服务器上利用公共分析方法,比如PMML和R的模型来创建高级分析可视化的能力;

  • 信息交付

 

 1.报表功能:交互式地创建参数化报表、支持高度格式化和打印;

2.仪表板:以图形化展现企业组织运营和战略的实际/目标绩效度量;

3.即席查询:用一个可重复利用的语义层使用户能浏览可用的数据源,预定义度量和层次结构来自助解决用户的问题;

4.MS Office集成:能够集成到Excel 中充分利用Excel 数据进行分析和呈现,改善用户体验

5.移动商业智能:使企业能够开发移动应用,将分析结果分发到移动设备,并能利用移动设备自带的功能所带来的好处(比如触屏,相机,位置感知、自然语言查询)。

  • 集成

 1.统一的BI基础架构和管理:平台所有工具共享安全性/元数据/管理/对象模型/查询引擎和分发调度等

 2.元数据管理:提供集中一致的元数据对象模型和对应的元数据管理工具。

3.业务用户数据混搭和建模:不需要编码,用户通过鼠标拖放就能合并不同的数据源,分析模型创建等。比如自定义度量/集合,自定义分组和层次等,甚至包括自动语义发现和智能链接。

4.开发工具:提供可视化工具和二次开发平台,来创建报表、仪表板、查询和分析,并能够支持个性化的报表分发和调度,基于分析内容的条件预警等。

 5.嵌入式分析:提供SDK和API来创建和修改分析内容,可视化和应用程序,可将它们嵌入到企业的一个业务流程、应用或者企业门户中。

 6.协作:允许用户围绕具体的分析内容进行讨论,聊天、标注对信息,分析,分析内容和决策进行探讨。对报表或者报表元素提供评论服务(Comment Service)就是最主要的体现。

 7.大数据源支持:能够支持和查询列数据库,基于阵列、或者混合的数据源——比如MapReduce 和其他 NoSQL 数据库,可能是直接的HDFS查询或者通过Hive 访问MapReduce等。

2014年,确保对不同数据提供治理,规模和性能仍然主导BI市场的需求。越来越多的数据源(比如数据来自云端,实时事件和传感器,多结构数据等)和新的分析类型(比如网络分析,情感分析,机器学习新算法)引入使得分析变得额外复杂,然而这使得创造新的商业价值成为可能,行业竞争更加活跃。也有越来越多的企业自行开发贴合自身业务的分析功能,因此,2014年度Gartner的魔力象限显得特别活跃,上榜者也居然达到27家之多。

分析大师系列:商业智能的前世今生

(四)分化成熟

作为世界最为著名的IT调研机构,Gartner 每年都会根据IT领域的市场变化提供魔力象限和技术成熟度报告,从而影响企业的战略投资。2016年Gartner的BI和分析平台报告发生了显著的变化,因为它认为易于试用、购买和使用在BI和分析工具的评估中变得越来越重要,现代的BI和分析平台应该能够让非技术用户,也能自主地执行全自动的分析工作流程,包括数据准备、交互式分析、并能够对分析形成的洞察进行协作共享。它主要根据对五个主要用例方面的支持来对市场进行评估:受控的数据发现,去中心化分析,嵌入式BI,敏捷而集中的BI调配以及支持IT的工作流、BI和分析内容的外网部署。

然而Gartner 2016年的BI和分析平台报告并没有反映商业智能和分析平台市场的整体情况,而是侧重于几个纯BI的新玩家(如Tableau、Qlik)和描述性/诊断性分析用例(即发生什么/为什么发生?),也许,报告名称叫“自助服务商业智能工具魔力象限” 可能更加准确。那些具有更高商业价值的预测性分析(将会发生什么?)和规范性分析(我该怎办?)在该报告中并没有得到足够的体现,Gartner 将这些分析归入了另外一份高级分析特定的报告(如下图)。

分析大师系列:商业智能的前世今生

市场在过去的若干年里确实在不断变化。强大的交互式报告和仪表板、易于使用的分析用例依然是基本的分析需求;在工具之下,完全的数据治理和全面的数据管理能力依然是分析的重要支撑。数据准备、数据探索和可视化在大数据时代越来越重要,因为数据可能对所有的分析者而言都是陌生的。

基于桌面的BI解决方案虽然重要,但通过云服务实现的无需部署的Web访问,减少甚至消除了传统上所需的部署时间和资源。产品支持云部署、支持来自于云端的数据访问,包括在线社交媒体数据的实时访问、各种Hadoop数据和事件流处理等成为商业智能和分析领域的重要挑战和发展方向。另外,基于新数据源的分析(如文本、日志和位置信息)越来越常见。

2016年是预测分析和规范性分析在分析市场上增长最快的部分。SAS、IBM、KNIME和RapidMiner是这个高级分析领域的领导者。据Gartner的预测,到2018年全球一半以上的大型机构将使用高级分析和专有算法进行企业强力竞争;2020年高级分析将吸纳企业40% 在商业智能和分析领域的新投资。

高级分析采用复杂的定量方法,包括统计、描述性和预测性数据挖掘、机器学习、模拟和优化等对数据进行分析,形成传统BI查询和报告所无法发现的洞察。当然,执行分析将不只是针对专业的数据科学家和高级分析师,可视化的工作环境让平民数据科学家也能参与到数据分析中来。借助工作流复用,分析自动化、引导式分析能帮助分析人员极大地提高效率。

此外,高级分析平台还要求为开发分析模型,提供部署到端到端环境之能力。包括开发和构建分析模型的能力、模型部署(集成到业务流程应用程序中的能力),对基于平台的项目和模型的操纵、验证和跟踪能力,以及对海量数据/流式数据在速度和准确性上,具有高性能和高伸缩性提出要求。

结语

商业智能和分析行业冷静的观察者可能会得出一个结论:大数据时代的到来并没有引爆商业分析行业,反倒是一些BI领域的小公司借助相关概念和产品易用性,结合前端技术的进步吸引了部分客户。不过这些小公司虽然增长很快,但市场基数实在太小(2-4%),部署也以面向桌面应用为主,因此对整个市场不足于构成挑战和威胁!

商业智能行业的淘金山谷依然牧歌祥和,正在稳步走向云时代——不仅仅是数据本身,而且包括应用——都在走向云端!当然,大数据时代有个关键的特征是:数据分析人员只有通过数据可视化和交互式分析,才能真正理解数据,沟通数据,从而提炼数据的商业价值。哪家公司能够率提供将可视化数据探索、分析和价值发现流程融为一体的现代化产品线,帮助企业建立一个具有可持续发展的数据分析平台,才算真正把握了大数据时代分析的先机!

本文作者:巫银良,分析行业资深专家,大数据可视化分析负责人, SAS 北京研发中心商业智能和可视化分析产品部技术总监,资深商业智能技术专家。

【关于SAS】

SAS是数据分析领域的领导者。通过提供创新的分析、商业智能和数据管理软件与服务,SAS帮助全球超过80,000家用户更好、更快地进行决策。自1976年以来,SAS一直向全球客户提供知的力量(THE POWER TO KNOW®)。

原创文章,作者:xsmile,如若转载,请注明出处:http://www.17bigdata.com/%e5%88%86%e6%9e%90%e5%a4%a7%e5%b8%88%e7%b3%bb%e5%88%97%ef%bc%9a%e5%95%86%e4%b8%9a%e6%99%ba%e8%83%bd%e7%9a%84%e5%89%8d%e4%b8%96%e4%bb%8a%e7%94%9f/

更多内容请访问:IT源点

相关文章推荐

全部评论: 0

    我有话说: