经典数据挖掘案例集锦

一起大数据整理，转载请注明出处。

基于分类模型的案例

(1)垃圾邮件的判别

邮箱系统如何分辨一封Email是否属于垃圾邮件?这应该属于文本挖掘的范畴，通常会采用朴素贝叶斯的方法进行判别。它的主要原理是，根据邮件正文中的单词，是否经常出现在垃圾邮件中，进行判断。例如，如果一份邮件的正文中包含“报销”、“发票”、“促销”等词汇时，该邮件被判定为垃圾邮件的概率将会比较大。

一般来说，判断邮件是否属于垃圾邮件，应该包含以下几个步骤。

第一，把邮件正文拆解成单词组合，假设某篇邮件包含100个单词。

第二，根据贝叶斯条件概率，计算一封已经出现了这100个单词的邮件，属于垃圾邮件的概率和正常邮件的概率。如果结果表明，属于垃圾邮件的概率大于正常邮件的概率。那么该邮件就会被划为垃圾邮件。

(2)医学上的肿瘤判断

如何判断细胞是否属于肿瘤细胞呢?肿瘤细胞和普通细胞，有差别。但是，需要非常有经验的医生，通过病理切片才能判断。如果通过机器学习的方式，使得系统自动识别出肿瘤细胞。此时的效率，将会得到飞速的提升。并且，通过主观(医生)+客观(模型)的方式识别肿瘤细胞，结果交叉验证，结论可能更加靠谱。

如何操作?通过分类模型识别。简言之，包含两个步骤。首先，通过一系列指标刻画细胞特征，例如细胞的半径、质地、周长、面积、光滑度、对称性、凹凸性等等，构成细胞特征的数据。其次，在细胞特征宽表的基础上，通过搭建分类模型进行肿瘤细胞的判断。

基于预测模型的案例

红酒品质的判断

如何评鉴红酒?有经验的人会说，红酒最重要的是口感。而口感的好坏，受很多因素的影响，例如年份、产地、气候、酿造的工艺等等。但是，统计学家并没有时间去品尝各种各样的红酒，他们觉得通过一些化学属性特征就能够很好地判断红酒的品质了。并且，现在很多酿酒企业其实也都这么干了，通过监测红酒中化学成分的含量，从而控制红酒的品质和口感。

那么，如何判断鉴红酒的品质呢?

第一步，收集很多红酒样本，整理检测他们的化学特性，例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。

第二步，通过分类回归树模型进行预测和判断红酒的品质和等级。

搜索引擎的搜索量和股价波动

一只南美洲热带雨林中的蝴蝶，偶尔扇动了几下翅膀，可以在两周以后，引起美国德克萨斯州的一场龙卷风。你在互联网上的搜索是否会影响公司股价的波动?

很早之前，就已经有文献证明，互联网关键词的搜索量(例如流感)会比疾控中心提前1到2周预测出某地区流感的爆发。

同样，现在也有些学者发现了这样一种现象，即公司在互联网中搜索量的变化，会显著影响公司股价的波动和趋势，即所谓的投资者注意力理论。该理论认为，公司在搜索引擎中的搜索量，代表了该股票被投资者关注的程度。因此，当一只股票的搜索频数增加时，说明投资者对该股票的关注度提升，从而使得该股票更容易被个人投资者购买，进一步地导致股票价格上升，带来正向的股票收益。这是已经得到无数论文验证了的。

Google成功预测冬季流感

2009年，Google通过分析5000万条美国人最频繁检索的词汇，将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较，并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。

具体请参考医疗与大数据：Google 搜索行为预测流感疫情的实验分析（主要原理是logtic回归分析）

大数据分析技术应用揭秘谷歌票房预测模型

2013年6月，谷歌公布了一项重要研究成果 – 电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入，准确度高达94%。这在业内引起了强烈讨论，不少内人士认为该模型非常适合好莱坞电影公司通过预测票房来及时调整电影营销战略，但同时也有吐槽者暗示谷歌的票房预测模型别有用心，旨在鼓动电影公司购买其搜索引擎广告。那么，孰是孰非，谷歌票房预测模型以及大数据在电影行业的应用是嘘头，还是大有来头，让我们来一探究竟。

谷歌票房预测模型的基础：电影相关的搜索量与票房收入的关联

谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联网的发展，人们越来越习惯于在网上搜索电影信息。据谷歌统计，从2011到2012年，电影相关的搜索量增长了56%.谷歌发现，电影相关的搜索量与票房收入之间存在很强的关联。

图1显示了2012年电影票房收入（红色）和电影的搜索量（灰色）的曲线（注：本文的所有图片均引用自谷歌的白皮书：Quantifying Movie Magic with Google Search）。可以看到，两条曲线的起伏变化有着很强的相似性。

（红色是票房收入，灰色是搜索量，横轴是月份，纵轴是数量）

更进一步地，谷歌把电影的搜索分成了两类：

I. 涉及电影名的搜索（Movie Title Search）；

II. 不涉及电影名的搜索（Non-Title Film-Related Search）。这类搜索不包含具体的名字，而是一些更宽泛的关键词搜索，如“热门电影”、“爱情片”、“好莱坞电影”等。

图2显示了票房收入与这两类搜索量之间的关系。从图上可以看到，大部分情况下，第I类搜索量超过第II类搜索量。但在电影淡季的时候（图中灰色椭圆区域，这时候票房收入较低），第I类搜索量会低于第II类搜索量。这符合常理，因为在淡季的时候知名度高的电影很少，人们往往用更宽泛的搜索来寻找想看的电影。

图2. 2012年票房收入和两类搜索量的曲线

（红色代表票房收入，蓝色代表第I搜索，灰色代表第II类搜索，横轴是月份，纵轴是数量）

这一发现对电影的网络营销来说有一定的指导意义：在淡季的时候，电影公司可多购买相对宽泛的关键词的广告，而在旺季的时候，多购买涉及电影名的、更具体的关键词的广告。
「提前一周预测票房，可达到92%的准确度」

上面的讨论表明用电影的搜索量来预测票房是有可能的。那么，如果单纯使用搜索量来预测首周票房收入，效果怎么样？通过对2012年上映的99部电影的研究，谷歌发现仅依靠搜索量来预测是不够的。谷歌尝试构建了一个线性的模型，但只达到了70%的准确度（如图3）。

图3. 搜索量与首周票房收入之间的关系

（横轴是搜索量，纵轴是首周票房收入，灰色点对应某部电影的搜索量与首周票房收入）

为了构建更加精确的预测模型，谷歌最终采用了四类指标：

（1）（电影放映前一周的）电影的搜索量

（2）（电影放映前一周的）电影广告的点击量

（3）上映影院数量

（4）同系列电影前几部的票房表现

其中每类指标又包含了多项类内指标。

在获取到每部电影的这些指标后，谷歌构建了一个线性回归模型（linear regression model）模型，来建立这些指标和票房收入的关系。线性回归模型，在大数据分析领域里算是最基本的模型之一，它认为票房收入与这些指标之间是简单的线性关系。

图4展示了模型的效果，其中灰色点代表了实际的票房收入，红色点代表了预测的票房收入。可以看到，预测的结果与实际的结果差异很小。

图4. 提前一周预测票房的效果

（横轴是搜索量，纵轴是首周票房收入，灰色点对应某部电影的首周票房收入，红色点对应预测的首周票房收入）

「提前一个月预测票房，可达到94%的准确度」

尽管提前一周预测可以达到92%的准确度，对于电影的营销来说，价值并不大，因为一周的时间往往很难调整营销策略，改善营销效果。因此，谷歌又进一步研究，使得模型可以提前一个月预测首周票房。

实现提前一个月预测的关键在于：谷歌采用了一项新的指标 – 电影预告片的搜索量。谷歌发现，预告片的搜索量比起电影的直接搜索量而言，可以更好的预测首周票房表现。这一点不难理解，因为在电影放映前一个月的时候，人们往往更多地搜索预告片。

仅使用预告片的搜索量仍然不够，因此谷歌的模型最终采用了三类指标：

（1）电影预告片的搜索量

（2）同系列电影前几部的票房表现

（3）档期的季节性特征

其中每类指标又包含了多项类内指标。

在获取到每部电影的这些指标后，谷歌再次构建了一个线性回归模型（linear regression model）模型，来建立这些指标和票房收入的关系。

图5展示了模型的效果，其中灰色点代表了实际的票房收入，红色点代表了预测的票房收入。可以看到，预测结果与实际结果非常接近。

图5 提前一个月预测票房的效果

（横轴是预告片搜索量，纵轴是首周票房收入，灰色点对应实际某部电影的首周票房收入，红色点对应预测的首周票房收入）

为什么谷歌采用了这么简单的模型

前面的分析中已经提到，谷歌采用的是数据分析中最简单的模型之一-线性回归模型。这对很多读者来说多少有点意外。为什么谷歌用的模型如此简单？

首先，线性模型虽然简单，但已经达到了很高的准确度（94%）。简单且效果好，是我们在实际应用中一直追求的。

其次，简单的模型易于被人们理解和分析。大数据分析技术的优势正是能够从大量数据中挖掘出人们可以理解的规律，从而加深对行业的理解。正是因为谷歌使用了线性预测模型，所以它很容易对各项指标的影响做出分析。例如谷歌的报告中给出了这样的分析结论：“距离电影上映一周的时候，如果一部影片比同类影片多获得25万搜索量，那么该片的首周票房就很可能比同类影片高出430万美元。若一部电影有搜索引擎广告，我们也可以通过其广告的点击量来推测票房表现——如果点击量超出同类电影2万，那该片首周票房将领先750万美元”。

对于电影的营销来说，掌握各项指标对票房收入的影响，可以优化营销策略，降低营销成本。谷歌的报告中指出，用户一般会通过多达13个渠道来了解电影的信息。票房预测模型的出现无疑使得营销策略的制定更加有效。

大数据分析在电影行业的应用前景：把模糊的行业经验变得更科学，更精准

票房预测模型的公布，让业内人士再次见证了大数据的成功应用。近年来，大数据在电影行业的应用越来越引起关注，比如此前谷歌利用搜索数据预测了奥斯卡获奖者，Neflix通过大数据分析深度挖掘了用户的喜好，捧红了《纸牌屋》等。但大数据对电影行业的价值到底如何，仍然众说纷纭。梦工厂CEO卡森伯格最近接受腾讯财经专访时发表了一个似乎悲观的态度：电影创作靠创造力，不靠数据分析。

要理解大数据对电影行业的影响，首先需要对大数据分析有正确的认识。大数据分析的本质，在于通过数据，更精准地挖掘用户的需求。而谁能掌握用户的需求，谁就可以引领行业的发展。谷歌的票房预测模型，本质上也是通过搜索量，挖掘出用户对电影的需求有多大，进而预测出票房收入。值得注意的是，谷歌的模型基于的只是宏观的搜索量的统计，对用户需求的挖掘相对表面。如何从搜索数据中更深地挖掘用户的需求将是未来的趋势之一。

既然大数据分析的核心是挖掘用户需求，所以一大核心问题是：哪些用户的需求是可以从数据中挖掘到的？要知道，并不是任何需求都可以被挖掘到，或者说可以被精准地挖掘到。能够通过大数据分析挖掘到的需求，一般是符合行业经验的，应当是业内人士觉得可以被挖掘的（有时候，挖掘出的需求可能会超出行业经验，甚至产生颠覆性的影响）。谷歌的预测模型的基本假设，是符合行业直觉的，即电影的搜索量越大，往往票房收入越大。模型能够提前一个月预测票房，也符合行业经验，正如谷歌的一项行业调研揭示的：大多数观众会在电影首映4周前去了解电影。数据分析技术，是把这种模糊的行业经验，变得更科学，变得更精准。而这一过程，很可能会深层次地改变电影行业。

要将大数据分析更广泛地应用于电影行业，可以从以下几个方面去探索：

一. 我们可以获得哪些数据。大数据时代的特点是数据来源广泛，可以是业内发布的数据，也可以是来自搜索引擎、社交媒体等的数据。有些数据看似关联不强（比如社交媒体数据），但往往能从中挖掘到用户的潜在需求。

二. 从数据中，我们想挖掘什么信息。谷歌的模型，挖掘了搜索量等数据与票房收入的关联；Netflix的模型，则挖掘了观众对不同电影的偏好，以及其他的行为特点。挖掘什么信息，一方面取决于我们有哪些数据，另一方面也取决于什么样的信息可能有助于商业决策。

三. 有什么行业经验是可以结合的。单纯地数据分析，可能会找到很多规律，但这些规律未必是有实际价值的。只有当数据结合行业经验，才更容易形成精准的行业模型，从而产生巨大的价值。

而卡森伯格说的“不靠数据”，更多的是强调电影创作本身。电影的创作充满了艺术，是很难形成科学的规律的。即便如此，大数据对电影创作也可以起到一定的辅助作用。毕竟，了解观众的需求，也是电影创作的重要参考。

文：史源

微软大数据成功预测奥斯卡21项大奖

2013年，微软纽约研究院的经济学家大卫•罗斯柴尔德（David Rothschild）利用大数据成功预测24个奥斯卡奖项中的19个，成为人们津津乐道的话题。今年罗斯柴尔德再接再厉，成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个，继续向人们展示现代科技的神奇魔力。

《纸牌屋》的大数据力量：巫术一般的精准营销

来自 http://www.sarft.net/a/111454.aspx

一部《纸牌屋》，让全世界的文化产业界都意识到了大数据的力量。《纸牌屋》的出品方兼播放平台Netflix在一季度新增超300万流媒体用户，第一季财报公布后股价狂飙26%，达到每股217美元，较去年8月的低谷价格累计涨幅超三倍。这一切，都源于《纸牌屋》的诞生是从3000万付费用户的数据中总结收视习惯，并根据对用户喜好的精准分析进行创作。

《纸牌屋》的数据库包含了3000万用户的收视选择、400万条评论、300万次主题搜索。最终，拍什么、谁来拍、谁来演、怎么播，都由数千万观众的客观喜好统计决定。从受众洞察、受众定位、受众接触到受众转化，每一步都由精准细致高效经济的数据引导，从而实现大众创造的C2B，即由用户需求决定生产。

如今，互联网以及社交媒体的发展让人们在网络上留下的数据越来越多，海量数据再通过多维度的信息重组使得企业都正在谋求各平台间的内容、用户、广告投放的全面打通，以期通过用户关系链的融合，网络媒体的社会化重构，为广告用户带来更好的精准社会化营销效果。

因果巫术

大数据技术的主要功能是对未来事态的预测和对未知事物的预态。但与占卜不同的是，大数据技术使用的方法是通过海量数据的挖掘和发掘某种预后的迹象，而占卜使用的方法是基于原始生化思维的预测和想象。

大数据的占卜预判属性让人们相信在一行行的代码和庞大数据库的背后存在着有关人类行为模式的客观、普遍的有价值的见解，不管是消费者的支出规律、犯罪或恐怖主义行动、健康习惯，还是雇员的生产效率。

作为大数据分析的直接受益者，梦芭莎集团董事长佘晓成在前段时间在广州举办的“2013年腾讯智慧峰会”上，提出企业要打造自己的数据库，形成有价值的第一方数据。“大数据的导航作用使得我们在生产过程中就能够及时的调整，我们做了以后库存每季售罄率从80%提升到95%，实行30天缺货销售，能把30天缺货控制在每天订单的10%左右，比以前有3倍的提升。”佘晓成说。

不过，对于腾讯来说，数据的抓取及分析，其难度在于数据太过复杂多样。腾讯网络媒体事业群广告平台部总经理郑靖伟表示，所谓大数据平台里面有太多复杂多样的数据，光是QQ就是不同类型的人在使用，如何将这些人的数据分类归纳是一个非常棘手的问题。

对此，腾讯网络媒体事业群微博事业部总经理邢宏宇对此认为，未来智能化媒体的核心技术驱动，应该是大数据的技术。社交媒体的公开数据，可以通过信息交叉验证，以及内容之间的关联等方式，产生更大价值。

“微博上有一个体验叫‘微热点’，当看到某一条微博讲香港大黄鸭的时候，你不知道是怎么回事，会有一个热点，点过去之后是通过我们挖掘的力量把事件的来龙去脉呈现出来，这样就减少了用户获取信息的成本。”邢宏宇说。据其介绍，新版腾讯微博利用后台大数据技术，将用户的微博信息进行整合、重组，将具有相同、相近信息的微博配以热门“标签”，用户通过进入标签，可浏览到一个清晰完整的关于此热门事件的发展脉络以及走向，对于后期参与到事件的讨论和互动产生积极的影响。

精准营销

大数据技术的占卜预判功能，意味着一个拥有亿级用户的社交网络平台若能够通过对大数据的解构，为企业提供个性化、智能化的广告推送和服务推广服务，则意味着企业可以抢占更大的商业空间。

伴随着社交媒体的兴起，消费者对广告行为的依赖方式已经发生变化，传统的广告和营销手法其实更难奏效。“这个年代在做市场营销的如果不了解移动化的概念，很难去理解消费者，碎片化的消费场景已经让实体店发生变化了。”腾讯网络媒体事业群总裁、集团高级执行副总裁刘胜义如是表示。

对此，星巴克中国市场推广部副总裁韩梅蕊认为，社交媒体可以帮助企业与消费者进行良好的互动，也使得整个营销变得更加精准，在韩梅蕊看来，星巴克没有可口可乐那么广泛的渠道，因此广告必须更加富有针对性，而社交媒体对大数据的解构可以解决这个问题。

因此，星巴克在线下已经有大量用户的情况下，并没有以增加新顾客为第一出发点来进行社会化营销，而是为维护老顾客为主，通过老顾客的口碑称颂来实现新顾客的增长。因为在消费者决策链中，由消费者自己驱动的营销变得越来越重要。

如今，消费者获取信息的渠道和范围已经大大增加。他们已经不再听任企业的摆布，而是追求更加个性化的产品和服务，并根据搜集来的各种信息做出判断、随时分享，将个人体验的影响扩大到更大范围的群体之中。

在社交媒体时代，大数据还是发动机，是让用户不断转化的平台。相应的，营销由独立转为系统性工程，而数据在营销全程中扮演的角色，也必然要由参考工具转向驱动发动机。数据驱动的精准营销引擎，将颠覆传统的营销决策模式及营销执行过程，给网络营销行业乃至传统行业带来革命性的冲击。

每一次营销，都将形成循环效果。通过定位用户群、分析用户内容偏好、分析用户行为偏好、建立受众分群模型、制定渠道和创意策略、试投放并收集数据、优化确定渠道和创意、正式投放并收集数据、实时调整投放策略、完成投放评估效果等，完整的数据应用过程不断把控营销质量与效果，实现从效果监测转向效果预测。

“尽管社交媒体让整个广告营销更加精准化，但也要根据产品和服务的特性来决定是否采取精准化营销。”郑靖伟向记者表示，一些快速消费品并不太适合精准化营销，户外、电视以及报刊等传统媒介对于快速消费品依旧有很强的吸引力。

值得注意的是，社交媒体对于大数据的解构不可避免地带来隐私问题，当用户在使用电子邮件、社交网络的时候，大概也会知道自己的信息将被记录下来，当用户发表的言论或者分享的照片、视频等，都决定着互联网运营商将向你推荐什么样的资源和广告；当用户拿着智能手机满世界跑的时候，手机厂商们早已通过定位系统把你的全部信息收罗在自己的数据库里，利用这些信息来构建地图和交通信息等。

以前，这些记录几乎不会对普通人造成影响，因为它的数量如此巨大，除非刻意寻找，人们不会注意其中的某些信息。但是，随着大数据技术的不断进步，这一状况正在悄然发生改变。这也是“数”变时代下，企业和消费者都面临的挑战。

Target和怀孕预测指数

关于数据挖掘的应用，最近还有这样一个真实案例在数据挖掘和营销挖掘领域广为流传。

美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺（美国第三大零售商塔吉特）进行抗议：“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。”店铺经理立刻向来者承认错误，但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。如图所示。一个月后，这位父亲来道歉，因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。

Target能够通过分析女性客户购买记录，“猜出”哪些是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕高度相关的商品，制作“怀孕预测”指数。比如他们发现女性会在怀孕四个月左右，大量购买无香味乳液。以此为依据推算出预产期后，就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购买。

如果不是在拥有海量的用户交易数据基础上实施数据挖掘，Target不可能做到如此精准的营销。

基于关联分析的案例：沃尔玛的啤酒尿布

啤酒尿布是一个非常非常古老陈旧的故事。故事是这样的，沃尔玛发现一个非常有趣的现象，即把尿布与啤酒这两种风马牛不相及的商品摆在一起，能够大幅增加两者的销量。原因在于，美国的妇女通常在家照顾孩子，所以，她们常常会嘱咐丈夫在下班回家的路上为孩子买尿布，而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。沃尔玛从数据中发现了这种关联性，因此，将这两种商品并置，从而大大提高了关联销售。

啤酒尿布主要讲的是产品之间的关联性，如果大量的数据表明，消费者购买A商品的同时，也会顺带着购买B产品。那么A和B之间存在关联性。在超市中，常常会看到两个商品的捆绑销售，很有可能就是关联分析的结果。

基于聚类分析的案例：零售客户细分

对客户的细分，还是比较常见的。细分的功能，在于能够有效的划分出客户群体，使得群体内部成员具有相似性，但是群体之间存在差异性。其目的在于识别不同的客户群体，然后针对不同的客户群体，精准地进行产品设计和推送，从而节约营销成本，提高营销效率。

例如，针对商业银行中的零售客户进行细分，基于零售客户的特征变量(人口特征、资产特征、负债特征、结算特征)，计算客户之间的距离。然后，按照距离的远近，把相似的客户聚集为一类，从而有效的细分客户。将全体客户划分为诸如，理财偏好者、基金偏好者、活期偏好者、国债偏好者、风险均衡者、渠道偏好者等。

分群结果示例：

客户群编号	客户群名称	占总体客户的比例	呼叫行为	使用其他增值业务的频率	利润的比例	利润比例除以客户比例的比率
0	年轻而且消费能力强的客户	12.0%	很频繁	中等	21.8%	1.82
1	真正的移动客户	8.5%	很频繁	高	13.9%	1.64
2	年轻客户	7.5%	中等	高	7.1%	0.95
3	本地客户	11.1%	频繁	低	15.0%	1.35
4	晚间客户	7.8%	中等	低	6.9%	0.88
5	使用增值业务的用户	9.7%	少	高	6.3%	0.65
6	保守用户	11.9%	中等	低	11.1%	0.93
7	经济群体	13.6%	少	低	9.5%	0.70
8	基础群体	18.1%	很少	低	8.4%	0.46

基于异常值分析的案例：支付中的交易欺诈侦测

采用支付宝支付时，或者刷信用卡支付时，系统会实时判断这笔刷卡行为是否属于盗刷。通过判断刷卡的时间、地点、商户名称、金额、频率等要素进行判断。这里面基本的原理就是寻找异常值。如果您的刷卡被判定为异常，这笔交易可能会被终止。

异常值的判断，应该是基于一个欺诈规则库的。可能包含两类规则，即事件类规则和模型类规则。第一，事件类规则，例如刷卡的时间是否异常(凌晨刷卡)、刷卡的地点是否异常(非经常所在地刷卡)、刷卡的商户是否异常(被列入黑名单的套现商户)、刷卡金额是否异常(是否偏离正常均值的三倍标准差)、刷卡频次是否异常(高频密集刷卡)。第二，模型类规则，则是通过算法判定交易是否属于欺诈。一般通过支付数据、卖家数据、结算数据，构建模型进行分类问题的判断。

基于协同过滤的案例：电商猜你喜欢和推荐引擎

电商中的猜你喜欢，应该是大家最为熟悉的。在京东商城或者亚马逊购物，总会有“猜你喜欢”、“根据您的浏览历史记录精心为您推荐”、“购买此商品的顾客同时也购买了**商品”、“浏览了该商品的顾客最终购买了**商品”，这些都是推荐引擎运算的结果。

这里面，确实很喜欢亚马逊的推荐，通过“购买该商品的人同时购买了**商品”，常常会发现一些质量比较高、较为受认可的书。

一般来说，电商的“猜你喜欢”(即推荐引擎)都是在协同过滤算法(Collaborative Filter)的基础上，搭建一套符合自身特点的规则库。即该算法会同时考虑其他顾客的选择和行为，在此基础上搭建产品相似性矩阵和用户相似性矩阵。基于此，找出最相似的顾客或最关联的产品，从而完成产品的推荐。

基于社会网络分析的案例：

电信中的种子客户

种子客户和社会网络，最早出现在电信领域的研究。即，通过人们的通话记录，就可以勾勒出人们的关系网络。电信领域的网络，一般会分析客户的影响力和客户流失、产品扩散的关系。

基于通话记录，可以构建客户影响力指标体系。采用的指标，大概包括如下，一度人脉、二度人脉、三度人脉、平均通话频次、平均通话量等。基于社会影响力，分析的结果表明，高影响力客户的流失会导致关联客户的流失。其次，在产品的扩散上，选择高影响力客户作为传播的起点，很容易推动新套餐的扩散和渗透。

此外，社会网络在银行(担保网络)、保险(团伙欺诈)、互联网(社交互动)中也都有很多的应用和案例。

QQ圈子把前女友推荐给未婚妻

2012年3月腾讯推出QQ圈子，按共同好友的连锁反应摊开用户的人际关系网，把用户的前女友推荐给未婚妻，把同学同事朋友圈子分门别类，利用大数据处理能力给人带来“震撼”。

基于文本分析的案例

字符识别：扫描王APP

手机拍照时会自动识别人脸，还有一些APP，例如扫描王，可以扫描书本，然后把扫描的内容自动转化为word。这些属于图像识别和字符识别(Optical Character Recognition)。图像识别比较复杂，字符识别理解起来比较容易些。

查找了一些资料，字符识别的大概原理如下，以字符S为例。

第一，把字符图像缩小到标准像素尺寸，例如12*16。注意，图像是由像素构成，字符图像主要包括黑、白两种像素。

第二，提取字符的特征向量。如何提取字符的特征，采用二维直方图投影。就是把字符(12*16的像素图)往水平方向和垂直方向上投影。水平方向有12个维度，垂直方向有16个维度。这样分别计算水平方向上各个像素行中黑色像素的累计数量、垂直方向各个像素列上的黑色像素的累计数量。从而得到水平方向12个维度的特征向量取值，垂直方向上16个维度的特征向量取值。这样就构成了包含28个维度的字符特征向量。

第三，基于前面的字符特征向量，通过神经网络学习，从而识别字符和有效分类。

文学著作与统计：红楼梦归属

这是非常著名的一个争论，悬而未决。对于红楼梦的作者，通常认为前80回合是曹雪芹所著，后四十回合为高鹗所写。其实主要问题，就是想确定，前80回合和后40回合是否在遣词造句方面存在显著差异。

这事让一群统计学家比较兴奋了。有些学者通过统计名词、动词、形容词、副词、虚词出现的频次，以及不同词性之间的相关系做判断。有些学者通过虚词(例如之、其、或、亦、了、的、不、把、别、好)，判断前后文风的差异。有些学者通过场景(花卉、树木、饮食、医药与诗词)频次的差异，来做统计判断。总而言之，主要通过一些指标量化，然后比较指标之间是否存在显著差异，藉此进行写作风格的判断。

传统银行的转型实战——看工商银行如何利用大数据洞察客户心声？

张佶

工商银行技术经理

工商银行在大家传统的印象当中是一个体形非常庞大但是稳步前行的形象，但是近些年来在大数据的挑战下工商银行积极应对外界变化，做一些转型。其中一个举措就是通过数据应用驱动业务变革。今天我所分享的主题就是和银行的客户服务相关的，如何应用文本挖掘技术洞察客户的心声。

工商银行每天都在面临着来自各方的海量的客户心声，最近我们的95588接到这样一个来电，李先生做了一笔跨行汇款操作，对方还没有收到，他来询问什么时候可以到帐，这是一个典型的咨询。客户王先生是一个贵宾客户，他来电反映说在机场和火车站没有享受到工行提供的贵宾厅，他希望工行在以上场所做明显提示。还有张小姐到一个支行网点做存款业务，发现里面柜员服务态度不耐烦，让她很不满意，她要求把这个情况记录下来做一个反映，这是一个典型的投诉。

除了官方服务渠道之外，现在客户越来越希望通过互联网社交网络的方式表达他们的心声，并探讨热点话题。最近我们监测到这样一个热点话题的讨论，有人说“大家看清楚了，针孔摄像头就是这样装进ATM机偷看你的密码的。”这是一个风险事件，工商银行需要做到及时了解和掌握。

同时在互联网的新闻网站上最近也有一些报道，有的市民在便利店蹭WiFi，上了两个小时网，他的银行卡就被盗刷了，这个又是怎么办到的，工商银行需要对这些事件做到了解掌控，并且制定对应的措施。以上这些信息都是以文本方式存在的，我们可以通过文本挖掘的方法了解用户在说什么，挖掘出对我们有价值的信息，这对工商银行客户服务的提升会有很大的帮助。

传统客户服务分析流程

首先我们了解一下传统银行客户服务的分析流程。当我们的客户拨打95588热线电话之后，客服座席会把他说的话和要求记录下来，存到客户之声系统之中，系统会对结构化的部分进行分析，比如投诉的数量、客户对我们满意度的打分或问题处理时效。

对于其中非结构化数据的部分，就是客户说了什么当时没办法做自动分析，这只能由分析人员逐个来看，但毕竟数量比较多，人工阅读做不到非常全面，只能做抽查，大概看看客户在说什么。我们监测分析人员同时还会去登录一些新闻网站了解一下近期有没有跟工行相关的事情发生，然后他会把这个情况记录下来，人工编写这么一个服务的报告。当时对我们的社交媒体是没有办法做到关注的。

结合文本挖掘的客户服务分析流程

在结合了文本挖掘技术之后有了一些流程变化，不仅对结构化数据做分析，同时也能够从客户反馈的文本当中提取出客户的热点意见，再把热点去和结构化数据做关联分析，就能得到更加丰富的分析场景，这在后面会有一个详细的介绍。

同时，我们又新建了一套互联网的监测分析系统，能够对互联网上的金融网站和社交媒体网站做到自动的监控和分析，当然有些重要的事情发生的时候可以自动的形成监测报告。

从刚才服务流程的演变可以看到有了一些挖掘的功能，首先从技术来说丰富了分析的手段，原来只能对结构化进行分析，现在能够对文本数据客户所说的内容进行分析，然后扩大了分析的范围，原来只能关注到工商银行官方服务渠道所记录下来的信息，现在能够关注到在互联网上所传播的信息。第三点是提升了分析的效率，原来需要员工逐条阅读工单，现在机器自动阅读。

客户意见挖掘业务价值

这些技术提升点之后就能在打响的文本反馈当中发现客户的热点意见集中在哪些方面，如果我们能够对这些客户所反映的共性问题主动发起一些措施，优化我们的业务流程，可以提升我们的客户满意度和客户忠诚度，而另一方面这些来电的投诉量会进一步的减少，也就从另一方面降低我们的服务成本，减少了二次被动的服务投入。

案例分析

今天想分享两个具体的案例，一个是对95588客户服务的一些工单如何做到客户意见挖掘，这个是从无到有的设计和探索的全过程；第二个案例当中会介绍一下如何聆听在互联网上传播的客户的心声。

客户意见发掘——业务目标

通过95588服务热线记录大量的客户反馈的文本，拿到一堆文本之后怎么切入客户的意见挖掘呢？最重要的是先对客户做分类，结合业务的处理流程设计这么一套适用于银行客户意见的分类体系，当有投诉过来的时候就知道他所说的是关于自助服务的还是银行卡、还是关于网点服务的。这样我们就能分析各个类别里不同的发展趋势并且进行有效处理。

但有了意见分类还不够，我们知道哪一类的意见是最多的，我们尝试性做热词分析，文本由大量的词汇构成的，我们想看一下在这么多的客户反馈文本当中大家提到哪些词汇，从中提取客户说的最多的、最频繁使用的词汇，用可视化的方式生成一个词语。

从这个图上我们就能看到有一些效果，包括像工作人员、机具、查询、词汇等等凸显出来。在这个图上所反应的信息不够精准，我们只知道有一些关于工作人员的评价或描述，但是不知道工作人员到底出现什么问题，我们的自助机具到底是故障比较多还是客户不会用。同时这个图当中还存在多词疑义的问题，工作人员和柜员两个词说的是类似的问题，这对我们造成干扰。

如何精准概括客户意见？我们提出统一的、概括的用户观点的表达方式，就是对象、属性、评价三元组的形式。下面这个例子有四句话：柜员说话口气非常差。今天在柜台办业务，里面的人态度很差；柜员脾气不好，柜员语气很不耐烦。用我们的属性评价方式概括就是“柜员态度不好”。

有了这样的方式之后对刚才的词云做分析，发现刚才的词云已经演变成了意见云，这些意见都是指向非常明确的比较精准的，比如说网银跨行汇款不成功，短信余额变动不能接收，网点效率低，网点排队时间过长，相信大家对这些问题也并不陌生，在有了这个图之后我们的分析师就能够比较直观的了解最需要去改进的问题，客户的意见都聚集在哪些方面。

客户意见挖掘——模型建立

有了刚才的这些设计方式之后，我们可以怎么样选择最贴合我们业务场景的分析方法，刚才我们首先提到了需要对文本做自动分类，我们最容易想到的就是朴素贝叶斯，它可以计算一篇文章属于哪个类别的概率最大，可以完成分类。

但是进行实际分析和尝试的过程当中发现这样一个典型的算法，在我们的实际业务场景上其实并不是特别的适用，首先我们缺少训练数据，因为我们这一套意见类别的分类体系是新建的，历史上并没有积累好数据，如果我们重新去标注呢，这些意见类别又特别多，有的类别层次又比较深，所以很难在比较短的时间内完成高质量的标注。

其次，朴素贝叶斯假设的就是文本当中的词汇与词汇之间是相互独立的，跟我们的业务也不相符合，比如之前提到的“态度不好”这两个词基本是会关联出现的，不会单独分开出现，如果单独统计也就失去了意义。

所以我们发现当我们的业务描述语言和业务描述逻辑非常复杂的时候，统计的准确度都不会太高。刚才又提到需要自动提取对象属性评价用户观点，一开始用户的观点是在讨论一个个话题，是不是可以用基于LDA这样的模型完成话题的提取呢？

我们也做一些尝试，最后发现像LDA提取出来的话题有时候过粗，不适合我们的具体业务，比如我们想要的是“柜员态度不好”，最后只能精确到柜员描述的层面，作为一个非精度的模型比较难以调优，有某几个话题质量不是太高甚至存在重复话题的时候，没有办法做针对性的调优，最重要的一点还是它的可警示性比较差，分析出一些主题之后没有办法把话题归纳成我们所需要的对象属性的评价形式。

既然我们尝试过一些典型的传统方法不太适用的时候，接下来怎么办？我们选择了本体模型，从具体的实际业务出发建立这样一套适用于业务的一套本体体系，首先介绍一下本体是什么概念？

本体最早是一个哲学概念，在哲学层面指的是现实世界中事物的具体存在，比如我手上拿的话筒具体的事物存在就是本体，比如我们还可以称它话筒或麦克风，甚至可以拿一张话筒的图片来描述它。

把本体概念引申到信息科学的语义层面就变成知识科学体系。首先我们用本体表示多层次的业务分类或具体的业务目标，本体业务可以由要素和概念两个不同的层面构成，要素是业务层次，一般描述业务对象或业务属性，这跟我们的专业领域相关，需要专家来维护，在银行领域就需要维护像“信用卡”和“借记卡”这样的业务要素。

概念是语言层次，描述基础的语言概念，比如说我们对时间怎么描述、对地点怎么描述，包括人的情绪或者人对事物的评价等等，这些语言概念由于基础的资源，它跟专业的业务领域是不相关的，这就可以由我们的技术人员协助业务专家做一些收集和积累，比如说常见的一些语言概念，比如对于“不及时”怎么说，对于“异常”有哪些说法。

在我们的设计当中把业务层次和语言层次进行了相互分离，这样的事情就有两方面的好处，我们的业务专家就可以专注在业务要素的维护上，而不需要再去关注语言上的表达细节。另外，这些语言概念有些是不相关的，就有比较高的附庸性。

本体模型的示例和难点

具体模型示例，我们建立的银行客户建立本体体系，跟刚才提到的客户分类体系是完全一致的，这里面有一个本体叫“工作人员”，它又可以和对象要素和属性要素进行关联，对象要素包括柜员、保安、保洁、大堂经理，属性要素包括态度、业务熟练度，本体和要素又同时可以从第三个层次“概念”里相互关联，概念像好、快、热情、熟练、故障。

通过对象要素、属性要素和评价概念这三者进行相互连接和组合就能够构成我们对工作人员这个本体挖掘表达式的设置，从中得到我们想要的三因素，比如像柜员态度好、大堂经理业务熟练，同时我们只要知道这个观点是在描述柜员或者保安，能够把这样一个情况给分类到工作人员这个类别下。

刚才介绍到这里的时候大家会感受到一个本体模型明显的问题和难点，这些本体还是依赖于人工梳理，人工很难，我们采用的是基于深度学习的本体半自动构建方式，其中一个方式就是对文本当中邻近词汇做剪辑，我们具体使用的是 Google 开源的 Word2Vec 词向量模型。

这些词向量具有一个特点，它的纬度是固定的，避免了传统空间向量模型当中维数灾难的问题。由于我们已经用词汇向量表示一个词汇的含义，向量之间又是可以加起来的，所以我们在大量文本的背后可以分析出潜在的语言学的规律，最典型的例子是国王-皇后等于男人-女人。

在实际运用中是不是有比较好的表现呢？我们做了一些尝试，最后有一些定律定义词汇之间语义的相关性。从这个例子当中看到效果还是不错，对ATM这个语义最相近的词汇有ATM机、取款机、自动取款机、柜员机、自助机。还有“好”这个词语义最相近的比如温柔、利索、忙前忙后、谦虚、和蔼可亲。可以看到Word2Vec是有一个比较好的表现。

进一步看一下Word2Vec能不能帮助我们的业务要素找到最靠谱的平台概念。做一个尝试，有三个比较常用的业务对象，包括短信、柜员和保险，设置了一组评价概念的词汇，通过Word2Vec找到了这些概念和评价词汇之间的相似度，标红的部分是明显高于其它的连接方式的。

能够看到短信连接到漏发、错发、诈骗，柜员可以连接到怠慢、欺骗、误导，保险可以连接到欺骗、诈骗和误导，这确实能够有效帮助我们辅助人工做梳理，缩短整个模型构建的周期。

客户意见挖掘——实施效果

既然有了客户意见表示方式，接下来应用于什么业务场景当中。首先把客户个体意见和客户星级数据做关联，这样就能看到不同星级之间的客户关心的不同问题在哪里，其中我们看到像七星级客户和三星级客户关注的问题有非常大的差异，其中还有五星级客户甚至成为一个孤岛，和其它类型的客户关注的点都是完全不同的，从中我们可以制定针对于高星级客户的差异化的服务策略的提升。

第二个问题是关联的问题，比如优盾的问题，通过关联分析就知道哪个品牌的优盾关联到哪个问题是最多的，形成关联网络，从这个图上能够针对性的制定产品改进的措施。

第三个例子是连续投诉分析，同一个客户在很短的时间内针对同一个问题反复投诉的情况，有这个分析结果以后有两个方面可以利用，首先我们可以知道哪些问题是客户最不能容忍的，一旦没有给他很好的得到解决的话他会反复投诉，增加我们的投诉量。

另一方面也能够知道工商银行在哪些问题上的解决是比较欠缺的，由于工商银行没有到位导致客户进一步的投诉。还可以看到客户意见地域上的分布，随着时间的变化这些意见会得到什么样的趋势性的发展。把这些纬度进行相互结合可以得到更加灵活的分析结果，比如说在上半年上海高星级客户，增长最快的客户意见有哪些。

如何聆听互联网客户的心声

接下来讲讲如何聆听互联网客户的心声。工商银行非常关注于行内官方途径的反馈，也特别注意互联网上客户传播的心声，我们建立了互联网客户心声聆听系统，能够覆盖到互联网上各类新闻网站和社交网络渠道，对我们所关注的信息做自动化收集，在我们得到信息之后会做多纬度的分类，看这些信息都是关于什么银行的，提到了哪一类业务和产品，打上什么标签，完成打标签之后跟行内的信息也做一个更好的关联。

由于我们主要关注互联网上所关注的投诉，在大量信息当中识别负面评价，当一个比较重大的事件发生的时候会有一个传播特征的分析，去看这个事件首发在什么网站，什么时候发生的，经过什么样的传播途径和转载关系之后达到爆发的顶峰，它又是怎么样慢慢消退的，最后在一些重要事情发生的时候可以做及时预警。

由于我们所获取到的信息都是来源于互联网，有一个最大的特点，就是价值信息利用率特别低，困扰我们最大的问题是怎么在海量数据中筛选出最有价值的信息。

我们用一些比较精准的关键词获取信息，比如说工行、工商银行、ICBC、95588等等，但获取回来的信息仍然存在大量垃圾信息，包括一些广告、寻人寻物和招聘信息等等，垃圾信息占了80%以上的数据量，真正有用的信息，我们所需要的投诉、抱怨或者建议最多就是20%的量，怎么样通过自动化的方式把垃圾信息过滤掉。

我们也尝试一些简单粗暴的方法，比如设置一些垃圾信息词汇的过滤，像是积分有优惠，刷卡有惊喜这样的词汇，大概能过滤掉三分之一的垃圾信息，但毕竟覆盖是不全面的，这时候我们又使用这个方法，在这个场景下和刚才所说的场景就有所区别，现在变成了二次分类，我们在二次分类上做一些数据的交付是比较能够容易实现的。

同时用朴素贝叶斯过滤一些垃圾邮件，最后发现朴素贝叶斯在这个方面是比较好的，广告词汇和我们有用的词汇之间区分度也比较明显。

完成了过滤垃圾信息之后，我们所看到的信息看上去比较干净，但还是不能直接提供给分析师直接使用，因为我们采集到的数据来自于互联网上的各个渠道，同一个事件在不同渠道有不同的报道，甚至同一个事件在社交网站上还有很多的评论，我们怎么样把同一个事件、同一个报道聚合到一起呢？

首先我们想到了K-means的方法，但有一些局限性，比如K值是固定的，但是我不可能知道一堆新闻当中存在多少话题和多少事件，同时这些事件也是不断地在成长，新的话题不断地在发生，这个时候我们引入了新的思想叫“中国餐馆过程”进行优化。

这个可能是外国人提出来的，在外国人眼里中国人吃饭的时候喜欢跟中国人扎堆，当我们进入中国餐馆的时候第一人坐在一张桌子上，第二个人进来的时候会看跟第二个人的熟识程度怎么样，如果认识他就坐到第一张桌子上吃饭，如果不认识就新开一张桌子自己一个人坐在那里吃饭，随着大量顾客逐步进入到餐馆之后，通过这样的原则坐定之后，自然而然的完成了聚类的过程，每张桌子上坐的是熟识的人，这跟我们是类似的。

新闻媒体跟社交媒体会做区分处理，主要是因为这两个数据之间的措词有比较大的区分，比如说在新闻媒体上的措词相对比较正规、严谨，在社交媒体上的措词比较随意一些，所以我们会对一个批次的数据首先做一个新闻媒体上的聚类，然后完成社交媒体的聚类。

第三步看社交媒体聚合出来的话题有没有针对性的评论某个新闻事件，如果有第三类就把它划过去，如果没有它自己单独成为一个话题。通过这样的方式，我们的信息可以提供给分析师做查询，他们查看各自领域当中发生的重要事件。

但是这个时候业务方面给我们提出更加高的要求，能不能在重要事件发生的时候做到自动的提示预警，这就带来一个问题，我们怎么判断一个信息是重要还是一般呢？首先根据人的经验来看一下，影响一件事情成为重要一般有这样一些分析因素。

首先是涉及的机构，如果一个事件跟工行相关比跟同业其它银行相关更重要一些；二是带有情感色彩；三是转载数量；四是转载媒体数；五是来源渠道，来源于新闻网站的比来源于社交媒体的重要，因为新闻网站上的渠道比较正规正式，社交媒体上可能有大家随口说的小道消息；六是有没有关联到我们的业务类型。

我们选择了逻辑回归的模型，通过历史上发生的重要事件的学习就可以自动来识别这些即将发生的重要的信息。当我们识别出重要信息之后，除了完成提示预警之外，还可以提供分析师做查询的时候按重要度排序的方式，重要的信息可以提到前面来，每天我们可以把当天的所有信息自动生成监测日报提供给分析师做参考。

一些体会

文本领域挖掘过程中我们有一些具体的体会，比如首先选择贴合业务算法的模型，通过刚才的介绍也可以看到在文本挖掘领域很多的分析模型都有一个特点，就是可复印性比较低，往往在一个领域比较有效的方法换个领域就不太有效了，甚至换一批数据准确性就有很大的影响。

所以我们在选择一些方法的时候需要针对具体的业务特征和具体业务的特色多做一些尝试和实验，通过实验的数据来说话，我们到底选择一个什么样的比较合适的模型。

第二点是需要去注重语义资源库的建设，语义资源库扮演重要的角色，虽然我们可以在互联网上获取重要的资源，比如说中文单词的词库或情感辞典的词库，但是这些词库往往不能直接产生比较好的效果，因为这些词库只包含大众的词汇，这需要结合我们自身专业的特色。

比如说金融行业就要不断地整理梳理自身所需要的特色词汇，这个可能是需要投入比较大的精力的，我们在这个过程中也是花费了不少的精力，最终才能够完成我们所需要的分析的效果。

第三个问题，尤其是针对传统行业来说的，因为大数据商业的概念其实已经被炒的像一个神话一样，大家都在说，其实也很少人知道应该怎么去做，经常我们得到一些需求都是特别宏观、特别大的，其实都不太容易落地，从我们实际落地的角度来看，大数据要在传统行业有效的落地还是要从解决小问题开始。

总结

最后做一个总结。今天我们讨论了两个话题，首先对于95588客户意见挖掘设置了“对象-属性-评价”这样的方式，然后建立本体模型，针对本体模型我们设计了词向量辅助建模。第二个话题在互联网客户心声聆听当中，我们用朴素贝叶斯完成垃圾信息过滤，然后完成跨渠道事件聚类，最后完成重要信息的识别。

可视化案例

数据新闻让英国撤军

2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”。将伊拉克战争中所有的人员伤亡情况均标注于地图之上。地图上一个红点便代表一次死伤事件，鼠标点击红点后弹出的窗口则有详细的说明：伤亡人数、时间，造成伤亡的具体原因。密布的红点多达39万，显得格外触目惊心。一经刊出立即引起朝野震动，推动英国最终做出撤出驻伊拉克军队的决定。

其他案例

大数据与乔布斯癌症治疗

乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此，他支付了高达几十万美元的费用。他得到的不是样本，而是包括整个基因的数据文档。医生按照所有基因按需下药，最终这种方式帮助乔布斯延长了好几年的生命。

奥巴马大选连任成功

2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据，因为他的竞选团队进行了大规模与深入的数据挖掘。时代杂志更是断言，依靠直觉与经验进行决策的优势急剧下降，在政治领域，大数据的时代已经到来；各色媒体、论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋不已，无数公司和创业者都纷纷跳进了这个狂欢队伍。

资料来源：36大数据http://www.36dsj.com 紫数 http://www.zishu010.com 网络

原创文章，作者：xsmile，如若转载，请注明出处：http://www.17bigdata.com/%e7%bb%8f%e5%85%b8%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e6%a1%88%e4%be%8b%e9%9b%86%e9%94%a6/

更多内容请访问：IT源点

注意：本文归作者所有，未经作者允许，不得转载

经典数据挖掘案例集锦

全部评论: 0 条

本文目录

热门标签

程序员导航

热门文章

阿里云新老用户最新优惠

最新发布

最新评论