数据分析学习笔记——归因分析

1 什么是归因分析？

在复杂的数据时代，我们每天都会面临产生产生的大量的数据以及用户复杂的消费行为路径，特别是在互联网广告行业，在广告投放的效果评估上，往往会产生一系列的问题：

哪些营销渠道促成了销售？
他们的贡献率分别是多少？
而这些贡献的背后，是源自于怎样的用户行为路径而产生的？
如何使用归因分析得到的结论，指导我们选择转化率更高的渠道组合？

归因分析（Attribution Analysis）要解决的问题就是广告效果的产生，其功劳应该如何合理的分配给哪些渠道。

实际上这类问题其实并没有标准答案，因为真正的业务错综复杂，很难精准地把贡献进行合理的分配，但归因分析的需求又是如此高频且要求很强的时效性，所以需要一些方法论的支撑来进行快速尝试，快速定位问题。当然，多渠道归因分析也不是万能的，使用怎样的分析模型最终还是取决于业务本身的特性以及考虑投入其中的成本。

2 常见归因分析模型

末次归因模型

也称最后点击模型，这种归因模型将功劳100%分配给转化前的最后一个渠道，即不管用户发生了啥行为，只关注最后一次。这是最简单、直接，也是应用最为广泛的归因模型。

优点：首先它是最容易测量的归因模型，在分析方面不容易发生错误。另外由于大部分追踪的cookie存活期只有30-90天，对于顾客的行为路径、周期比较长的场景，在做归因分析的时候可能就会发生数据的丢失，而对于末次互动模型，这个数据跟踪周期就不是那么特别重要了。

缺点：这种模型的弊端也是比较明显，比如客户是从收藏夹进入商品详情页然后形成了成交的，按照末次归因模型就会把100%的功劳都归功于收藏夹（直接流量）。但是真实的用户行为路径更接近于产生兴趣、信任、购买意向、信息对比等各种环节，这些都是其他渠道的功劳，在这个模型中则无法统计进来，而末次渠道的功劳评估会被大幅高估。

适用场景：短期的投放，转化路径少、周期短的业务快速提升效果，按照末次归因模型，能比较好了解到底是哪个渠道对于最终的转化有比较好的促进作用。

末次非直接点击归因模型

末次归因模型的弊端是数据分析的准确性受到了大量的”直接流量”所误导，所以对于末次非直接点击模型，在排除掉直接流量后会得到稍微准确一点的分析结果。

在营销分析里，直接流量通常被定义为手动输入URL的访客流量。然而，现实是市场上的所有分析工具都把没有来源页的流量视为直接流量。比如：文章里没有加跟踪代码的链接、用户直接复制粘贴URL访问等等

从上面的案例中，我们可以想象，用户是从淘宝收藏夹里点了一个商品然后进行了购买，但是实际上他可能是点了淘宝直通车后把这个商品加入到收藏夹的，那么在末次非直接点击互动模型里，我们就可以把这个功劳归功于淘宝直通车。

适用场景：如果你的公司认为，你们业务的直接流量大部分都被来自于被其他渠道吸引的客户，需要排除掉直接流量，那么这种模型会很适合你们。

末次渠道互动模型

末次渠道互动模型会将100%的功劳归于客户在转化前，最后一次点击的广告渠道。需要注意这里的”末次互动”是指任何你要测量的转化目标之前的最后一次互动，转化目标可能是销售线索、销售机会建立或者其他你可以自定义的目标。

优点：这种模式的优点是通常跟各渠道的标准一致，如Facebook Insight使用末次Facebook互动模型，谷歌广告分析用的是末次谷歌广告互动模型等等。

缺点：很明显当你在多渠道同时投放的时候，会发生一个客户在第一天点了Facebook的广告，然后在第二天又点击了谷歌广告，最后并发生了转化，那么在末次渠道模型中，Facebook和谷歌都会把这次转化的100%功劳分别归到自己的渠道上。这就导致各个部门的数据都看起来挺好的，各个渠道都高估了自己影响力，而实际效果则可能是折半，如果单独使用这些归因模型并且把他们整合到一个报告中，你可能会得到”翻倍甚至三倍”的转化数据。

适用场景：单一渠道，或者已知某个渠道的价值特别大。

首次归因模型

也称首次点击模型，这种归因模型将功劳100%分配给第一个触达渠道，即不管用户发生了啥行为，只关注第一次。如果，末次互动是认为，不管你之前有多少次互动，没有最后一次就没有成交。那么首次互动就是认为，没有我第一次的互动，你们剩下的渠道连互动都不会产生。换句话说，首次互动模型更加强调的是驱动用户认知的、位于转化漏斗最顶端的渠道。

优点：是一种容易实施的单触点模型，初次点击的归因会让你明确潜在消费者是怎样找到你的，且和最后点击一样，不需要大量的数据。

缺点：受限于数据跟踪周期，对于用户路径长、周期长的用户行为可能无法采集真正的首次行为，且初次点击归因并不能够解释所有后续所发生的用户行为，对于后续的用户行为没有关注。

适用场景：一般是需要进行拉新的时候，公司处于市场开拓的时候，这个时候我们关心把更多的用户先圈过来，那么用首次互动模型可以看出来哪些渠道对于业务拉新最有效。所以首次归因模型对于没什么品牌知名度、且重点在市场拓展，渠道优化的公司，比较适用。

线性归因模型

线性归因是多触点归因模型中的一种，也是最简单的一种，他将功劳平均分配给用户路径中的每一个触点。

优点：它是一个多触点归因模型，可以将功劳划分给业务路径中每个不同阶段的营销渠道，不用考虑不同渠道的价值权重，大家一视同仁，计算也不复杂。另外，它的计算方法比较简单，计算过程中的价值系数调整也比较方便。

缺点：很明显，线性平均划分的方法不适用于某些渠道价值特别突出的业务，对于价值比价高的渠道，可能会“被平均”，因为这种渠道是靠质量而不是数量赢得结果的。比如，一个客户在线下某处看到了你的广告，然后回家再用百度搜索，连续三天都通过百度进入了官网，并在第四天成交。那么按照线性归因模型，百度会分配到75%的权重，而线下某处的广告得到了25%的权重，这很显然并没有给到线下广告足够的权重。

适用场景：根据线性归因模型的特点，它更适用于企业期望在整个销售周期内保持与客户的联系，并维持品牌认知度的公司。在这种情况下，各个渠道在客户的考虑过程中，都起到相同的促进作用。

时间衰减归因模型

对于路径上的渠道，距离转化的时间越短的渠道，可以获得越多的功劳权重。时间衰减归因模型基于一种假设，他认为触点越接近转化，对转化的影响力就越大。这种模型基于一个指数衰减的概念，一般默认周期是7天。也就是说，以转化当天相比，转化前7天的渠道，能分配50%权重，前14天的渠道分25%的权重，以此类推。

优点：这个模型考虑了时间的作用，因为一般情况下也是时间越久对于用户的转化作用是越弱。相比线性归因模型的平均分权重的方式，时间衰减模型让不同渠道得到了不同的权重分配，当然前提是基于”触点离转化越近，对转化影响力就越大”的前提是准确的情况下，这种模型是相对较合理的。

缺点：如果有的渠道天然处于转化链路的起点，那么对于这些渠道是不公正的，因为它们总是距离转化最远的那个，永远不会得到一个公平的权重。

适用场景：和末次归因比较类似，适用于客户决策周期短、销售周期短、引导用户完成转化的场景的情况。比如，做短期的促销，就打了两天的广告，那么这两天的广告理应获得较高的权重。

位置归因模型

基于位置的归因模型，也叫U型归因模型，它综合了首次归因、末次归因、线性归因，将第一次和最后一次触点各贡献40%，中间的所有触点平均剩下的20%贡献。

U型归因模型也是一种多触点归因模型，实质上是一种重视最初带来线索和最终促成成交渠道的模型，一般它会给首次和末次互动渠道各分配40%的权重，给中间的渠道分配20%的权重，也可以根据实际情况来调整这里的比例。

U型归因模型非常适合那些十分重视线索来源和促成销售渠道的公司。该模型的缺点则是它不会考虑线索转化之后的触点的营销效果，而这也使得它成为销售线索报告或者只有销售线索阶段目标的营销组织的理想归因模型。

自定义模型

你可以根据自己对于业务的理解，创建你自己的模型，让其具有更具体的业务性和目的性，并可将其来和其他默认模型做对比。

优点：在这种模式下，你可以使用线性归因、首次归因、末次归因、时间衰减归因，以及位置归因模型作为基准线，通过不断地测试，调整各个渠道的权重，最好的效果是，它可以个性化地评估当前的业务，并可以随着时间的推移进行优化。

缺点：在没有先做一些测试之前不要直接使用自定义模型，不要仅靠经验判断哪些渠道的贡献可能更大，实际数据上的表现可能会有所差异，需要基于数据的测试来进行判断。

马尔科夫链

马尔科夫链模型来自于数学家Andrew Markov所定义的一种特殊的有序列，马尔科夫链(Markov Chain)，描述了一种状态序列，其每个状态值取决于前面有限个状态，马尔科夫链是具有马尔科夫性质的随机变量的一个数列。

马尔科夫链思时间、状态都是离散的马尔科夫过程，是将来发生的事情，和过去的经理没有任何关系（只和当前有关系）。通俗的讲：今天的事情只取决于昨天，而明天的事情只取决于今天。

谷歌的PageRank，就是利用了马尔科夫模型。假设有A,B,C三个网页，A链向B，B链上C。那么C分到的PR权重只由B决定，和A没有任何关系。如果互联网上所有的网页不断地重复计算PR，很容易可以想到这个PR值最后会收敛，并且区域一个稳定的值，这也就是为什么它会被谷歌用来确定网页等级。

回到归因模型上，马尔科夫链模型实质就是：访客下一次访问某个渠道的概率，取决于这次访问的渠道。

归因模型的选择，很大程度上决定转化率计算结果，像前面讲的首次互动、末次互动等模型，实际上需要人工来分配规则的算法，显然它并不是一种“智能化”的模型选择。而且因为各个推广渠道的属性和目的不同，我们也无法脱离用户整个的转化路径来单独进行计算。因此，马尔科夫链归因模型实质上是一种以数据驱动的(Data-Driven)、更准确的归因算法。

马尔科夫链归因模型适用于渠道多、数量大、有建模分析能力的公司。

夏普里值（Shapley Value)

夏普里值（Shapley Value)指所得与自己的贡献匹配的一种分配方式，由诺贝尔奖获得者夏普里（Lloyd Shapley）提出，它对合作博弈在理论上的重要突破及其以后的发展带来了重大影响。

这里最终计算的值是特征i的重要程度。前面一部分分式表示的是权重, 后面一部分括号内表示的是新增特征i前后的变化值。

我们如何用这个方法来分析不同渠道的贡献度呢？下面是一个例子。

假设有3个渠道：信息流(A)，开屏(B)，视频前贴©，他们的独自投放效果和两两投放效果如下图所标识。

下面，我们来计算，每一个渠道的夏普里值，夏普里值的定义：是在各种可能的联盟次序下，参与者对联盟的边际贡献之和除以各种可能的联盟组合。

三个渠道，有3*2种联盟次序，具体计算如下：

因此，信息流的夏普里值为20，开屏的夏普里值为33.3，视频前贴的夏普里值为46.6。

3 如何选择归因模型

上面这么多种归因模型大概可以分成2类：

基于规则
预先为渠道设置了固定的权重值，好处是计算简单、数据容易合并、渠道之间互不影响，当然你也可以根据实际需要去调整他们的权重配比。
基于算法
每个渠道的权重值不一样，会根据算法和时间，不同渠道的权重值会发生变化（数据驱动）。

在选择用何种归因模型之前，应该先想清楚业务模式：

如果是新品牌、新产品推广，企业应该给予能给我们带来更多新用户的渠道足够的权重，那么我们应该选择首次互动模型；
如果是投放了单一的竞价渠道，那么我们应该选取末次互动归因模型或者渠道互动归因模型；
如果公司很在乎线索来源和促成销售渠道，那么我们应该选择U型归因模型；
如果公司的渠道多、数据量大，并且由永久用户标识，基于算法的归因模型能够为营销分析提供巨大的帮助；
……

总的来说，没有完美的归因模型。任何模型都存在他的局限性和不足，如何有效地结合客观数据与主观推测，是用好归因模型的重要能力前提。

业界使用情况

目前国际一线互联网公司，谷歌系的产品用的是基于Shapley值，如Google Attribution 360，Google Analytics 360，DoubleClick和AdWords，是要付费产品才可以使用。

Facebook也有使用归因算法，但并未公布使用的具体算法是哪个，只是说定期更新算法模型，Facebook的是预估增量影响为各个触点分配转化功，且只能衡量 Facebook、Instagram、Audience Network 和 Messenger 上的营销活动，我估计用的是增量模型（Uplift Modeling），这个模型在腾讯和阿里都有应用。

Adobe Analytics是基于Harsanyi Dividend，Harsanyi Dividend是沙普利值的延伸。可能只有Adobe使用，网络上的信息非常少，Adobe也只是文档放了两个原文链接。

国内有些公司使用的是Markov Chain。

4 归因分析的实际案例

归因分析模型的计算原理演绎

下图是通过神策分析所得到某电商用户行为序列图示。在图示中，各字母代表的含义是 D-广告位、Q-商品详情页、D-推荐位、M-购买商品。目标转化事件是“购买商品”，为了更好地“配对”，运营人员将 M1（目标转化事件——购买商品1）与 Q1（前项关联事件——商品 1 详情）设置了属性关联，同样将 M2 与 Q2 进行关联。

该场景中，发生了两次购买行为，神策分析进行归因时会进行两轮计算，产生计算结果。

第一轮计算：

第一步，从 M1 开始向前遍历寻找 Q1 以及离 Q1 最近发生的广告浏览。

如图所示，不难得到结果 M1=[Dc，Dc，Da]。

第二步，我们带入分析模型中，进行功劳的分配。运营人员选择**“位置归因”**的分析模型，根据“位置归因”的计算逻辑，第一个“待归因事件”和最后一个“待归因事件”各占 40%，中间平分 20%。

第一轮我们得到结果：Dc=0.4；Dc=0.2；Da=0.4

第二轮计算：

从 M2 开始向前遍历寻找 Q2 以及离 Q2 最近发生的广告浏览。

这里值得强调的是，即使第一轮中计算过该广告，在本轮计算时依然会参与到计算中，因为经常会出现一个广告位同时推荐多个商品的情况。

我们不难得到结论，M2=[Dc，Db]。基于这个结论，我们通过“位置归因” 得到结果：Dc=0.5；Db=0.5**（不足 3 个时会有特殊处理）**。

经过两轮计算，我们得出结论：Dc=1.1；Da=0.4；Db=0.5，则广告位 c 的贡献最大、广告位 b 贡献次之，广告位 a 的贡献最小。

以电商用户购物场景为例

用户进入App到最终产生支付购买行为，中间可能会有以下关键的渠道和坑位：

点击搜索栏进行搜索进入商详页
点击首页运营位进入商详页
通过点击push消息进入商详页
通过参与限时活动进入商详页
通过微信公众号推动消息进入商详页
通过购物车等坑位直接转化

我们对近30日成交订单进行归因分析，此处我们选用的归因计算方式是“末次归因”。归因窗口期设为 1 天，即观察用户在发生订单行为之前的 24 时之内点击了哪些坑位。然后再找到离“提交订单”最近的一个坑位点击行为。

最终得到的结果如上图，APP 内多个坑位中，点击搜索栏和直接转化对于成单的贡献分别占据了 52.67%、27.56%。运营位、活动、Push和微信公众号的相关推荐仅带来不足 10% 的成单贡献。通过这个结果，可以清晰地反映如下几点信息:

最终的贡献度反映了不同坑位对最终成单转化的贡献及互相之间的差异。

对比不同坑位的有效转化点击率，可得知不同坑位对用户的吸引程度。

参考

本文来自zhihu，观点不代表一起大数据-技术文章心得立场，如若转载，请注明出处：https://zhuanlan.zhihu.com/p/438797669

更多内容请访问：IT源点

注意：本文归作者所有，未经作者允许，不得转载