面试过很多不同部门的数据分析,也作为面试官面试过很多人,从相互之间的问答中其实就能了解到他们日常工作的类型。其实所有行业、部门需要解决的问题都大同小异。
如果要总结一下的话,剥离出一个核心技能的话,我觉得其实作为分析师,最重要的就是核心技能就是如何去拆解一个问题,也就是把一个大问题打散之后逐一破解之后再汇总起来的能力。在算法里面有一个经典算法叫“Divide-and-conquer algorithm”,其实就是算法角度的殊途同归的思路。其他我觉得之前在咨询行业里面经常会用到的一个框架叫“MECE”也是一个很重要的思维方式,王慧文说用理科生的话来说就是“正交分解”,感觉是个很有意思的说法。
以下的分析框架其实都是基于这样一个思路,但是如何拆解一个问题往往是关键所在。
以下是本文内容的一个整体结构:


AARRR这是一个非常有名的框架,与增长黑客里面说到的“获客→激活→留存→变现”其实是一个意思,但是一般会被称为AARRR框架。其实并不算是一种数据分析模型,而是一整套数据分析的思路,逻辑框架,里面包含的内容非常多,网上也有各种解读和案例,如果想要深入了解的话可以在这个页面看到详细的介绍:
http://www.woshipm.com/data-analysis/432475.html
上文是刊登在一个叫“人人都是产品经理”的网站上,这也是我平时工作总搜索资料经常会出现在搜索结果的一个网页,有丰富的关于古典互联网的运营/产品/分析相关的内容。

另外一个比较常见的分析框架是从人货场的方向来进行深入,这个框架其实是来自传统零售,但是很多互联网生态本质上也是零售,只是通过互联网提升了撮合的效率。
核心指标是指引公司发展的北极星指标,而且会因不同发展阶段、不同类型业态而有所差异。
例如:电商平台早期会重点关注接入商家与客户的比例,新增用户等指标;成长期开始关注平台DAU/UV,转化效率等;到成熟期才重点关注GMV。
所以这也是我在分析stepn的时候会比较关注他的入金用户的人数/涨幅以及新老用户占比的原因。
而不同形态的电商也会有所侧重的:生鲜电商更关注生鲜品的损耗率、周转效率,内容电商或直播电商则更关注从内容/直播到用户交易的转化率。
而人货场其实又包含很多指标,在做业务的拆解的时候就会用到这些指标,如果想深入了解可以看下面的链接:
http://www.woshipm.com/data-analysis/4153888.html

这是一个由阿里发扬光大的一个模型,本质是一个漏斗模型,描述了一个用户在整个用户旅程中所处的位置。
除此以外,被阿里发扬光大的还有FAST、GROW,详见:
http://www.woshipm.com/marketing/3321749.html

RFM最早产生于电商领域,根据客户的交易频次和交易额衡量客户的价值,对客户进行细分。RFM是衡量客户价值的三个维度,分别为R(Recency)交易间隔、F(Frequency)交易频度、M(Monetary)交易金额组成。
R表示间隔(Recency):也就是客户最近一次交易距今的间隔,需要注意的是,R是最近一次交易时间到现在的间隔,而不是最近一次的交易时间,R越大,表示客户越久未发生交易,反之R越小,表示客户越近有交易发生。
F表示频次(Frequency):也就是客户在最近一段时间内交易的次数,一般来说选取一个特定的时间段,F越大,表示客户交易越频繁,反之F越小,表示客户不够活跃。
M表示额度(Monetary):也在同样的时间段内,客户交易的金额,M越大,表示客户价值越高,M越小,表示客户价值越低。
有了以上3个维度的数据,就可以对每个用户按照每个维度进行衡量,一般来说我们会选取一个合理的分值对R、F、M进行划分,将3个维度分别分为高、低两类,组合下来就是8类,也就形成了8个用户群体。
在很多咨询人都看过的《金字塔原理》这本书里提到了一个思考工具,MECE法则(Mutually Exclusive Collectively Exhaustive),中文意思是“相互独立,完全穷尽”。
对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够藉此有效把握问题的核心,并解决问题的方法。
两个关键点:
各部分之间相互独立
所有部分完全穷尽
这个工具可以让思考更结构化,对于训练自己的思考方式会很多帮助。之前跟产品经理同事聊天说到我觉得做到这点很重要,她说其实她的leader也会经常提到这一点,在设计功能的时候考虑这一点也是很重要的。
http://www.woshipm.com/pmd/713360.html
感觉在面试经历中,90%的面试都会问到的一个问题就是:我的DAU下降了该怎么分析?
之所以会被经常问到,其实也就意味着大部分人都会日常处理这个问题。
这个问题没有标准答案,但是像上面所说,核心是怎么分解问题,分享一个思路:
(1)确认问题:确认问题出现的时间区间 ——上一周到这一周,还是前三天到今天
(2)拆解问题:提出可能影响它的因素,也即做出假设。比如可以从这个角度
数据本身问题
内部原因(产品的迭代,新的项目)
外部原因(竞争对手,季节性因素):PEST模型:政治(Political)、经济(Economic)、社会(Social)和技术(Technological)),具体可以见下方链接
(3)分别验证,从易到难。首先排除数据错误问题,之后通过segmentation去不断缩小问题出现的范围,所谓segmentation也是一种拆解,比如从哪一类用户,哪个地区的指标下降最大来进行拆解,当然还要具体的场景进行segmentation方式的选取。
http://www.woshipm.com/it/4911318.html
电商/广告行业在用户价值会比较关注的几个点:
LT:用户生命周期,是用户自激活开始至最后一次活跃期间的活跃天数。提及LT时,一定要指定一个期限N,代表的意思就是N天内用户的活跃天数。比如LT365,那我们就是认为用户的生命周期是365天,其在生命周期内活跃的天数就是LT365。
LT的计算公式LTn=1+R2+...Rn(Rn表示第n天的留存率)
=1+次日留存率+3日留存率+...+n日留存率
=(新用户+次日留存用户+3日留存用户+...)/新用户
LT的应用场景:计算ROI
方法比较多,针对不同场景可以选用不同的计算方式。
ROI1=新用户收入/推广成本
ROI2=新用户收入/(推广成本+内容分成+直播分成+...)
ROI3=新用户收入/(推广成本+内容分成+直播分成+....+人力成本+....等等)
LTV:用户生命周期价值指的是在用户使用产品的过程中,为开发者/公司持续产生的价值总和。一般的,我们也会看一段时间的用户生命周期价值,比如30天的LTV,45天的LTV。
ARPU:每用户平均收入(Average Revenue Per User),ARPU指的是一段时间内,平均每个用户贡献的收益,计算方式为ARPU = 总收入 / 总活跃用户
详见:
http://www.woshipm.com/operate/3505063.html
在用户行为会比较关注的几个点:
CTR:(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content)
CVR (Conversion Rate): 转化率。是一个衡量CPA广告效果的指标,简言之就是用户点击广告到成为一个有效激活或者注册甚至付费用户的转化率。CVR=(转化量/点击量)*100%
其他成本方面的指标一般有:
CPA—英文全称Cost Per Action
CPC—英文全称Cost Per Click
CPM—英文全称Cost Per Thousand Impression。CPM是一种展示付费广告,只要展示了广告主的广告内容,广告主就为此付费
CPS—英文全称Cost Per Sales。CPS是一种以实际销售产品数量来计算广告费用的广告,这种广告更多的适合购物类、导购类、网址导航类的网站,需要精准的流量才能带来转化
详见:
http://www.woshipm.com/marketing/5112536.html
http://www.woshipm.com/data-analysis/5294353.html
之前工作中公司管理层发现A市的销量在春节期间突然下降,所以管理层很想知道下降的原因是什么,所以在之后的分析报告中主要进行了以下方面的探索:
确认问题:首先确认是不是真的存在这个问题,有时候因为数据统计口径的不一样也会导致一些误解,将当地销量与上海市同期进行了对比,发现确实相对上海有很大降低
拆解问题:拉取了该地区10家门店的销售数据,分成下跌与平稳两种,对于下跌的8家门店,进行针对性分析
首先将门店分为园区店/商场店/校园店,进行数据层面的前置分析,因为不同类型的门店对于春节假期的结果是不一样的,比如说校园店往往因为学校的放假导致客流减少,而商场店则可能人流会增多。后来调取了营业数据发现校园店春节期间闭店,统计的营业额直接为0,这是排查出的第一个原因。
内部原因分析:最近并不存在大的门店调整
外部原因分析:
经济:短期时间并不存在经济波动
社会:看了疫情情况,发现当时并不存在疫情封城的情况
问题拆解:商品的组成结构、好坏是否发生了变化?
组成结构:品牌结构(根据品牌的好坏可以分为S、A、R、B):是否最近S、A级的产品有下降:排查结果为基本稳定
商品好坏:拉取之前计算好的商品动销数据,计算这些门店最近配货的商品的动销是否存在问题,进行了横向(与同时期的上海比)和纵向(与过去的自己比)的排查:横向纵向均发现稍有下降,很大可能这是第二个原因。
进行到这里其实问题本应该结束了,但是后面我还增加了一道流程,和店长进行访谈。因为很多分析师都有一个误区,迷信数据的力量,数据确实很强大,是一个宝库,但是数据并不是万能的,有时候甚至有欺骗性。就像我很很多算法行业的朋友也会迷信算法、技术的力量一样,但是我觉得一定要认识到技术、数据的局限性,用包容的心态,跳出现有框架看问题。
很多问题不是单纯靠分析或者脑暴就能解决的。事实证明,店长的访谈确实提供了很多方向,比如说某位店长说他们附近新开了一家竞品;另一个店长说公司在同一条地铁线上新开了一家店,造成了分流;还有店长说有一些滞销品挤压在仓库,导致了仓库空间的减少,无法采购新货;还有店长说自从来了一次滞销品,导致了销量的下降,之后的配货算法就进入了恶性循环;有店长说A市虽然不是上海这样的外来人口占主导的城市,但在春节期间也还有会有很多人返乡,导致了客流的降低。
在结束访谈之后,我又对店长的反馈做了挨个排查,其中一大半都有夸大成分,有屁股决定脑袋之嫌,但是另外一部分确实很有价值,是导致结果的几个原因。
所以我感觉数据分析就像玩剧本杀,需要抽丝剥茧地去做研究,然后找问题,而结果往往也像剧本杀一样,凶手并不只有一个,最终的结果可能是多方的合力造成的。
