数据分析导论
需要大量的项目积累,才可谈思维
相关链接:https://www.bilibili.com/video/BV1a7411f7Vi/
数据分析思维
如何理解数据收集?
谈谈指标体系的构建?
什么是一个好的指标?
学习方式
- 阶段式学习
- 不要妄想一口吃成一个胖子,明确现阶段学习重点,忌讳每天什么都学一点
- 现实中如果有各种压力,要沉下心来
- 解决问题
- 不要不带目的的学习
- 主动用学习到的内容,求解工作中的问题
- 量化学习的目标
- 温故知新
- 好记性不如烂笔头
- 输出
- 输出是一种高效的学习方式
- 能否准确无误的解释给他人听?能否用通俗易懂的方式解释
三种核心思维
结构化
实际问题:
- 想到一点是一点
- 做假设,乱做假设
- 一次性分析,没有复用性
- 没结果
将分析思维结构化
核心论点
- 将论点归纳和整理
- 寻找金字塔的塔顶,它可以是假设,是问题,是预测,是原因
结构拆解
- 将论点递进和拆解
- 自上而下,将核心论点层层拆解成分论点,上下关系呈因果或依赖关系
MECE
- 相互独立,完全穷尽
- 论点之间避免交叉和重复
- 分论点要尽量完善,将论点完善和补充
验证
- 不论核心论点还是分论点,都应该是可量化的
- 用数据说话,它们必然是可验证的
案例:现在有一个线下销售的产品,发现8月的销量骤降,和去年同比下降了20%
如何分析?
核心论点:销量
分论点:内部、外部
分论点完善
销量
- 内部
- 消费者
- 地区
- 地区A
- 销售单价
- 销售率
- 地区B
- 地区C
- 地区A
- 时间
- 外部
- 市场竞争
- 市场容量
- 政策风险
我们可以对于每个子节点进行分析
结构化是分析的思维,但它还不够数据,每个子节点的产生,仍然有发散的缺点
公式化
公式化
- 上下互为计算
- 一切皆可量化
- 左右呈关联
- 最小不可分割
大部分的数据分析,围绕加减乘除就足够了
加法
- 不同类别的业务叠加
减法
- 计算业务间的逻辑关系
乘除法
- 各种比例或比率
业务化
如何预估上海地区的共享单车投放量
- 从城市流动人口计算
- 从人口密度计算
- 从城市交通数据计算
- 从保有自行车计算
- 单车是由损耗的,计算公式中应该考虑单车的消耗因素
是否贴合业务
有没有从业务放的角度思考
真的分析出原因了吗
能不能将分析结果落地
一家销售公司业绩没有起色,对它进行了分析
- 销售人员的效率降低,因为士气低落
- 产品质量不佳,和同期竞争对手比没有优势
- 价格平平,顾客不喜欢
上述看似是正确的结论,其实都不是结论
用结构化+公式化思考,获得的最终分析论点。很多时候,是现象。数据是某个结果的现象,但不代表原因。
业务思维
由我是数据分析师,我会设里哪些指标
,转向如果我是参与其中的人,我会怎么考虑/哪些行为
多和业务方沟通,多从业务方的角度思考,最好能参与到业务中去
小结
练习:某一天,学院的课程学习人数下跌了,通过上述思维方式,进行假设分析
数据分析的思维技巧
上述讲解了思维整体框架,本节介绍一些常用的思维技巧
象限法
二象限
- 价值-流失
三象限
- RFM
- R:最近一次消费
- F:消费频率
- M:消费金额
多元
核心
- 象限法是一种策略驱动的思维
应用
- 适用范围广、战略分析、产品分析、市场分析、客户管理、用户管理、商品管理等
优点
- 直观、清晰,对数据进行人工的划分。划分结果可以直接应用于策略
须知
- 象限划分可以按中位数,也可以按平均数,或者是经验
多维法
用户统计维度
- 性别
- 年龄
用户行为维度
- 注册用户
- 用户偏好
- 用户兴趣
- 用户流失
消费维度
- 消费金额
- 消费频率
- 消费水平
商品维度
- 商品品类
- 商品品牌
- 商品属性
通常会钻取,来获得更准确的分析
核心
- 多维法是一种精细驱动的思维
应用
- 只要数据齐全且丰富,均可以应用
优点
- 处理大数据量,维度丰富且复杂的数据有较好的效果。但是维度过多会消耗不少时间
须知
- 对不同维度进行交叉分析时,需要注意辛普森悖论
假设法
很多时候,数据分析是没有数据可明确参考的:
- 新进入一个市场
- 公司开拓某样产品
- 预测一年后的销量
- 产品的基础数据十分糟糕,拿不到数据
证明一个拿不到数据的问题,研判其效果好坏
场景:
公司在节日进行了一次营销活动,APP上的销量数据整体比上周上升了20%,因为统计失误问题,拿不到明细数据,也就是说,活动效果是一个黑盒。
现在的问题是,销量本身就有可能因为节日而提高,那么怎么证明活动是有效还是无效的呢?
你是自营电商的数据分析师,现在想知道商品提价后,收入会不会有变化?你会怎么做?
https://www.bilibili.com/video/BV1a7411f7Vi?p=9
指数法
旨在解决衡量
的问题,制定一个统一的标准
- 中国今年的经济指标如何?
- 美国NBA最佳球星是谁?
- 竞争对手的产品表现如何?
线性加权
反比例
log
核心
- 指数法是一种目标驱动的思维
应用
- 和假设法不同,假设法是缺乏有效的数据,指数法是无法利用数据而将其加工成可利用的
优点
- 目标驱动力强,直观,简洁,有效。对业务具有一定的指导作用。一旦设立指数,不要频繁变动
须知
- 指数法没法统一标准,很多指数更依赖经验的加工
二八法
帕累托图
数据中,20%的变量将直接产生80%的效果,数据分析更应该围绕这20%作文章
持续关注TopN的数据,是一个非常好的习惯,尤其在部分行业
虽然指标很多,但往往某些指标更有价值,二八法则不仅能分析数据,也能管理数据
核心
- 二八法是一种只抓重点的思维
应用
- 二八法则存在于几乎所有的领域,所以这种分析思维没有局限
优点
- 和业务紧密相关,和KPI更紧密相关。几乎花费最少的精力就能达到不错的效果,性价比很优
须知
- 在条件允许的情况下,数据分析依旧不能放弃全局,否则会让思路变得狭隘
对比法
好的数据分析,一定是比例或者比率
好的数据分析,一定会用到对比
- 竞争对手对比
- 类别对比
- 特征和属性对比
- 时间同比环比
- 转化对比
- 前后变化对比
核心
- 对比法是一种挖掘数据规律的思维
应用
- 对比更多是一种习惯,是数据分析的牛角尖,一次合格的分析,一定会用到n次对比
优点
- 对比法可以发现很多数据间的规律,它可以与任何思维技巧结合,比如多维对比、象限对比、假设对比等
须知
- 在条件允许的情况下,数据分析依旧不能放弃全局,否则会让思路变得狭隘
漏斗法
核心
- 漏斗法是一种流程化的思维
应用
- 涉及到变化和流程的都能应用
优点
- 单一的漏斗分析没有用,转化率20%,但是能说明什么呢?要和其他分析思维结合,比如多维,比如对比
须知
- 单一的转化率没有,单一的转化率没有,单一的转化率没有
如何在业务中锻炼分析能力
好奇心
多问自己为什么,多思考
啤酒与尿布
的故事,其实是杜撰的
多练习
生活中练习
业务
为什么业务重要
惟有理解业务,才能建立业务数据模型
经典的业务分析指标
指标:
模型未动,指标先行
如果你不能衡量它,你就无法增长它
市场营销指标
客户/用户生命周期
产品运营指标
用户行为指标
电子商务指标
流量指标
怎么生成指标
组合
如何建立业务分析框架
- 从指标角度
- 从业务角度
- 从流程角度
- 业务落地后的闭环
市场营销模型
AARRR模型
用户行为模型(内容平台)
电子商务模型
流量模型
如何应对各种业务场景
- 练习
- 熟悉业务
- 应用三种核心思维
- 归纳和整理出指标
- 画出框架
- 检查、应用、修正
- 应用和迭代
如果对整体框架感到吃力,可以先做一个模块
数据化管理业务
30%数据统计
70%数据管理
Excel
敏捷、快速、需要立即响应的需求
- Excel
- SQL
常规、频繁、可复用可工程化的需求
- Python
- BI
- ETL
详细内容见Excel相关内容笔记
数据可视化
https://www.bilibili.com/video/BV1AE411P7hH
目的:让数据更加高效
让读者更高效阅读,而不单是自己使用
突出数据背后的规律
突出重要的因素
最后是美观
图表的基础概念
维度
- 描述分析的角度和属性、分类数据
- 时间、地理位置、产品类型等
度量
- 具体的参考数值,数值数据
- 元、销量、销售金额等
常见的图表类型和应用
散点图
散点图主要解释数据之间的规律
维度:0+,作为颜色
度量:2
气泡图
气泡图是散点图的变种,引入了第三个度量作为气泡的大小
维度:1+,作为颜色
度量:3,其中1个是气泡大小
单轴散点图
维度作Y轴,更倾向于洞察数据在不同类别下的数据规律
维度:1+,Y轴
度量:2
散点图一般用来分析:
客户消费维度
- 消费金额和消费次数的关系
- 消费金额和最后一次距今消费天数的关系
- 消费次数和最后一次距今消费天数的关系
客户其他消费维度
- 消费金额和消费折扣的关系
- 消费金额和会员积分的关系
- 消费次数和会员距离的关系
垂直领域消费维度
- 投资金额和投资次数的关系(金融)
- 最近一次距今消费和使用次数(Saas)
折线图
折线图经常用来观察数据随时间变化的趋势
折线图中的维度不宜过多,否则会非常混乱和复杂
维度:1+,可对比
度量:1+
时间维度:X轴
面积图
面积图是折线图的变种,面积图更注重数据类别之间,随时间趋势的变化关系
维度:1
度量:2
柱形图
柱形图是类别之间的关系
维度:2
度量:1+
直方图
柱形图的统计型变种
维度:0
度量:1
饼图
饼图可以理解为环状的柱形图,饼图的类别不宜过多
饼图除了ppt,分析时没啥用
维度:1
度量:1
漏斗图
漏斗图是对转化过程的直观展示,单一的漏斗图没啥用,也是面向ppt
漏斗图的转化步骤不应该超过七个
雷达图
适用于个体的数据和属性可视化,比较偏描述性数据,常见于CRM,用户画像
维度:1+
度量:1+
常见的高级图表和应用
树形图
适合数据量较大的情况,尤其类别较多
比如各类电商的SKU
维度:1+
度量:1
桑基图
桑基图是揭示数据复杂变化趋势的图表。面积图是线性维度,而桑基图可以一对多或者多对一。
维度:2 source target
度量:1
可以用来表示用户在网站上的行为轨迹、用户忠诚度变化
热力图
数据在空间上的变化规律。比如地理空间,网页浏览
维度:2
度量:1
热力图不一定是纯粹的空间,也可以是属性和维度的规律组合,比如把它变成星期表
可以揭示一些行业的时间规律,比如零售行业(周六、周日生意好,节假日生意好),仅仅用折线图不够
维度:1
度量:1
关系图
展现不同类别之间的数据关系,常见于各类社交社会媒体
维度:2 source target
度量:0+
箱线图
箱线图是统计用图标,用来研究和观察数据分布,也能对比数据分布。
维度:1+
度量:1
标靶图
也称为子弹图,是变种的条形图。常用于衡量业务销售情况。
维度:1+
度量:2
词云图
文本分析利器,ppt常客,卖弄大数据之必备图表
维度:1
度量:0
地理图
数据和空间之间的关系。地理图即可以通过经纬度的数据度量绘制,也能通过省市的类别维度绘制
维度:1(经纬或行政)
度量:1
一般都是省市,如果要精确到街道,需要写代码,掉地图api
数据库
见数据库相关文章笔记
统计学
见统计学相关文章笔记
Python
见python相关文章笔记