数据挖掘方法论
CRISP-DM
1.3 数据挖掘方法论 CRISP-DM - 知乎 (zhihu.com)
CRISP-DM方法论 - MBA智库百科 (mbalib.com)
如果你给我一个小时来砍树,我会花二十分钟先磨刀 —— 林肯
在数据分析过程中,开发人员需要与商业人员进行沟通找出一套最佳实践方法,这有助于项目人员更好地站在商业的角度理解数据挖掘的目标。此处,仅拣选以下一种业界普遍认可、使用范围广的数据挖掘方法CRISP-DM作简单介绍,同时概括如何使用Power BI/Tableau帮助流程落地。
CRISP- DM (cross-industry standard process for data mining), 即为”跨行业数据挖掘标准流程”,由欧盟机构联合起草,通过近几年的发展,2014年其采用量已达到43%。所谓跨行业,就代表通用性,其方法并非仅供IT人员、数据科学家专用,也适合不同行业的专业人士在挖掘商业价值时应用。
图 1.3.1 CRISP-DM的步骤流程
如图 1.3‑1所示,CRISP- DM包含了六个步骤。下面简单介绍Power BI/Tableau在其中可以发挥的作用:
第一阶段:商业理解(Business Understanding)
此阶段,项目人员需要从商业的角度了解项目的要求和具体要解决的问题,并思考如何从数据挖掘的角度定义和完成目标的初步计划。商业角度的项目要求一般这样表述:通过广告推广令年度A产品的销售增长提高10%,分析师需要了解哪些商业运作方式可能帮助完成此目标,为此,哪些数据挖掘可以为此方式带来价值。
本阶段要点为:
l 定义商业需求
l 评估现状
l 定义数据挖掘的目标
l 准备项目计划
Power BI/Tableau提供多种视觉图形,让分析师能够通过图形+数字配合的方式呈现商业问题以及评估现状。此阶段需要分析师的洞察力和创造力。
第二阶段 数据理解 (Data Understanding)
此阶段从初始的数据收集开始,分析师应熟悉数据及其内部属性、识别数据的质量问题和局限性,对于数据是否能够解决商业问题,是否需要更多外部数据,如何估算成本等问题有较明确的认识。
本阶段要点为:
l 收集数据
l 描述数据
l 识别探索数据
分析师通过Power BI/Tableau可以连接不同类型的多个数据源,在同一的界面下高效地进行数据理解,降低人力和时间成本。
第三阶段 数据准备 (Data Preparation)
数据准备阶段包括从原始数据中构造最终数据集的所有活动。为建模阶段做准备。这个阶段的任务有可能被执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及使用模型工具转换和清洗数据。
本阶段要点为:
l 选择数据
l 清理数据
l 结构化
l 集成数据
l 格式化
数据准备阶段是最耗时的一个流程,有机构认为数据分析过程中80%的时间消耗在数据准备中。分析师通过Power BI中的“编辑查询”和Tableau中的Tableau Prep可以有效快速地完成各种各样的数据准备任务:合并、删除、更正、拆分、类型转换等等,再将处理完的数据无缝加载至数据模型中,分析师也能更好地集中精力在有价值的分析上。
第四阶段 建立模型(Modeling)
在这一阶段的主要任务是建立数据与数据之间的关系并创建度量、选择KPI,各种各样的建模方法将被加以选择和使用。对于数据挖掘中相同的问题类型,可以选择多种方法使用。通过方法间的对比,评估模型及其参数将被校准为最优。如果建模方法对数据的形式有额外的要求,则有必要回到数据准备阶段重新调整数据。
本阶段要点为:
l 选择技术
l 设计测试
l 建立模型
l 评估模型
Power BI的“关系”功能专为建模而设计,操作界面友好简单,无需代码完成,可以智能匹配数据表间的关系,用户也可以手动修改特殊关系。分析师通过分析语言DAX编写度量、 KPI、计算列,能直接使用Power BI展示商业逻辑表达。Tableau通过“联接”和“混合”功能共同完成数据表关系搭建,也拥有自己的查询语言系统以帮助完成多种复杂商业逻辑表达。
第五阶段 模型评估(Evaluation)
此阶段之间已经建立了高质量的模型,但在正式部署前,模型要经受更加全面的评估,以确保模型设计结果符合商业理解目标,避免直接部署后高成本的模型修改。如果发现模型与实际目标间的确存在差距,则需要折回第一阶段商业理解,继续迭代,直到模型设计趋于完善为止。
本阶段要点为:
· 评估结果
· 流程复审
· 制定部署计划
Power BI/Tableau的分享功能可以将完成商业报表在线分享给商业客户以供评估。Tableau Server还有在线反馈功能,客户可以直接在线留言,给与及时的评估回馈,这个功能非常贴心。因为二者都是敏捷型BI,一旦发现模型问题,分析人员可以快速在模型中更正,整个迭代过程十分高效快速。
第六阶段 结果部署(Deployment)
部署即是把挖掘结果以要求的方式呈现给用户。部署阶段可以简单到仅仅写一份报告,也可以复杂到在企业中进行可重复的数据挖掘程序。在许多案例中,往往是由客户而非数据分析师来执行部署阶段。
本阶段要点为:
· 部署步骤
· 最终报告
· 最终结果
通过Power BI/Tableau,分析师可以将最终设计——包括模型代码——全部在线交付给用户,最终由用户自行完成最终的部署。整个部署步骤也是相当直观、易于操作的。