《Structure and InterPretation of Computer Programs》
Welcome to the SICP Web Site (mit.edu)
Structure and Interpretation of Computer Programs (mit.edu)
Some preparations for learning SICP
[CS open class] Structure and Interpretation of Computer Programs(SICP)
ForewordEducators, generals, dieticians, psychologists, and parents program. Armies, students, and some societies are programmed. An assault on large problems employs a succession of programs, most of which spring into existence en route. These programs are rife with issues that appear to ...
数据分析工作流
介绍数分岗位常见工作难题,作为积累
获取数据源数据源分散
格式规范不统一
数据量大
操作重复
当数据发生变化的时候,我们希望快速及时的进行分析,希望立即得到结果
可能每一步都要重新进行操作
数据清洗数据分析数据可视化专题分析数据建模
数据透视表
前置知识:
熟悉Excel基本操作
理解基本的二维表结构及相关术语
背景介绍电子数据表格,常常有多种数据模式
需要一种能够建立多种数据模式的工具,基于该想法产生的工具,就是数据透视表
使用场景有大量的数据,使用函数计算慢、繁琐
希望快速制作、整理、分析各类报表
数据源经常变化,并且要经常分析和处理最新的数据
想快速洞察数据背后隐藏的意义
数据透视表创建与使用创建默认数据透视表选中数据源任意位置,插入 → 数据透视表
会自动将全表作为数据源,也可以手动选择部分区域
数据透视表缩略图上右键,可以设置相关属性
可以设置显示,将其显示为旧版本视图
旧视图可以将字段直接拖拽到某个区域,但会出现拖错的情况,建议还是使用新版本视图,在指定区间内拖拽字段:
一般会将字符串数据,放在筛选、列或者行区域(维度),数值类放在数值区域(指标)
但不是绝对的,可以把字段放在任意四个区域
单页字段透视表背景:一共有三个工作簿,存在三年的不同车辆型号的销售情况
快捷键:Alt + D + P
缺点:合并后的字段默认用项1这种命名,不容易区分
自定义数据透视表快捷键:Alt + D + P
基本使 ...
PowerBI基础与进阶
前置知识:
掌握数据透视表:https://www.bilibili.com/video/BV1ry4y1H7DZ/
来源:https://www.bilibili.com/video/BV1M54y1A7to?p=2
基本定义什么是BI?
Business Intelligence,商业智能
它是一套完整的解决方案,用来将企业中现有的数据,进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明确的业务经营决策
通俗的说,就是充分利用企业在日常经营过程中生产的大量数据,并将它们转换为信息和知识,来免除企业中的瞎想行为和物质状态,让每一个决定、管理细节、战略规划都有数据参考
就是一些指标,帮助企业做决策
对于数据分析从业者来说,在整套方案中最主要的工作,就是通过企业中的数据做出数据报表,交由运营团队使用。
传统Excel报表的痛点?
灵活性不足
对于已做完的报表,突然想看同比/环比其他维度的数据,难道重做吗?即使重做也比较耗时
临时需求无法及时满足
在满足需求的及时性上,大打折扣
传统报表痛点的存在,使得各BI工具应运而生,如帆软、Tableau ...
PowerQuery基础与进阶
官网介绍:https://learn.microsoft.com/zh-cn/power-query/
PowerQuery介绍及入门为什么学习PowerQuery
优质的ETL工具
优势
可连接上百种数据源
无需编程,也可以对数据进行快速清洗
支持大量数据的快速处理
记录所有操作步骤,数据源数据变化,只需刷新即可(无需重复操作)
在哪里
植入到Excel和PowerBI中
Excel:数据选项卡
PowerBI:导入数据时,可以选择进入
Excel中打开PowerQuery
直接打开
数据 → 获取数据 → 启动PowerQuery编辑器
新建查询打开
已有查询打开
下载和安装PowerBIPowerBI中打开PowerQuery熟悉PoewerQuery界面新建PowerQuery查询从工作簿新建查询从文本/csv新建查询
文件原始格式
分隔符
数据类型检测
从txt新建查询
自网站新建查询自数据库新建查询基础操作
护肤治痘系列
来源:https://www.bilibili.com/video/BV1Fo4y1D72o
格式待处理
脱发长痘不育都和缺锌有关大家好,我们今天来讲一讲新的问题,你们缺锌吗新的功能非常非常多啊,可千万别老想着小孩才需要补锌呢,成年人营养需要补啊,呃我们新的缺乏力非常非常高,现在人体内有非常重要的功能,缺锌直接导致皮肤角化长痘,然后你再想想我们现在这么多人刷酸,为什么刷酸,因为皮肤角化长痘,所以刷酸它仅仅是一个治标的东西,缺锌才是核心的东西,所以你们这一段有很多人问我老师,我长脸上长痘啦什么之类的问题怎么办,首先不行,知道吧,所以今天咱们详细讲讲啊,我们缺锌了以后到底有什么问题,然后还打了好几遍,因为新的功能太多,我生怕讲漏了,知道吧,所以给大家讲讲啊,第一个新的生理功能,人体内的酶有六大种酶,对六大类酶对吧,六大类酶,氧化还原酶,转移酶,水解酶,裂解酶,异构酶和合成酶,这六大酶里边每一种类酶都有大量的含锌酶,换句话说是很多酶的活性中心,而且是所有酶类里边都有的,那么那么对于我们来讲,大概有200多种酶是含锌的,所以如果你缺锌的呢,那这煤不就少吗,对不对,所以他参与人体的各种物质的 ...
《Excel图表之道》_笔记
配色
123456Sub SetMyColor() Activeworkbook.Colors(1)=RGB(0,56,115) Activeworkbook.Colors(53)=RGB(247,0,0) Activeworkbook.Colors(52)=RGB(206,219,231) Activeworkbook.Colors(51)=RGB(231,239,247)End Sub
《数据分析思维:分析方法和业务知识》_笔记
由业务漏斗中的每一层的概念,从时间维度,从概念中抽象出指标。
如果此概念存在对立概念,则所抽象的指标可为比例。
ppocrlabel安装及使用
https://github.com/PaddlePaddle/PaddleOCR
python版本:3.8.10
注:之前有安装过3.11、3.10、3.9版本,但使用ppocrlabel标注时,存在闪退情况
numpy版本:1.19.5
注:使用pip install numpy安装最新版,使用ppocrlabel标注时会报错误:AttributeError:
module ‘numpy’ has no attribute ‘int’
pandas版本:1.4.3
注:pandas版本依赖numpy版本,需要适当降低pandas版本
安装过程:
1、安装python版本:需要把python添加到环境变量path中
2、安装paddlepaddle包:pip install paddlepaddle
3、安装ppocrlabel包:pip install ppocrlabel
4、使用命令:ppocrlabel –lang ch –kie True