Excel基础与进阶
引言
人的需求 >> 软件功能
数据场景
记录整理
数据计算
数据分析
数据展示
数据处理的挑战
数据太多
计算太累
需要价值和意义
需要协作
Excel应用场景
低量级的数据存储
一次性的数据处理与分析
复杂且无法优化的报表
怎么学习Excel
从实际需求出发,直接去解决实际问题
一开始学习不要追求大而全,但要有系统认知思维,逐步扩充认知体系
认识ExcelExcel版本
打开Excel
如何使用Win+R快捷键打开自定义程序)
设置菜单栏与功能区熟悉:菜单栏、功能区、功能区分组
可以自定义快速访问工具栏
可以自定义功能区,放自己常用的功能组
折叠功能区快捷键:Ctrl + F1
可以自定义背景和主题
自定义新建工作表时的字体、sheet页数量等
文件 - 选项 - 常规
保存保存:Ctrl + S
另存为:F12
保存格式默认为xlsx,如果要兼容低版本(97 - 2003),则保存为xls
设置密码,包括设置打开密码和修改密码,如果是后者,修改后只能另存为
格式类型:常见的就是xlsx和xls,其他格式自行拓展。
格式
扩展名
说明
...
django应用
Django概述官网:编写你的第一个 Django 应用,第 1 部分 | Django 文档 | Django (djangoproject.com)
安装1pip install django -i https://pypi.tuna.tsinghua.edu.cn/simple
新建项目选择进入一个文件夹,新建项目
1django-admin startproject project_name
文件介绍
12345678mysite/ manage.py mysite/ __init__.py settings.py urls.py asgi.py wsgi.py
最外层的 mysite/ 根目录只是你项目的容器, 根目录名称对 Django 没有影响,你可以将它重命名为任何你喜欢的名称。
manage.py: 一个让你用各种方式管理 Django 项目的命令行工具。你可以阅读 django-admin 和 manage.py 获取所有 manage.py 的细节。
里面一层的 mysit ...
电脑硬件
电源主板芯片组如H610、B660、B450、X570,芯片组的名称不是主板厂商定的,而是Intel/Amd CPU厂商定的,就是人为的区分出高中低档,满足不同的市场需求
CPU厂商每推出一代新的CPU,都会设计出一套专属的芯片组
Intel芯片组来源:https://www.bilibili.com/video/BV1jR4y1c71a/
600系芯片组,对应12代处理器
芯片组
内存支持
CPU超频
内存超频
和CPU直连的PCIE通道(显卡)
和CPU直连的PCIE通道(NVME固态)
DMI总线(就是PCIE通道)
芯片组扩展能力(PCIE 4.0)
芯片组扩展能力(PCIE 3.0)
备注
Z690
DDR4或DDR5
支持
支持
PCIE 5.0 X 16,支持拆分x8 + x8
PCIE 4.0 X 4
4.0 X 8 (PCIE 4.0 X 8)
X12
X16
H670
DDR4或DDR5
不支持
支持
PCIE 5.0 X 16,支持拆分x8 + x8
PCIE 4.0 X 4
4.0 X 8 (PCIE 4.0X 8)
X12
X12
市面上基 ...
Excel治理与入库
引言Excel解析与导入数据库(数据治理)
场景虽然数据库技术和大数据已经广泛使用,公司打造内部数据平台时,对基于关系型数据库,或者是格式标准的文件,例如JSON,XML,CSV等数据一体化都相对容易。因为这些数据载体标准,变化可控,易于分辨,且都有成熟的工具/包,来辅助抽取和解析。
生产生活中,Excel文件仍然是常见数据承载媒介。公司运作的过程中,也会产生很多有价值的数据,存在易于阅读和方便传播的Excel文件中。Excel文件没有统一的格式,数据编排方式完全依赖个人的习惯和偏好,不可能被标准化。
当想把这些数据落地存储为公司的数据资产时,很难用一套通用程序来处理。虽然现在满天飞各种数据中台类产品,但只能解决企业内标准化数据源(90%都是关系型数据库)的整合问题,几乎不涉及存储在excel中的数据,导致这些文件中的数据都是游离在公司数据体系之外的。
适用对象哪些情景,或者说工作环境中有对Excel数据治理的需求呢?总结了一下大概分成四类:
工作业务流程接触很多excel中的时序数据。这些文件可能是内部产生的,也可能是外部产生的。主要依靠人阅读的方式消费文件,需要提升效 ...
商业架构
商业场景知识库问答企业舆情合同信息抽取场景:识别提取需求的关键信息、做财务、供应商风控
难点:
扫描件pdf转word(扫描件ocr)
表格、两列无边框表格关键信息提取
页眉、页脚处理及关键信息提取
印章去除
跨页合并
文档格式还原
产品形式
合同核验系统
产品、解决方案问答泛化、推理
表格提取单据识别固定格式,但是有印章和手写
审计报告生成分批提取
审计问答下的问题法律定性数据治理原ERP系统中业务字段梳理 +库 表字段对应(现在是驻场5人月)
基于表数据(结构)的问答
如收入表,可以问A公司2023年第二季度营收多少,直接接入数据库表结构,给出答案
行政处罚决定书及各类附件字段提取合同及各类合同单据字段提取底层技术数据侧
数据采集
数据处理
数据标注
数据采集数据处理数据标注算法侧
非格式化文档解析
文档提取
大模型moos
硬件
数仓
引言数据库vs仓库
数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并一致的描述)
数据库很对应用(OLTP),仓库针对分析(OLAP)
数据仓库ADS、DWD、DWS、ADS分层详解http://www.360doc.com/content/12/0121/07/63948659_1072256786.shtml
ODS层ODS层通常包含多个数据源,包括企业内部的各种业务系统、外部的数据供应商、第三方数据服务等。这些数据源通常具有不同的数据格式、结构、语义和质量,因此需要进行一系列的数据处理和转换,以使其能够被有效地集成到数据仓库中。
ODS层的数据处理主要包括以下几个方面:
数据抽取:从各个数据源中抽取数据,包括全量抽取和增量抽取等方式。
数据清洗:对抽取到的数据进行清洗和去重,确保数据的一致性和准确性。
数据集成:将清洗后的数据进行整合和集成,以生成一个一致的、可信的、实时的数据集。
数据同步:将ODS层的数据同步到下一层,即DWD层,以供后续的数据处理和分析。
ODS层的数据模型通常是基于源系统中的数据模型进行设计,其主要目的是将不同的数据源中 ...
xstate catalogue
https://swimlanes.io/
XState Catalogue (xstate-catalogue.com)
XState Visualizer (stately.ai)
Data FetchingSimple Data FetchGlobal StateAuthentication123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109import { assign, createMachine, Sender } from 'xstate';export type AuthenticationMachineContext = { user ...
python
环境搭建见《python环境》篇
基本概念Python 教程 — Python 3.11.3 文档
python解释器调用解释器传入参数解释器读取命令行参数,把脚本名与其他参数转化为字符串列表存到 sys 模块的 argv 变量里。
交互模式进入解释器时,首先显示欢迎信息、版本信息、版权声明,然后才是提示符:
12345python3.11Python 3.11 (default, April 4 2021, 09:25:04)[GCC 10.2.0] on linuxType "help", "copyright", "credits" or "license" for more information.>>>
解释器运行环境源文件字符编码默认情况下,Python 源码文件的编码是 UTF-8。
如果不使用默认编码,则要声明文件的编码,文件的 第一 行要写成特殊注释。句法如下:
1# -*- coding: cp1252 -*-
第一行 的规则也有一种例外情况,源码以 UNIX “s ...