爬虫网站搜集
维科网:
电子发烧友网站:
全球新品情报网:
新闻中心_手机中国网站:
51CTO网:
教育装备采购网:
人工智能-钛媒体官方网站:
东方财富网:
和讯网:
虎嗅网:
CNMO人工智能网:
ATYUN网站:
AI视界网:
凤凰网资讯网:
新浪新闻网:
上市企业名单
国家标准,行业标准,地方标准信息
爬虫基础
教程来源
1.爬虫简介抓取互联网上的数据,为我所用。
有了大量的数据,就如同有了一个数据银行一样。
下一步做的就是如何将这些爬取的数据,产品化、商业化。
1.1.爬虫合法性探究1.1.1.爬虫究竟是违法还是合法的?
在法律中不被禁止
具有违法风险
区分为善意爬虫和恶意爬虫
1.1.2.爬虫带来的风险
爬虫干扰了被访问网站的正常运营
爬虫抓取了受到法律保护的特定类型的数据或信息
1.1.3.如何避免进局子喝茶
时常优化自己的程序,避免干扰被访问网站的正常运行
在使用、传播爬取到的数据时,审查抓取的内容,如果发现了涉及到用户以及商业机密等敏感内容时,需要及时停止爬取或传播。
1.2.爬虫初始深入1.2.1.爬虫在使用场景中的分类
通用爬虫
抓取系统的重要组成部分。
抓取的是一整张页面数据。
聚焦爬虫
是建立在通用爬虫的基础之上。
抓取的是页面中特定的局部内容。
增量式爬虫
检测网站中数据更新的情况。
只会抓取网站中最新更新出来的数据。
1.2.2.爬虫的矛与盾
反爬机制
门户网站,可以通过指定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
反反爬策略
爬虫 ...
爬虫数据解析
正则表达式1.正则入门
单字符
12345678. 除换行意外的所有字符[] [aoe] [a-w] 匹配集合中任意一个字符\d [0-9] 数字\D 非数字\w 数字、字母、下划线、中文\W 非\w\s 所有空白字符,包括空格、制表符、换页符等等,等价于 [\f\n\r\t\v]\S 非空白
数量修饰
123456* 任意多个+ 至少一次? 可有可无,0次或者1次{m} 固定m次 hello{3}{m,} 至少m次 hello{3,}{m,n} m至n次
边界
12$ 以某某结尾^ 以某某开头
分组
1(ab)
贪婪模式
1.*
非贪婪模式(惰性模式)
1.*?
其他
12345re.I 忽略大小写re.M 多行匹配re.S 单行匹配re.sub(正则表达式, 替换内容, 字符串)
2.常用正则表达式
说明
正则表达式
网址(URL)
[a-zA-Z]+://[^\s]*
BS4 ...
nginx基础
如果文章内容为空,则保存了多个书签,暂未整理
git基础及协同开发
教程来源:https://www.bilibili.com/video/BV1tz411i7t1?p=1
2.使用git2.1.初始化进入需要被管理的文件夹,右键点击Git Bash Here
git init
12345Administrator@IT-20191111ZDGI MINGW64 /d/hh/workspace/git/code_dev$ git initInitialized empty Git repository in D:/hh/workspace/git/code_dev/.git/
出现了.git的文件夹,表示git已经开始管理当前文件夹了
所有的配置、版本信息,都会存储在.git文件夹中
git status
检测当前文件夹下,文件的状态
12345678910111213Administrator@IT-20191111ZDGI MINGW64 /d/hh/workspace/git/code_dev (master)$ git statusOn branch masterNo commits yetUntracked files: ( ...
常用工具的设置
vscode取消点击打开文件
123https://www.cnblogs.com/qiaoyutao/p/10188880.html文件-->首选项-->设置-->在搜索栏中搜索:explorer.autoReveal; 去掉勾选即可。
pycharm设置
1.pycharm设置背景图片pycharm设置
1.pycharm设置背景图片
2.自动换行
3.鼠标滚轮改变字体大小
2.自动换行
3.鼠标滚轮改变字体大小
控制vscode的左侧菜单栏显示控制vscode的左侧菜单栏显示_vscode左边目录显示出来-CSDN博客
文件–首选项–设置,然后输入 workbench 找到 Workbench › Activity Bar: Visible 勾上就行了
前端发展历史
[TOC]
前端发展历史前端发展历史进程
一个页面是由哪些部分组成
HTML(5):搭建DOM结构
CSS(3):样式处理及动画处理
JavaScript(JS)
浏览器的发展历史
项目技术的发展历史
浏览器的发展历史项目技术的发展历程
从服务器渲染到客户端渲染
客户端、服务器端、数据库交互流程图
页面渲染的整体流程
服务器端渲染
jsp渲染流程
问题
服务器压力过大,抗压能力变弱
如果并发较高,只能加服务器了
前后端不分离(这个时候还没有前端的概念,叫做网页制作,只需要负责html和css及少数的交互)
后台开发要做的事情比较多:读取数据库、web服务器发布、读取页面信息、基于jsp等手段实现数据的动态绑定(渲染也是发生在服务器)
不能同时开发,配合的时候也会有问题,后台要懂一些前端、前端改页面时要懂一些jsp
不可以局部刷新
重后台,轻前端
客户端渲染
数据渲染不是在服务器端完成,而是在客户端完成
第一次请求返回的页面,是没有数据的,就是一个空壳
在需要动态绑定的地方,向服务器发送请求获取数据(ajax、fetch、跨域等)
只请求数据
服务器把每个 ...
es基础
背景环境搭建基本使用索引操作创建索引在Postman中,向es发送PUT请求
对比关系型数据库,创建索引就等同于创建数据库
1http://120.132.96.181:9200/shopping
响应:
PUT具有幂等性,再发一次的话,结果是已经存在的
查看索引查看指定索引请求方式变为GET
查看全部索引路径如下:
1http://120.132.96.181:9200/_cat/indices/?v
删除索引DELETE
1http://120.132.96.181:9200/shopping
删除后再查看所有索引
之前创建的索引已经没有了
文档操作创建文档新版的es是没有表的概念的
索引已经创建好了,接下来我们创建文档,并添加数据
这里的文档可以类比关系型数据库中的表数据,添加的数据格式为JSON格式
发送POST请求,路径
1http://120.132.96.181:9200/shopping/_doc
请求体内容为
123456{ "title":"小米手机", "categor ...
python操作Redis
7.python操作Redis7.1.远程连接redis注意事项:
bind注释掉或者修改为0.0.0.0
关闭保护模式protected-mode no
关闭linux防火墙
查看防火墙状态:systemctl status firewalld
临时关闭防火墙:systemctl stop firewalld
如果使用的是腾讯云或者华为云等云服务器,请在控制台开启6379端口号。
pip install redis安装redis库
注意,链接redis的文件名,不能取名为redis
7.1.1.一般连接1234567891011from redis import Redis''' 一般连接,使用Redis连接'''conn = Redis(host ='localhost',port = '6379',password = 'foobared',db = 0,decode_responses = True)# host可以是ip地址# decode_respo ...