运维最佳实践
监测与告警
依赖
部署完接口后,要监测接口服务器的可访问性
要监测接口服务器硬件资源状态
如果依赖的服务器是公司的其他部门管理,必定有防火墙,要(持续)监测是否被意外加入黑名单
告警
如果服务不可用,应立即告警
应该有备用服务(ms级事件容灾)
依赖
如果服务停止(如假期服务器断点),应用要有完备的服务运行依赖,包含不同服务的依赖检测,确保自启成功
常见的依赖项有
硬件
- 磁盘目录挂载
- …
软件
- redis、pg、mysql等数据库
- kafka等消息队列
- nginx等服务器
- …
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 吕小布の博客!
评论