1.
概述与适用范围
目的:为香港地区云服务器(含VPS、云主机、托管实例)建立可执行的定期巡检与维护流程。适用对象:运维工程师、SRE、IT管理员。说明:本手册以SSH/RDP及云控制台为基础,兼顾防火墙、安全组、备份与监控配置。
2.
出发前准备(凭证与工具)
步骤:1) 确认云控制台账号及多因素验证(MFA)已启用;2) 准备SSH私钥或RDP凭证并验签;3) 本地工具:SSH客户端(OpenSSH/Putty)、远程桌面、SFTP工具、常用命令行(curl、jq)、日志查看器;4) 记录位置:建立并加密保存巡检清单与凭证(建议Vault/Bastion)。
3.
巡检频率与分工
建议:日检(基本可用性)、周检(性能与日志)、月检(补丁、备份恢复演练)、季度(安全扫描、架构评审)。分工:值班工程师负责日检并记录;周期性负责人负责周/月报告并汇总到CMDB或工单系统。
4.
登录与初步可用性检查(日检)
操作步骤:1) 通过云控制台进出访问历史查看异常登录;2) 使用SSH登录(ssh -i key user@ip),核对主机名与OS版本(uname -a / lsb_release -a);3) 检查系统负载与内存(top / free -h / vmstat 1 5);4) 检查关键服务状态(systemctl status nginx/mysql/yourapp);5) 如遇不可达,记录时间并按故障流程上报。
5.
网络与安全组、端口检查
详细步骤:1) 在云控制台检查安全组/防火墙规则(是否仅暴露必要端口,如22/80/443);2) 本机使用netstat或ss检查监听端口(ss -tulnp);3) 使用nmap或telnet从外部检测端口开放情况;4) 验证入站/出站带宽与丢包(ping、mtr),如有异常,提交网络工单给云厂商。
6.
磁盘与文件系统健康检查
操作:1) df -h 查看分区使用率,注意/var/log、/home、/tmp分区;2) 检查inode使用(df -i);3) 对近满磁盘找到大文件(du -sh /* | sort -h 或 ncdu);4) 对可扩容的云盘执行在线扩容步骤(云控制台扩容后执行resize2fs/xfs_growfs),并记录变更单。
7.
日志、错误与应用健康(周检)
步骤:1) 汇总关键日志(/var/log/syslog、/var/log/messages、应用日志),使用grep查找ERROR/WARN并归类;2) 检查日志轮转配置(/etc/logrotate.d/)是否正常;3) 验证应用健康检查接口(curl -f http://localhost/health),并记录响应时间与状态码;4) 若发现重复错误,按问题分类建立工单并路由到开发。
8.
系统与软件补丁管理(月检)
具体流程:1) 在非生产或预生产环境先执行补丁测试;2) 对Debian/Ubuntu执行apt update && apt -y upgrade,RHEL/CentOS执行yum update或dnf update;3) 升级前备份关键配置(/etc、数据库dump);4) 升级后重启受影响服务并验证;5) 记录补丁清单、时间和回滚方案。
9.
备份与恢复验证(每月必做)
步骤清单:1) 确认云快照/镜像策略(周期、保留期)与备份存储位置;2) 随机选择一套备份在隔离环境进行恢复演练(从快照创建临时实例或在测试环境还原数据库);3) 验证恢复后的数据完整性与应用可用性;4) 完成演练报告并更新备份策略,如发现在备份遗漏或执行失败则立刻修正。
10.
监控、告警与运行图表检查
操作细则:1) 确认监控平台(Prometheus/CloudWatch/Zabbix)对CPU、内存、磁盘、网络、服务的指标已覆盖;2) 检查告警规则与通知通道(短信、邮件、Slack/Teams);3) 模拟告警(调整阈值或使用测试事件)验证通知流程;4) 对长期趋势图表做基线评估,发现资源成长趋势提前规划扩容。
11.
安全加固与入侵检测(季度)
执行步骤:1) 执行漏洞扫描(OpenVAS、Nessus或云厂商漏洞工具),生成清单并优先处理高危;2) 检查SSH登录策略(禁止root直接登录、使用非标准端口、限制来源IP);3) 部署并验证IDS/IPS或云端WAF设置;4) 检查证书(openssl s_client -connect host:443)有效期并设置自动续签(Let's Encrypt或云证书服务)。
12.
故障处理与维护流程图制作
制作步骤:1) 列出常见故障场景(不可达、服务崩溃、磁盘满、备份失败);2) 为每种场景写出触发条件、初步排查步骤、临时缓解措施和根因分析步骤;3) 使用流程图工具(Visio、draw.io)绘制“检测→确认→隔离→修复→验证→记录”流程,明确责任人和SLA;4) 将流程图挂到知识库并定期演练。
13.
巡检记录与持续优化
操作要点:1) 每次巡检在CMDB或巡检表格中记录时间、执行人、发现项与处理结果;2) 对重复问题归类并形成长期改进计划;3) 定期(每季度)回顾巡检数据,调整阈值与巡检频率;4) 将操作步骤模板化,便于新人快速上手。
14.
示例巡检清单(可复制粘贴)
清单项(简化示例):1) 登录验证与SSH历史;2) CPU/内存/磁盘使用率;3) 关键服务状态;4) 日志ERROR核查;5) 安全组与端口;6) 备份任务状态;7) 监控告警是否抑制;8) 补丁与证书有效期。每项后都写“是/否/备注”列,便于审计。
15.
附:常用命令速查表
列举:1) 系统信息:uname -a、lsb_release -a;2) 负载:top、htop、vmstat;3) 磁盘:df -h、du -sh、lsblk;4) 服务:systemctl status name、journalctl -u name;5) 网络:ss -tulnp、netstat -tulpn、mtr、tcpdump(谨慎使用并保存捕获文件)。
16.
答:根据业务重要性分级:关键生产系统日检(可用性与告警确认)、周检(日志与性能)、月检(补丁、备份演练)、季度(安全全面扫描与架构评审)。低风险测试/开发环境可放宽频率,但建议至少月检一次。
17.
问:遇到补丁后服务异常该如何回滚?
答:先在非生产环境验证回滚步骤;生产回滚流程包含:1) 立即切换到最近快照或备份(快照启动临时实例);2) 将流量切回到健康实例(负载均衡/DNS设置);3) 通知相关方并记录事件;4) 后续深度分析补丁冲突原因并修订升级策略。
18.
问:如何把巡检流程可视化成维护流程图并纳入运维体系?
答:步骤:1) 列出所有巡检场景与操作节点;2) 用图形工具绘制检测→路径选择→操作→验证→记录的流程图并标注负责人与SLA;3) 将流程图与操作手册统一存放在知识库并在值班手册中引用;4) 定期演练并根据演练或真实事件更新流程图,形成闭环。
来源:定期巡检清单配套香港云服务器维护流程图操作手册