1) 目的:监控美国CN2与香港CN2链路的可达性、时延、抖动和丢包,快速定位BGP/链路/MPLS类故障并能在服务级别内恢复。
2) 涵盖对象:边界路由器、骨干对等、承载链路(MPLS/隧道)、客户出口链路和关键应用节点。
3) 输出指标:1分钟/5分钟时延分位、丢包率、抖动、BGP路由数、路由抖动/withdraw、接口错误与链路重置次数。
1) 硬件与权限:确认能访问边界路由器控制台、SNMP只读社区或读写(用于计数)、可做BGP策略变更的权限。
2) 常用工具:fping/smokeping、mtr(traceroute)、tcpdump、snmpwalk/snmpget、vtysh/ssh到路由器、looking glass网站、Grafana/Prometheus/Zabbix用于可视化。
3) 收集清单:记录对端IP、对端ASN、BGP邻居、出口接口名称、MPLS LSP ID、服务等级与联系人。
1) 建议指标与频率:ICMP时延(1min采样、每30s一次)、丢包(1min滚动)、抖动(30s窗口)、BGP会话状态(实时)、接口错误(5min)。
2) 阈值示例:时延>150ms(美国链路)/>50ms(香港链路)触发警告;丢包>2%(警告)>5%(严重);BGP邻居Down立即严重告警。
3) 告警去噪:要求连续3次超阈值才告警,或使用移动窗口和抑制策略(如10分钟内最多一次告警)。
1) 主动链路探测:部署fping/smokeping探测到对端或目标服务IP(示例):
fping -c 10 -q -t 1000 target.example.com
mtr -r -c 100 target.example.com (查看逐跳丢包/时延)
2) 路由层检查:在边界路由器上检查BGP会话与路由:
vtysh -c "show ip bgp summary" 或在Cisco:show ip bgp summary
3) 接口与物理诊断:在LINUX边界主机检查接口/错误:
ip -s link show eth0
ethtool eth0
4) SNMP采集示例:
snmpwalk -v2c -c public router_ip .1.3.6.1.2.1.2.2.1.8 (ifOperStatus)
5) 抓包定位:用tcpdump定位丢包或BFD/BGP握手异常:
tcpdump -i eth0 host target_ip and \(icmp or tcp port 179\) -w /tmp/capture.pcap
1) 接到告警:记录告警时间、受影响前缀/服务、初始指标(丢包/时延/BGP)。
2) 逐层排查顺序:物理层(链路/接口/光模块)→ 链路层(错误计数、CRC)→ 交换/ACL → 路由层(BGP、LSP、路由回退)→ 应用层(目的服务器)。
3) 典型命令流:
a) 本端检查:ip -s link show / ethtool;b) 与对端确认:ping 对端下一跳;c) traceroute/mtr 多点比对;d) 查询提供商 Looking Glass(输入本侧IP或前缀看AS路径)。
1) 快速恢复手段:本地重启接口(短期)、切换到备线(静态备路由或备BGP邻居)、启动隧道(GRE/IPSec)到备用POP。
2) BGP自动化:启用BFD加快故障检测,设置本地优先级(local-preference)、AS-path或community给备用路径;在FRR/Quagga中可用route-map自动化。
3) 示例:在FRR开启BFD与快速failover(简化示例):
vtysh -c "router bgp ASN" -c "neighbor x.x.x.x bfd"
并用route-map控制local-pref,配合监控脚本通过API修改策略实现自动化切换。
答:先用mtr/traceroute对目标进行逐跳比对,观察到哪一跳延迟/丢包激增并查看该跳的AS号和地理信息;再到提供商Looking Glass或BGP路由查看AS_PATH和出口POP;如果AS_PATH在美国出口出现抖动则是美国CN2,若在到达香港的中间跳或最后一跳异常则是香港CN2。命令示例:mtr -r -c 50 target;并用whois/rdap或ipinfo判断跳点归属。
答:预先准备好备用BGP邻居或隧道,使用BFD+BGP实现秒级路由切换;如果无法即时BGP切换,可在边界路由上临时增加更高local-preference或静态路由指向备用出口。操作步骤:1) 验证备用链路可达并建立BGP邻居;2) 启用BFD并测试failover;3) 在脚本中加入检测逻辑(检测到主链路连续丢包或BGP Down触发)自动修改route-map或通过API下发策略。
答:采用多维度与多窗口策略:对丢包/时延设置短时(1min)和中时(5~10min)双阈值,只有短时超过且中时持续才升级告警;要求连续N次超阈值才告警(例如3次);合并同类告警并使用抑制(maintenance window)和分级通知(SMS/电话只对严重级别),并在监控中加入地理或多节点验证来排除单点探针异常。