1.
准备与信息收集
步骤小分段:1) 收集受影响IP(IPv4/IPv6)、时间窗口、影响的客户/区域;2) 记录你的检测点(本地机房、云主机或监控平台);3) 确认是否为一次性峰值还是持续性问题。建议同时准备ssh或远程桌面访问以便后续排查。
2.
本地基础连通性检查(第一层)
步骤小分段:1) 使用ping命令:ping -c 10 <目标IP>,记录平均时延与丢包率;2) 使用traceroute(Linux: traceroute -n, Windows: tracert -d)定位跳点出现延迟;3) 用mtr或winmtr进行持续路由与丢包观察(mtr -rwzbc 100 <目标IP>),保存输出为文本。
3.
端到端路径的精细检测(第二层)
步骤小分段:1) 用tcping或hping3测试特定端口的TCP握手延迟(tcping ip port -c 20);2) 用iperf3对端口吞吐做压力测试(在对端有iperf3服务时):iperf3 -c <目标> -p <端口> -t 60 -i 10;3) 用mtu/pmtu测试是否存在分片导致的重传:ping -M do -s
<目标> 逐步缩小MTU。
4.
中间设备与链路问题排查(第三层)
步骤小分段:1) 检查本地路由器/防火墙CPU、内存、接口错误和队列满(show interface / netstat / ifconfig);2) 在交换机/路由器上查看错误计数(input errors, CRC)与丢包队列;3) 若有QoS或ACL,临时关闭或放宽策略以排除规则误触。
5.
ISP与互联路由核查(第四层)
步骤小分段:1) 使用BGP looking-glass 或 bgp.he.net 查询目标IP的AS路径和公告点;2) 比较从不同运营商或云节点到目标的traceroute,确认是否为某一上游/转发点问题;3) 联系你的上游或香港机房提供商,提交包含traceroute、mtr和时间戳的诊断包。
6.
深度包捕获与协议分析(第五层)
步骤小分段:1) 在发送端/接收端用tcpdump或Wireshark抓包(tcpdump -i eth0 host <目标IP> -w capture.pcap);2) 分析三次握手、重传、SYN/ACK超时、ICMP碎片等异常;3) 从抓包中提取时间戳对比链路延迟增长点。
7.
定位丢包是网络侧还是主机侧
步骤小分段:1) 如果mtr显示某跳开始丢包而之后仍有响应,说明该跳设备对ICMP有QoS限制,需验证后续跃点是否也丢包;2) 若traceroute在某处超时且之后不可达,通常为链路或路由问题;3) 在目标主机做本地网卡和系统日志检查(dmesg, /var/log/messages, ifconfig -a, ethtool)确认是否为主机驱动或硬件异常。
8.
跨地域对比测试与持续监控
步骤小分段:1) 从多个节点(本地、云香港节点、第三方监测平台)同时做定时ping/traceroute,收集至少24小时样本;2) 安装或使用外部监控(Zabbix/Prometheus/钉钉告警)记录波动;3) 若问题呈现时段性(如高峰),分析是否为链路拥塞或流量策略引起。
9.
临时缓解与长期修复建议
步骤小分段:1) 临时可采用走备路径、切换到其他机房或CDN回源;2) 与香港提供商协商调整BGP策略(准备更优的prepend、社区或多出口策略);3) 若为硬件或链路故障,要求对方更换SFP/光模块或修复链路,并在维修后复测。
10.
问题汇总与工单提交模板
步骤小分段:1) 汇总诊断材料:traceroute/mtr日志、ping统计、iperf结果、抓包文件和时间窗口;2) 在工单中明确影响范围、复现步骤和优先级并附上文件下载链接;3) 请求对方提供RFS(Root Cause)和后续预防措施。
11.
常用命令与示例(备查)
步骤小分段:1) ping -c 10 ;2) traceroute -n 或 tracert -d ;3) mtr -rwzbc 100 ;4) tcpdump -i eth0 host -w /tmp/cap.pcap;5) iperf3 -c -p 5201 -t 30。把这些输出保存为文本,便于共享给上游。
12.
风险与注意事项
步骤小分段:1) 抓包可能包含敏感信息,分享前脱敏;2) 在生产环境做压力测试前务必与对端沟通避免造成服务中断;3) MTU/Fragment调整要逐步验证,误设置会导致更严重的连通问题。
13.
问:如何判断丢包是链路中间某跳导致还是目标主机问题?
回答小分段:观察mtr或traceroute输出:若某一跳开始持续丢包但之后跃点仍能响应,可能是该设备对ICMP限速;若某跳之后全部不可达或最终目标丢包,结合目标主机本地日志和抓包(看是否有重传/RST)可判断为主机或链路故障。
14.
答:如果需要给香港机房提交工单,必须提供哪些关键信息?
回答小分段:必须包含:受影响IP、时间范围、持续/间歇性描述、traceroute/mtr文本、ping/iperf统计、tcpdump抓包(pcap)及本地设备日志;若有业务影响说明并标注优先级与联系人。
15.
问:短期内如何缓解用户感知的高延迟和丢包?
回答小分段:可采用临时走备链路或更换出口、启用就近CDN/缓存策略、调整BGP优先级引导流量走延迟更低的ISP,并在旁路流量上实施限流以减轻拥塞影响。
来源:问题排查香港原生ip检测 出现异常延迟和丢包后的诊断流程