这可能是2021年最后一篇文章(农历年),也可能是2022年第一篇文章,不过这完全取决于我什么时候写完。这次来简单聊聊 Linux 中的网络监控开篇这篇文章,既是一篇水文,又不是一篇水文。不过还是新手向的一个文章。这篇文章实际上在我的草稿箱里呆了一年多的时间了,灵感最初源自我在阿里的一些工作(某种意义上算是国内领先的(但也是比较小众的工作(XD 随着技术的发展,大家对于服务的稳定性要求越来越高,而保证服务质量的前提就是有着合格的监控的覆盖面(阿里对于服务稳定性的要求叫做 "1-5-10" 即,一分钟发现,五分钟处理,十分钟自愈,而这样一个对于稳定性的要求没有足够的覆盖面的监控的话,那么一切等于圈圈)。而在这其中,网络质量的监控是重中之重 在讨论网络质量的监控之前,我们需要来明确网络质量这个定义的覆盖范围。网络链路上的异常情况服务端网络的处理能力在明确这样的覆盖范围后,我们可以来思考什么样的指标代表着网络质量的降低。(注:本文主要分析 TCP 及 over TCP 协议的监控,后续不再赘述)毫无疑问,如果我们存在丢包的情况发送/接收队列阻塞超时那么我们可以再来看下具体细节如 RFC...