【案例】记一次线上内存报警排查过程

作者：樊春帅（神帅）
创作日期：2019-08-14
专栏地址：【稳定大于一切】
PDF 格式：【案例】记一次线上内存报警排查过程

今天风和日丽，刚到公司，看看博客，微信&钉钉消息。突然发现报警群里有很多报警说 xx.xx.16.28 机器的内存不够，报警信息如下：

告警地址: x.x.16.28
监控取值: 869.46 MB
告警等级: Warning
告警信息: x.x.16.28 内存剩余小于 900M
告警时间: 2019-10-31 09:50:23
持续时间:1h 0m

开始时间大概是从昨天晚上11点多开始的，而且持续到今天上午10点多，事出有因必有妖，下面看一下排查思路和排查过程。

1. 查一下 xx.xx.16.28 的内存使用情况

2. 排查最近是否有新上线服务，导致内存紧张

通过 rpcservice list 与 ps -ef | tomcat 两个命令发现业务服务有 7 个，进程存活时间较长，不太可能有新服务上线，同时根据另一台 xx.xx.16.29 机器的服务部署情况也验证了没有新上线服务。

3. 排查是否有 Java 服务在持续 FGC

使用 top 命令查一下，发现 9 个 java 服务，7 个业务服务，2 个日志进程服务。使用 jstat -gcutil pid 2000 命令一一排查，发现 GC 情况正常，没有服务有持续的 YGC 或 FGC 情况存在。

4. 排查异常占用内存的 Java 服务

由于有 7 个业务服务，直觉告诉我 dwf 服务应该比 RPC 服务占用的内存少，这一步走错了两个方向，浪费了一些时间。

以为 Web 服务占用内存较大，比 RPC 服务还高，但是发现不是
以为其中一个日志进程服务（flume）占用内存较大，发现另一台 xx.xx.16.29 的日志进程服务占用的内存跟出问题的这一台机器是一样的

5. top 命令对比 xx.xx.16.28/xx.xx.16.29 两台服务器

发现其中肯定有同一个 Java 进程占用的内存比另一个 Java 进程占用的内存高。如下图所示：

问题机器top.jpg

正常机器top.jpg

6. 排查内存占用

由于之前排查过程中跟踪过出问题的这一台的服务情况，但是肉眼没有看出来，通过内存占用对比（top命令，然后 shift + M）对比占用内存最高的几个进程，现在很明显两台机器中有一个服务肯定有问题。

7. 通过对比可以发现有个服务是有问题的

问题机器中的服务.jpg

正常机器中的服务.jpg

8. 结合之前已经截图的现场可以发现

xx.xx.16.28 的 corehr_job 服务占用内存是 12.3%，xx.xx.16.29 的 corehr_job 服务占用内存是 6.3%，很明显的，到这里我们已经揪出有问题的服务了。下面继续追查为啥不一样，先透个底，有预感觉得是由于 corehr_job 中的一些定时任务执行之后没有释放内存导致的。看一下这个服务的堆内存占用内存比例大小，如下图：

问题机器中的问题服务堆内存概况.jpg