业务日志突增造成ES索引瓶颈

可预期的日志突增必须提前考虑ES集群扩容

Posted by Mr.Zhou on August 22, 2018

背景

一早上班就接到微信ELK索引量报警,该报警逻辑是监控5分钟内各个索引的数量,我们主要以这个性能指标来衡量ELK运行状态。

9点06分的时候索引量突增超阈值报警: img

9点24分的时候索引量跌至0: img

跌落至0后未自行恢复,感觉有点不太妙。

问题

看报警内容,又看了下zabbix图,发现9点的时候索引量明显突增,基本达到了均值的1.5倍!

img

在找到了日志量异常的站点域名后,立即反馈问题到架构部门,架构同学联系响应开发,后确认是由于今天英语四六级查分导致。

img

具体再看ES集群CPU利用率,9点开始CPU明显吃紧,同时伴有cpu io wait,虽然这台机器是32核的,但还是拖不动了!

img

缓解

由于业务方并未提前通知,并且机房也没有闲置的高配的机器可以随时扩容。

所以很遗憾,这边无能为力,只能让ES慢慢跑,等自己消化掉。

最后一直到晚7点左右,ES索引才完全恢复。

img

后记

业务方在遇到类似可预期的突发请求时,必须提前进行扩容。

运维也需要备足几台机器,随时可以进行扩容,以保证服务可用性。