业务日志突增造成ES索引瓶颈

一早上班就接到微信ELK索引量报警，该报警逻辑是监控5分钟内各个索引的数量，我们主要以这个性能指标来衡量ELK运行状态。

9点06分的时候索引量突增超阈值报警：

9点24分的时候索引量跌至0：

跌落至0后未自行恢复，感觉有点不太妙。

看报警内容，又看了下zabbix图，发现9点的时候索引量明显突增，基本达到了均值的1.5倍！

在找到了日志量异常的站点域名后，立即反馈问题到架构部门，架构同学联系响应开发，后确认是由于今天英语四六级查分导致。

具体再看ES集群CPU利用率，9点开始CPU明显吃紧，同时伴有cpu io wait，虽然这台机器是32核的，但还是拖不动了！

由于业务方并未提前通知，并且机房也没有闲置的高配的机器可以随时扩容。

所以很遗憾，这边无能为力，只能让ES慢慢跑，等自己消化掉。

最后一直到晚7点左右，ES索引才完全恢复。

业务方在遇到类似可预期的突发请求时，必须提前进行扩容。

可预期的日志突增必须提前考虑ES集群扩容