ELK集群升级记录

背景

我司最早开始使用elk差不多在14年年末，也算是在国内es圈子里用的比较早的一批了，当时es版本还是1.2。版本虽早，但凭借着强大的搜索能力，完全碾压了其他同类开源日志分析工具，底层Lucene对日志索引、查询能力丝毫不比现在新版的功能逊色，最后我们选取了es1.6该稳定版，作为线上es服务，一直沿用至今。

但是，用的久了，问题也随之出现，由于业务发展，日志量开始变大，es data node频繁出现gc，并发索引能力下降，集群开始频繁出现索引延迟，当时我们并未选择立即升级es版本，而选择了偷懒的办法：横向扩展，也就是堆机器，以此满足日益增长的日志量，同时又基本保证了ES服务的SLA，满足用户每天的查询需求。最终，在5年后，19年的今天，我们用12台大致24～32核、64～128G、1～5T混合配置的服务器，扛下了4万的每秒并发，实在不是一个什么光彩的数据。

相对我们机房其他的es集群（es版本为5.2.2），es 1.6的索引能力实在太低，同时占用着这么多的服务器资源，服务器、机房机柜成本都是巨大的，于是我们下定决心，这次一定要把版本升上去，以缓解各方面的压力。

前置任务

日志采集端（生产者）

最早用的logstash，后因jvm太吃内存，并且多多少少存在一些bug（内存溢出、与kafka的长连接无法断开等），逐步改用filebeat，并利用salt批量执行安装、配置state.sls，以自动完成客户端日志采集，避免了人为手工修改配置的问题。这边能够批量推送filebeat配置文件得益于开发同学制订的统一日志规范，包括了日志格式、存放路径，保证自动化脚本能够识别日志，并且logstash indexer能够统一进行字段分割，没有这些规范，采集端的去logstash几乎是不可能的。

broker

最早用的redis，但因为redis内存管理较为复杂，后改用了kafka。kafka确实很优秀，除了需要对日志轮训时间、大小提前规划，平时运维管理起来几乎不用怎么费心。不过对于开发同学来说，kafka老版本对于消费程序来说有时可能会有功能问题，同样最好升级到新版。

logstash indexer（消费者）

这块一直没变过，始终是logstash，而且这部分较为重要，kafka partition的数量、logstash的work数量，jvm堆内存大小，都会直接影响es索引都并发能力。

es

有其他es集群做对比，新版es对文档索引能力有较大幅度提升，建议能升的话尽快进行升级。部署过程没有什么太困难的地方，正常部署即可。

升级过程

部署新版kafka；
salt批量推送filebeat安装、配置文件，保证日志文件“双写”，即能通过原先的logstash ship到老版kafka，又能通过filebeat ship到新版的kafka；
选取3台高配的es服务器，从老版es集群剥离出来，部署新版es程序，启动es服务，组成新es集群；
部署新版logstash程序，作为indexer，从新版kafka中消费数据，并输出到es；

遇到的坑

最初是先选了2台es服务器作为集群节点，索引效率还不错，两台也能达到2万多，但加入第三台后，索引效率反而变低了，最后将这台有问题的es节点剔除，重新再从老集群中抽一台高配服务器过来，才达到稳定索引状态，这说明了单台es服务器索引性能会影响整个集群索引效率；
在两台es服务器作为集群的状态下，分片策略是：2个分片，1份副本，预想是1个节点负责1个主分片及1个副本，但在加入第三个数据节点后，集群2个主分片居然都locate到了新加入集群的那个节点上去了，原来的2个节点各取一份副本，导致晚高峰索引出现并发问题，增加indexer partition也无济于事，瓶颈应该是在es这边，1个数据节点扛不住将近3万的并发，最终导致索引延迟；
在三台es服务器作为集群的状态下，分片策略是：3个分片，1份副本，预想同样也是1个节点负责1个主分片及1个副本，今天在早上8点自动创建新索引的时候，所有索引基本达到了预期状态，除了其中一个索引，2主分片在其中一个数据节点，但这次问题不大，因为发现的早，在及时reroute手工干预后，分片状态达到了预期的状态，在我写这篇文章的时候，还没到晚高峰，现在在2万4，尚未发现异常；

后续

老es集群还有些业务日志没导过来，预估最终5台es服务器，基本能够扛住原来12台服务器的量，最终部署情况届时再做更新。

ES1.6升级至6.5.1版本记录

背景

前置任务

日志采集端（生产者）

broker

logstash indexer（消费者）

es

升级过程

遇到的坑

后续

CATALOG

FEATURED TAGS

FRIENDS