Mr.Zhou

小风不再小啦

ELK集群升级记录

ES1.6升级至6.5.1版本记录

背景 我司最早开始使用elk差不多在14年年末,也算是在国内es圈子里用的比较早的一批了,当时es版本还是1.2。版本虽早,但凭借着强大的搜索能力,完全碾压了其他同类开源日志分析工具,底层Lucene对日志索引、查询能力丝毫不比现在新版的功能逊色,最后我们选取了es1.6该稳定版,作为线上es服务,一直沿用至今。 但是,用的久了,问题也随之出现,由于业务发展,日志量开始变大,es dat...

权威域顶级域名能否做CNAME解析?

Don't CNAME @, ever.

背景 在提具体问题前,我们先讲下什么是:“短链接域名”。 我们知道,在PC端浏览器访问一个网站首页,URL地址栏很简单,敲域名首页就可以了。譬如我司首页是:“https://www.hujiang.com/ ”,只需要在浏览器中直接输入:“www.hujiang.com ”,甚至是:“hujiang.com”就可以了,完全没什么问题。 然后,当我在沪江网校学习,发现了沪江白金卡这个产品...

某机房缓存dns递归查询无响应问题排查

BIND域名不存在缓存时间配置

背景 有同学反馈在添加域名解析后,某机房(这里代称:机房A)解析无返回,接到反馈后立刻开始排查。 故障定位 首先查看dns管理平台,域名解析添加完毕,并且单独针对机房A单独配置了区域解析。 分别在办公室本机、机房A以及机房B(另外一个机房,代称:机房B)进行dig操作,本机及机房B解析结果均正常返回,唯独机房A无响应,结果说明: 权威dns运行正常,至少机房B的缓存dns及办...

Kafka/Zookeeper文件清理

自己打的日志请记得回收!

背景 虽然标题写了Kafka,但这篇文章重点不在Kafka,而是Zookeeper。 早上收到了kafka集群服务器磁盘空间不足的报警,料想最近日志量怎么增加的这么凶?8小时的轮询时间都撑爆了?多大的访问量? 问题 提出疑问 由于Kafka服务器最占磁盘空间到文件即生产者生产的日志消息,随着生产者数量的增加,以及日志大小的变化,正常来说Kafka磁盘占用量是一个逐步增长的趋势。 ...

nginx返回502错误问题排查

nginx反向代理java服务抛“104: Connection reset by peer”错误

背景 我司近期正在大力推进容器项目,业务部署到QA环境后,发现个不大不小的问题,访问服务,网关nginx有概率返回502错误。 问题 测试反馈偶尔会有,出现频率不高,但复现概率较高。 这边查了下日志,确实查到了不少502的响应,匹配error日志,对应时间段伴随出现较多104: Connection reset by peer异常错误。 不贴截图了,直接上nginx日志,包括访问日...

GlusterFS客户端无法挂载问题排查

GlusterFS客户端挂载的两个小坑

背景 同事部署的GlusterFS集群,挂载的时候出现了些问题,这边记录下。 问题/缓解 无法挂载 默认挂载命令敲下去过后,提示挂载失败: # mount -t glusterfs <node1>:/replica-volume /gluster/data Mount failed. Please check the log file for more details...

Kafka服务宕机问题排查记录

获取ReplicaFetcherThread失败导致Kafka工作异常

背景 某机房ELK集群索引出现延迟,但并非所有索引均出现延迟,上班后接到微信报警,开始排查问题。 该机房Kafka集群的Kafka服务及zookeeper服务分离,其中: Kafka有3个数据节点,以下分别成为:Broker 0、Broker 1及Broker 2,版本为:kafka_2.10-0.10.2.0; zookeeper有5个节点作为zk集群; 问题 logs...

rsync文件同步失败问题排查记录

弱网环境导致rsync文件同步失败

背景 周三下午收到第一例用户反馈发布qa环境失败,周四又出三例,同样都是qa环境发布,感觉有坑,立刻排查。 问题 rsync客户端:抛错异常退出 发布失败截图如下: 看报错信息应该是rsync同步文件失败,并非salt问题,为确认这点,我们登录salt-master,手工执行rsync命令,确实无返回,排除salt及salt-api问题。 登录同步异常服务器,手工执行rsyn...

DNSSEC配置导致BIND服务宕机

又又踩到一坑!

背景 又是周末,又是DNS问题…… 开发同学在后端群里保障,QA环境域名解析失败,立即上线处理。 问题 可以复现,主备两台都失败,结果如下,可以看到解析状态均为:SERVFAIL: # dig www.baidu.com @<qa_dns_1> ; <<>> DiG 9.8.2rc1-RedHat-9.8.2-0.47.rc1.el6_8.4 ...

DNS日志文件创建失败导致BIND服务宕机

又踩到一坑!

背景 周日上午,公司微信群突然炸,在公司上班的同学反馈公司的网站都打不开了,立刻开始扑火。 问题 从群里的反馈来看,外网不受影响,只有公司办公网用户反馈故障,说明时办公网内部问题。同时只反馈打开公司网站有问题,百度、微博等外部站点均正常。 由于我司办公网DNS对于自己的权威域及三方域名解析是单独分开的,自己的权威域由BIND递归DNS完成,而三方域名解析是由DNSMASQ转发DNS完...