Mr.Zhou

小风不再小啦

ISP运营商常见劫持问题分析与处理

向运营商流氓劫持行为说不!

前言 最近这两周里,因运营商劫持而导致用户访问异常的问题数量明显增加,那么本周就重点聊下“运营商劫持”这个老大难的问题,借机会科普下什么是劫持,如何避免劫持,以及当劫持发生时,我们应该如何应对。 背景 无论你在电脑、手机还是Pad上访问网页或是APP时,如果发现有以下情形的,说明你也是劫持问题的受害者之一了: 浏览器右下角弹出广告,有时候关都关不掉 页面四周可能多出来一些奇怪...

salt state.apply执行失败问题跟踪

salt env配置的两种途径

前言 上文《salt执行带密码参数的rsync命令失败》中提到,rsync使用加密方式同步文件,并且用salt执行命令行,必须将密码配到salt的环境变量中,我们后面的策略是在同步代码前,先执行一遍同步环境变量的命令,具体执行步骤如下: # cat /path/to/salt/set_rsync_env.sls environment_variables: environ.sete...

Citrix不再对XenServer 5.x及6.x签发证书,需要尽快迁移Xen虚拟机

我们为何要Xen转KVM?

前言 最近我司正在如火如荼的进行着一个项目——Xen转KVM,本篇我们就来聊聊为什么要迁移Xen虚拟机。 有些同学可能不太清楚,好端端的Xen虚拟机一直跑着,也没出啥问题,干嘛没事要瞎折腾?迁来迁去非但影响产线正常业务计划,甚至还会影响产线服务稳定性,运维这是吃饱了撑? 这边我们必须出来澄清下,这锅我们真背不起,如果真要怪,那也只能找虚拟化平台提供商Citrix(思杰)了…… 为啥会...

腾讯云物理硬盘固件版本bug事故回顾

管好自己的命根子,做好高可用,别让别人毁了它!

本周运维圈的热点非腾讯云莫属,借此话题来聊聊自己的一些看法。 背景 事件具体发生经过相信大家应该都已经很清楚了,大概经过就是有个叫“前沿数控”的互联网创业公司,他们的产线服务器部署在腾讯云上,腾讯云在7月20日有次云存储故障,并且最终确认已无法恢复数据,导致前沿数控产线数据丢失,前沿数据号称自己因丢失数据所造成的损失价值千万级别,但腾讯云表示只会提供13万余元的现金或云资源作为补偿,双方...

记salt-minion升级后发现的两个幺蛾子

salt-minion SALT.STATES.ARCHIVE模块调整及重启salt-minion会kill其他进程问题

背景 背景在前文中也有提到,salt-master升级,salt-minion跟着一起升,理论上非必要。 但在本次升级过程中发现的两个问题,发现升级salt-minion又变得十分必要了,具体原因详见以下问题: 问题 SALT.STATES.ARCHIVE模块改写,不向下兼容 接用户反馈,新装机交付的服务器搜不到zabbix监控。问题分别被提交到监控同学、装机同学、自动化装机系统开发...

核心机房网络架构改造项目回顾

少年,一起来升下核心交换机呗?

背景 本周,我司完成了一件大项目——完成核心机房网络架构升级改造。 此次网络架构改造涉及所有核心交换设备硬件升级,包括了:外网核心交换机、内网核心交换机以及接入层交换机扩容,稍微了解网络的同学应该都知道,在一个跑满线上业务的机房,动核心意味着什么。 我们简单举个栗子,一架飞机在天上飞,必须由飞机引擎不断提供动力,才能够保持稳定飞行,而我们这次做的变更,就相当于在飞机飞行的时候,更换了飞...

谷歌DNS问题排查记录

DNS别老配8.8.8.8,坑着呢!

背景 我司在菲律宾有个办公点,用户经常反馈使用CCTalk有问题,特别是晚高峰时间段,现象更为严重,通常排查下来,基本都是网络链路不稳定造成,那具体为何会不稳定呢?我们简单分析下: 由于跨国,各国ISP(网络运营商)均不同,中间还隔着个GFW,各区域的光缆带宽都有可能跑满,或者某处网络设备出现高负载或异常时,整条网络链路就会出现问题,或出现丢包,或出现延迟。 这个时候,为避免网络直连造成...

CDN性能优化实例——回源HTTPS证书卸载

减少源站SSL交互,减少源站压力

案例一 公司某业务线有一域名:vocablist.hjapi.com,用来上传用户数据的,大多为POST请求,之前文章中也有提到过,POST请求比GET更耗时,更为依赖CDN回源链路质量。涉及到POST请求的域名,5XX状态码数量明显比其他GET请求的域名要来的更多。 这边特别用了两家CDN供应商进行测试,两家CDN表现一致,说明CDN侧的问题较小,很有可能与源站有关。 我们发现,其中有...

由salt-master版本升级导致salt分组推送目标失败的问题分析

不能完美向下兼容一定是有何难言之隐?

背景 微信群中收到反馈,有同学通过配置管理平台(公司自研)批量推送命令模块失败,失败场景:只有选择“全部”,批量推送会失败,单独选择IP进行推送没有问题。 问题 开始以为是不是模块有问题,后来对该分组进行了下test.ping,发现同样失败,但单独test.ping分组中的某台机器缺返回正常,这样就说明应该是salt分组推送出现了问题。 为了缩小排查范围,单独对只有两台服务器的分组:“E...

由salt-api并发瓶颈所导致的线上故障分析

锅是你的,跑也跑不掉!

背景 距离上次更新已经过去了大半周,这大半周时间主要用来填上周遇到的一个坑,没错,就是上篇博文最后提到的那个线上故障。 当天晚上并未查明具体问题原因,第二天白天,出现异常问题程序(暂称:程序A)的开发同学终于醒了……(当天晚上睡着了,电话死活没打通),后排查发现是调用salt-api异常,微信群里反馈连接salt有问题。 看到这边,突然感到凉凉,昨晚排查了一晚上的salt-master,...