运维如何避免锅从天而降?

我们先来看看运维充(ku) 实 (bi) 的工作日常。


不被理解的工作日常

运维是做什么的?正如一千个人眼中有一千个哈姆雷特一样,大家对运维也有1000个定义。

装系统的、修电脑的、机房电工、修电路的、扯网线的、搬服务器的……

我们不知道他在做什么,反正是整天忙来忙去的……

01.jpg
 
以上是运维工作的日常……的一部分。其实他们是每天和机器或系统软件打交道的一群人。
 
一般来说,当产品上线后,项目组成员去欢喜庆祝的时候,就是运维忙到飞起的时候。
 
急救火、打扫战场、收尾工作,样样都要做;
 
报警分析报告、系统监控数据报告、自动部署工具优化报告,“告告”不能少。
 
02.jpg
 
24小时提心吊胆的工作日常
 
出了问题找运维,他总是随叫随到。

如果你想让一个已经加班到疲惫的运维充满干劲,只要在他耳边轻轻说一句,服务器又挂掉了!就足够了。
 
03.jpg

尤其是疫情期间,在线需求暴增。产品迭代、上线,一个不能少。为不影响大家正常系统使用,应用发布、基础设施变更、演练等工作通常都会放到深夜。
 
他们工作的时候小心翼翼,可谓是如履薄冰,怕自己一个生产操作都可能对业务带来更大的影响。怕就怕自己本来是去解决问题,结果手一抖,带来了更大的问题。
 
04.gif

 
突然背锅的工作日常
 
在运维看来,天上盘旋着很多锅,如开发程序问题、硬件问题、系统软件问题、业务需求问题,稍有不慎,这些问题就突然变成锅,落到了自己身上。
 
比如有既定上线时间的产品,可能因为临时技术方案发生变化,研发推迟了开发时间,导致测试同学的时间压缩,上线的时候出现问题。

一些锅,就得由运维来背了。
 
 
05.jpg
 
运维同学如何减少背锅,又能从这种枯燥、高压的工作里,不断成长,最后成为一个运维大神呢?
 
我们总结了下修炼成运维大神的几大绝招,请各位准运维大神们对号入座。
 
06.jpg
 
他们一查到底
 
有很多故障运维不一定马上能找到原因,但是他们往往不会轻易把问题归结为挖断光纤、电力中断、太阳黑子爆发等典型的不可抗力。
 
为防止发生更大的故障,他们往往挑灯夜战,对出现的问题一查到底。
 
07.gif
 
他们从不否认自己价值
 
他们从来不会在枯燥重复的工作中,否认自己的价值,相反,总是在关键时候挑起大梁。
 
 09.gif
 
在解决问题之后,深藏功与名,拂袖而去。
 
他们善用工具提高效率
 
随着一些数据中心规模和承载业务越来越大,快速故障报警不光增加运维人手就能解决的,需要监控系统的支持,有时候为防止漏报,接连不断的报警会让人变得麻木不仁”。

同样,快速故障定位也不是增加运维人手就能解决的,也需要如数据量化健康信息和快速诊断的支持。
 
所以他们用了听云应用性能监测产品,作为得力的小帮手。听云帮他们提前定位问题,快速报警。
 

09.jpg

  
他们不断研究新技术
 
虽然运维很多工作每天都在重复,但是技术不断在迭代,他们仍要要快速创新才能适应业务快速发展的需求,比如AIOps智能运维。
 
他们主动分析,主动优化,驱动开发,利用外部工具如听云App提前定位问题,争取减少被动工作时间和次数,依靠经验向智能化驱动运维转型。
 
10.jpg
 
最后:
 
 
经历过故障的折磨
才能终成运维大神
 
 
每一个系统的良好运转都不离开敬业运维的维护,他们是系统稳定运转背后默默无闻的英雄,给每个运维人员点赞!
 
还请大家善待运维,毕竟他们会一句很重要的代码……


关于作者

我要评论

评论请先登录,或注册