告诉你五个运维安全问题

详细信息

发布日期 2019-08-16

运维安全是企业安全保障的基石,不同于Web安全、移动安全或者业务安全,运维安全环节出现问题往往会比较严重。就此,我们列了五个问题,让我们一起来看看,这里有你关心的吗?

一问:SaaS服务或云服务和传统软件产品在安全方面有哪些差异?

答:

主要体现在几个方面,一个方面就是传统软件本身的安全性,也就是本身已经在一个内网之中,更多考虑的是对方会不会进入到我们的内网来,或者说进到内网以后,怎么来防止像SQL注入等这种软件架构上的事情。而SaaS或者云服务,要把很多的精力放在传统的内网服务,而不会去过多考虑用户,因为用户基本就是内部的人。

但是SaaS服务或者云服务是不一样的,比如前段时间出的这样一件事情,就是有人问说阿里云上怎么不同的客户互相之间,两层的网络之间居然不是隔离的呢?阿里云说其实我们本来是应该做隔离的,但是由于不方便,就把它默认设置了,其实这就是云服务很需要去关注的问题:云平台之上的隔离。当身处内网之中,用户是不需要去考虑太多的,但是在做云服务或者SaaS服务的时候,不同租户之间的隔离却变成非常重要的问题。

二问:在云环境下,运维工作有哪些挑战?您是如何应对的?

答:

云环境下,我觉得运维的挑战跟之前比,有一些可能不太一样的地方。主要在于,以前传统的地方从底层的机架、服务器都会有人在管。但在云环境下更多的是需要调用API,比如说调用API创建了一台主机,调用API去生成了一个服务,可能给运维人员的一个感觉就是,我们的重要性是不是在下降?当初我们做的很多活现在就被机器代替了!

这其实是一个很有挑战性的事情,这就是促进运维人员需要去面对现实,就是我们运维真正的目的,并不是管好服务器就OK,这种工作其实不应该叫运维工程师,而是应该叫机房管理员。

三问:谈谈现在火热的人工智能(AI),运维会不会逐步被机器学习取代?

答:

我刚刚前面讲云的时候其实已经提到了一点,运维有一些工作是迟早要被机器代替的,但是另外一部分,可能是不太一样的地方,除了一些标准的部署上线的工作之外,剩下的一部分工作,就是刚刚我们提到的保证服务可用性和提高服务性能,这里保证可用性就涉及到一个很大的问题,就是故障定位,出了一个问题怎么找到它,它的根源在哪儿?

这块目前就我看到的情况,我们可以通过一些机器学习的算法,比如说监控了10000个机器指标,大概可能有二三十个跟报警的那个差不多,那下一步就要人去操作了,这也是机器学习很重要的一点:机器学习是不讲因果性的,只讲相关性。所以我们经常看到有人在讲人工智能的时候有一些笑话,今天下雨了,明天怎么样,这个其实是相关的,从这个曲线上来看,发生了A也发生了B,它其实是相关性,并不是因为A所以B,这一点在目前的运维工作上也是类似的道理,这个时候就需要运维人员通过经验来弥补后面的这一段的。

四问:近几年,运维领域有什么重要进展?

答:

运维领域这些年的进展主要两个方面。一个方面是在容器编排这块,就是所谓的Docker,这几年确实发展的很快,尤其包括在Docker之上,K8S,DCOS等,它大大方便了运维部署,降低了部署成本,所以部署这件事情,可能以后运维真的就不用做了。以前在虚拟化时代,其实因为虚拟化本身部署也挺辛苦的,但是现在Docker确实把成本降得很低。

另一个方面就是我们日志易在做的事情 ,怎么更快的提高数据对服务的可用性以及性能提高的这一部分,就是降低MTTR,或者降低MTTI,这一部分原先其实也是很靠经验的。你可能工作了15年了,看见这个事情有经验了,可能就会去猜,觉得是这个样子,然后再去查去验证,但是现在有一套数据分析的平台来支撑的话,之后这种大概、可能、猜测尝试的时间就会被大大的缩短,故障的时间就会随之降低下来。因为运维本质其实是一个试错的工作,你有100个思路,赶紧去试第一个,不对,赶紧放弃去试第二个,如果原先靠人的话,试100个大概就需要1个小时,但是现在有这样一个统一的平台,你试100个,可能也就需要5分钟或者10分钟,那问题就很快被解决了。

五问:对于一些中小客户,在安全零基础的情况下,您对安全建设有哪些建议?资源短缺、人力极少的情况下做好安全运维您有哪些高招?

答:

如果安全零基础的话,就是卡好最容易被攻破的地方,比如简单密码或者一些基础的端口,不要成为最短板。

如果资源短缺、人力也少的话,安全事大,还是有必要来投入钱或者资源,去采购一些服务或者工具,至少能够保证最关键的东西。毕竟保证核心数据安全确实是需要去投入的,不管投入的是什么,有资源投资源,有人投人,如果都没有,那就投点钱吧!