去年,大多数停机事故都是由于已知原因引起的,可以通过强大的设计和流程来预防。
据研究公司正常运行时间学会在2018年夏天发布的调查结果显示,近三分之一的数据中心的遭遇在过去的一年拉闸限电,与2017年的25%相比,但这种增长是不是由于一些新的致命恶意软件。
相比之下,停机的三个主要原因是停电(33%),网络故障(30%)和IT或软件错误(28%)。
最重要的是,80%的数据中心经理表示这些停机时间是可以预防的。
但你不能阻止攻击射线(如在九月2018年摧毁了光线在圣安东尼奥微软Azure数据中心)攻击或零日恶意软件。但是,通过适当的规划和数据中心设计,由于意外天气事件导致的停机时间,攻击,常规人为错误或未安排的系统可以最大限度地减少影响。
在中断发生后使数据中心快速运行也很重要。根据信息技术情报咨询公司今年的一份报告,数据中心运营商在一小时的停机时间内平均损失了26万美元,而五分钟的停机损失仅为2,600美元。
基础架构冗余仍然有效
在最基本的层面上,必须支持数据中心系统。备份主冷却系统,备份数据甚至备份整个数据中心。
据Uptime Institute称,许多公司需要具有2N电源和冷却架构的数据中心,换句话说,就是完全冗余的复制系统。去年有22%的用户遭遇停电。与使用“N + 1”的方法,其是较便宜和较少冗余的那些,它通过第三减少干扰,而这些人的33%的人报告的停机时间。
通用数据中心的备份提供了更高的可靠性。根据Uptime调查数据,40%的数据中心经理表示他们将在两个或更多数据中心中复制工作负载和数据。
“如果你有一个数据中心并且有闪电,那么它就会失败,”SSH通信安全公司首席技术官Markku Rossi说。 “公司必须有一个辅助数据中心,它们之间有物理隔离,因此它们不依赖于相同的电源。”
他补充说,没有任何数据中心可以免受这个问题的影响,因为他引用了美国中南部微软数据中心的数据。“如果有第二个数据中心,可以立即实现故障转移,”他说。
罗西补充说,计划和测试是关键,无论在哪里,备份系统所在,并计划应考虑到今天的数据中心,在那里的问题可以引发其他问题的复杂性。
他引用了最近维护期间GitHub数据中心的中断情况。他们在几分钟内解决了物理问题,但需要24小时才能正确同步数据。
数据中心经理需要确定潜在问题的领域,然后在事情发生时准备工具和流程。
罗西说:“集中精力发展流程,培养思维模式,为失败做好准备。”
不仅加强了周围的安全。
一个数据中心管理人员应该从近期中断相关的恶意软件学到的最重要的教训是有改进的限制是不够的。攻击者可以攻击。
在2018年,许多保健品企业,政府机构,教育机构和各大厂商都受到影响,甚至是前所未有的违规行为后,去年,每个人都应该高度警惕。
显然,必须更新防御措施以防止恶意软件首先进入。但是,数据中心管理员必须准备好防止外围防御失败并获得二级保护。
这些包括用于检测恶意流量,网络防御(例如分段)以及具有最小权限的访问和通信方法的机制。
据伊戈尔Livshitz,总部设在以色列,瓜核心产品管理服务提供商的网络安全主管,他们可以帮助防止恶意软件进入网络传播后,或至少减缓了安全团队有机会做出回应。
WannaCry专门利用服务器的消息块传输协议中的漏洞利用。他表示,数据中心应采取更多措施来减少水平通信。
“在过去一年中,WannaCy勒索软件的许多案例中,攻击普遍影响的主要因素是,一旦这些蠕虫在数据中心根深蒂固,它们就会轻易传播。” Livshitz说:“事实上,服务器”SMB流量根本不是必需的。如果它崩溃,攻击的扩散和对数据中心的破坏可以大大减少,并且在它造成损害之前的早期阶段就会发现攻击。“
从2018年的违规行为中吸取的教训是,数据中心管理人员必须面对新的威胁。他们需要回归基础。