蓝盟IT外包,流量管理和数据中心故障的缓解

发布者:上海IT外包来源:http://www.lanmon.net点击数:1428


许多工程师可能认为数据中心级别的故障并不常见,但实际上这也是一个常见的问题,飓风是美国比较常见的自然灾害,飓风引起的停电和洪水会影响数据中心[^2],人从2014年开始,作为生产中使用的系统,Maelstrom一直在帮助Facebook在2018年之前减少100多次数据中心故障造成的损失。
既然是数据中心宕机、可能发生的事件,作为工程师,如何减少这样的事件对在线服务和业务的影响是保障可用性所必需的。 Maelstrom论文介绍了定期测试、Runbook设计等许多具体实践经验,这些不是作者关心的内容,这里重点介绍了Maelstrom流量的分类和不同流量的排放过程。
数据中心是流量调度的维度,具有非常粗糙的粒度,通过直接部署和转发数据中心流量的其他数据中心可能会产生很多问题,因此区分数据中心的流量特性

无状态流量:大多数网络流量是无状态的,可以轻松传输到其他数据中心。

粘性:为了提高用户体验,系统将在特定的计算机上为每个用户处理,以保持用户的会话
复制流量—如果数据中心级别出现故障,则需要修改或管理存储系统的复制流量。 为了处理读取请求,必须在其他数据中心创建复制副本
状态满:主从复制的系统在主节点发生故障时,需要将主节点的状态复制到健康数据中心的从节点,将从节点处理为主节点进行服务请求。
无状态流量
无状态流量是4种流量中转发过程最简单的,为了保证系统整体的稳定,在排出数据中心的流量的过程中,引入Drain  Multiplier,引入几个不同的阶段,实现流量粘性流量
与无状态流量相比,喷出粘性流量稍微复杂一些。 Maelstrom不仅是修改边缘的路由器将新请求转发到其他数据中心,还是通过重新启动容器任务在本地建立的会话
通信量的副本
如下图所示,如果关闭数据中心复制,复制流量对网络的请求很快就会为零,但数据存储服务的恢复过程相对复杂。
有状态流量

排出状态通信的过程最复杂,如下图所示,Ads、Aggregator-leaf、Classification服务都在多租户的状态存储中存储数据。

文/上海蓝盟  IT外包专家

IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部