蓝盟观点,助力IT运营专家避免和应对危机的五种方法

发布者:上海IT外包来源:http://www.lanmon.net点击数:898

IT外包Ops专业人员在企业中扮演三个关键角色:架构师、架构师、以及在危机时刻展示才华的英雄。他们构思并帮助规划数字环境,构建支持这些环境所需的基础设施,并解决尚未或已经演变为危机的问题。
正如他们在Geico广告中所说,这是他们的工作。
今天,我想关注IT运营中不可避免的调试活动,尤其是棘手的IT网络危机预防和处理。在充分尊重的基础上,根据我在过去15年中改变IT运营的经验,我认为IT专业人员在处理网络危机和处理既成事实中的网络犯罪时应牢记以下几点。
发生了什么变化?许多(大多数)危机是由环境变化引起的。在诊断问题时,最好了解在不久的将来发生的其他环境变化。如果您找不到明确的直接原因,请考虑一下:在不久的将来可能会导致此问题的变化是什么?这对于解决对整个世界没有意义的远程问题特别有用。
例如,如果服务器停止传输信息,请首先检查服务器以确保服务器未挂起或关闭。、硬盘容量未耗尽、且服务器已正确连接到网络。如果您确定服务器本身没问题,则应扩展搜索以排除最近发生更改的其他问题。
如果连接失败。检查项目管理系统或更改日志以查看最近在网络上发生的更改。无法连接到服务器的原因可能是路由器、交换机或防火墙配置错误,或者有人可能意外删除了服务器的DNS记录或更改了路由路径。问题也可能发生在其他任何地方,你看到的只是外观,而不是根本原因。
通过计划避免附带损害 - 事故的意外事故可能令人沮丧。例如,出于安全原因加密夜间数据传输并将其绑定到现有服务器的硬件标识,因此当您更换服务器硬件时,夜间数据传输会因密钥更改而失败。强制您必须启用新的替换服务器。防止附带损害的关键是在做出任何改动之前做好功课,并找到尽可能多的功能。您应该深入研究并识别任何相关功能,并对变更计划进行必要的调整。
使用变更清单 -  Atul Gawande的清单说明如何在书中做事:如何使用东西来检查如何使用清单来帮助我们更正确、更安全、更可靠地提供信息。在执行变更任务时,IT运营专业人员通常依靠内存、培训和本能来执行关键工作。在这种情况下,如果订单不正确或跳过某些步骤,则可能会出现问题。我强烈建议您使用检查表进行网络更改,以确保成功并避免危机。可靠的检查清单可以帮助您规划变更步骤,并在变更过程中正确地开展工作。·准备 - 在实施变更之前您需要做什么?需要关闭或调整哪些服务器或设备?我需要通知谁?
·实施 - 在变革过程中必须做些什么?需要修改哪些配置?
·进行验证以确定更改是否生效 - 如何确定更改是否生效?你应该检查哪些项目?我应该使用哪些数据进行验证活动?
·紧急程序 - 如果情况恶化,您应采取哪些遏制策略?你准备好如何应对危机?
·恢复 - 如何撤消为实施更改而执行的准备工作?仔细执行此步骤可以帮助您避免在其他区域引发危机。
检查表不必很长,只需要完整的、是准确的、是实用的。尽管如此,使用清单是成功改变网络的关键。有关更多信息,请参阅我撰写实施IT项目的文章的八个原因。
4.遵循“逐个更改变更”的规则 - 我的个人规则是逐个实施重大网络变更。在这种情况下,即使出现问题,也只是改变失败,而你只会遇到危机。如果两个或多个更改同时失败,您将遇到多个危机,此时的丢失与逐个实施更改完全不同。您可能认为通过简单地停止某些网段来简单地实现部分更改很有吸引力,但不要尝试这样做,因为它不值得冒风险。
5.了解您的位置:位置感知 - 当IT专业人员疏忽于认为他们正在操纵测试系统,导致生产系统停滞不前时,会发生最可怕的自我伤害。例如,在刷新QA数据库时,IT管理员在登出错误的设备时意外清空了生产数据库。当您使用远程桌面程序时,您很可能无意中连接到错误的设备,导致上述错误。因此,即使您只是执行简单的操作(如hostname命令),也必须确保在开始工作之前已登录到正确的设备。如果你避免使用错误的设备并且这样做,你会很高兴。
以上几点是变更管理指南中未提及或传递的所有实际步骤。这样做可以帮助您应对意外的IT运营危机或防止危机。
IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部