微软近日解释了一连串故障事件导致北欧的一些Azure客户在近7个小时的时间内无法访问其服务。
影响概述:2017年9月29日协调世界时(UTC)13:27至20:15,由于一个存储可扩展单元(storage scale unit)无法正常使用,北欧的一部分客户在连接或管理该地区托管的资源方面遇到了困难。依赖该地区受影响的存储资源、因此受拖累的服务包括:虚拟机、云服务、Azure Backup、App Services\Web Apps、Azure Cache、Azure Monitor、Azure Functions、Time Series Insights、Stream Analytics、HDInsight、Data Factory、Azure Scheduler以及Azure Site Recovery。
客户影响:一部分存储资源不可用,这导致相关的虚拟机关闭,以确保数据持久性。一些Azure Backup保管库在故障持续的这段时间内不可用,从而导致备份和恢复操作失败。Azure Site Recovery可能无法故障切换到最新的恢复点或无法复制虚拟机。HDInsight、Azure Scheduler和Azure Functions可能遇到了服务管理和作业故障,资源无不依赖受影响的存储可扩展单元。Azure Monitor和Data Factory遇到了依赖这个可扩展单元的管道方面的延迟和错误。Azure Stream Analytics作业停止处理输入及/或生成输出持续了几分钟。Azure Media Services的数据流请求、上传和编码出现了故障和延迟。
解决方法:将虚拟机部署到配备托管磁盘的可用性集(Availability Sets)提供了弹性,可以为基于虚拟机的工作负载防范重大的服务影响。
根本原因和缓解方法:在一次常规的定期灭火系统维护期间,发生了意外释放惰性灭火剂的情况。灭火机制被触发后,它开始自动关闭空气处理单元(AHU),这是为火势控制和安全设计的系统。虽然数据中心里面的情况得到了重新确认,AHU也重新启动,但受影响灭火区的隔离区的环境温度还是高于正常的运行参数。由于受到内部散热监测机制的触发,受影响区域的一些系统自动关闭或重新启动,防止这些系统过热。触发惰性灭火剂灭火在第一时间就知道了,在随后的35分钟内,所有AHU恢复正常,环境温度恢复到了正常的运行水平。数据中心设施的电源在这次事件中没有受到影响。所有系统已恢复到完全正常的运行状态,在调查意外释放惰性灭火剂期间,进一步的系统维护已被暂停。由于上述事件的性质以及受影响灭火区的隔离区域的散热情况方面的差异,一些服务器和存储资源没有以一种受控的方式关闭。因此,需要另外的时间来排查故障,并恢复受影响的资源。一旦可扩展单元达到了所需的运行节点数量,客户就看到情况得到逐渐而稳步的改善,直到20:15 UTC完全解决了故障,这时存储和相关服务都已完全恢复过来。
后续步骤:我们对于给受影响的客户带来的影响深表歉意。我们在不断采取措施改进微软Azure平台和我们帮助确保此类事件将来不会发生的流程。在这里,这包括(但不仅限于):灭火系统维护分析继续开展,设备工程师查明意外释放惰性灭火剂的原因,并且减小再次发生的风险。针对这种场景下的存储资源,工程团队继续调查故障情况和恢复时间方面的改进。随着重要的调查和分析工作深入开展下去,我们会在10月13日周五之前发布该RCA的补充信息。
来源:中国IDC圈
石家庄服务器托管 石家庄服务器租用 石家庄机柜租用 石家庄机房 |