0

0

如何减少 MTTR

betcha

betcha

发布时间:2024-05-23 14:06:04

|

1300人浏览过

|

来源于DZone

原创

减少MTTR的方法:1. 明确定义 SLI;2. 基于 SLI 的可操作警报;3. 与警报相关的故障排除指南;4. 练习故障排除指南;5. 可用的仪表板;6. 缓解问题的自动化操作;7. 故障转移演练;8.自动故障转移;9. 变更管理流程;10. 易于识别的变更列表和自动回滚。

如何减少 MTTR

作为一名站点可靠性工程师,我用来跟踪事件管理有效性的关键指标之一是平均恢复时间 (MTTR)。根据维基百科,MTTR 被定义为服务或系统从任何故障中恢复所需的平均时间。努力实现较低的 MTTR 是实现服务水平目标以及任何关键生产服务的服务水平协议的关键。

有助于减少平均恢复时间 (MTTR) 的 10 件事

1. 明确定义 SLI

服务级别指标或 SLI 是衡量服务健康状况的关键指标。SLI 的一些示例包括错误率、延迟、吞吐量等。

2. 基于 SLI 的可操作警报

警报策略应包括提高警报的信噪比。警报的目标是您的团队收到的每个警报都应该是可操作的。发送太多警报会导致警报疲劳,并且值班人员可能会忽略表明服务存在实际问题的警报。

3. 与警报相关的故障排除指南

每条警报都应有一份明确定义的故障排除指南,说明如何分类和缓解警报识别的问题。编写这些故障排除指南时,一个好方法是USE 方法,这是 Brendan Gregg 在其著作《系统性能》中建议的。USE 代表使用率、饱和度和错误。

4. 练习故障排除指南

定期练习故障排除指南将有助于在发生事故时减少事故的发生。它还将有助于确定与 TSG 之间的差距,因为服务会随着时间的推移而发展。练习故障排除指南的几个例子是新团队成员加入团队时,这样他们就可以对 TSG 提供全新的视角。这将减少对系统知识的假设。

5. 可用的仪表板

可观察性策略应包括创建易于使用的仪表板。仪表板应包含面板,以包含服务的关键指标以及依赖服务(例如上游和下游服务)的运行状况。仪表板中应包含的一些重要指标示例是 Google SRE 手册建议的黄金信号,例如延迟、吞吐量、错误率和饱和度指标。

6. 缓解问题的自动化操作

集简云
集简云

软件集成平台,快速建立企业自动化与智能化

下载

根据指标和事件自动执行某些操作是减少 MTTR 的关键。例如,如果观察到某些服务器出现数据包丢失,则将其从轮换中移除。这将有助于减少对用户体验的影响并减少 MTTR。

7. 故障转移演练

对于多数据中心架构,制定故障转移计划至关重要,以确保快速从特定数据中心的故障中恢复。定期练习这些故障转移方案将有助于在故障期间快速执行它们。这也有助于识别故障转移计划中的任何漏洞,并提供更新和修复故障转移计划的机会。

8.自动故障转移

一旦定义、实施和实践了故障转移计划,下一步就是根据给定数据中心的服务健康检查来自动化这些故障转移方案。这将有助于更快地缓解问题,从而减少 MTTR。

9. 变更管理流程

生产系统的变化是造成停机的主要原因。制定经过深思熟虑的变革管理流程非常重要。变更管理流程的几个关键要素应包括明确定义的清单、变更审查和批准程序、具有内置监控功能的自动化部署管道,以及在发现任何问题时快速回滚变更的能力。

10. 易于识别的变更列表和自动回滚

在将服务设计为微服务的分布式系统中,可能会连续进行多项更改。拥有一个可以轻松识别在给定时间段内进行了哪些更改的中央系统将有助于确定特定更改是否导致了中断,从而易于回滚。

结论

在本文中,我讨论了有助于缩短任何关键生产服务的平均恢复时间的 10 件事。这并不是一份详尽的列表,而是基于我多年担任TikTok、Microsoft Teams、Xbox 和 Microsoft Dynamics 等服务的站点可靠性工程师的经验而列出的最佳实践。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

413

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

252

2023.10.07

vsd文件打开方法
vsd文件打开方法

vsd文件打开方法有使用Microsoft Visio软件、使用Microsoft Visio查看器、转换为其他格式等。想了解更多vsd文件相关内容,可以阅读本专题下面的文章。

511

2023.10.30

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

73

2025.12.13

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

90

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

136

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

377

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

64

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

111

2026.03.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号