0

0

我为什么要把退休前的这段时间都用在和运维知识自动化系统死磕上

WBOY

WBOY

发布时间:2023-06-10 10:49:15

|

1437人浏览过

|

来源于51CTO.COM

转载

​我的团队做系统优化是从2003年开始的。应hp service的邀请,2003年我加入了他们的海尔系统优化组,负责oracle数据库的优化工作。这是我第一次参加大型系统的优化工作,甚至那时候我还不知道一个大型售后服务系统的优化该从何处入手。我是带着李维斯的一本书出发去青岛参加这个优化项目的,通过这个项目,我对oracle数据库的优化有了初步的认识。后来我又帮助hp完成了对华为scm系统所采用的caf平台的性能评估,并对决策者建议及时中止这个项目,避免更大的资金浪费,因为这个项目已经无法优化了。后来hp采纳了我的建议,关闭了基于caf平台的项目,华为也重新选择了oracle ebs作为scm系统和erp系统的基础。从那以后,我们的团队规模越来越大,做的优化项目也越来越多,也锻炼出了一批做系统优化的专家。

2011年,我们开始帮助国家电网做系统优化,刚开始的几个项目在专家的带队下,效果都特别好。客户希望我们扩大优化范围,制订了一个需要近百名DBA的大型优化项目。我们从很多合作伙伴处招募了数十名DBA共同参与这个项目,为了确保项目的质量,我们对整个团队进行了多次集中培训。不过最后这个项目做下来效果很不理想,最主要的原因就是DBA的能力参差不齐,大多数没有参加过大型优化项目。从那个项目开始,我也在思考传统的依靠人和专家的运维模式存在的问题,希望找到一条道路,能够让专家的经验发挥更大的作用。这是我开发D-SMART,一个运维知识自动化系统的初衷。要想构建一个知识自动化系统,必须提高运中的数字化程度。不过传统行业IT运维的数字化程度很低。其主要原因有几个方面。

资源有限:很多企业可能没有足够的资源去投入研发和实施智能化运维系统,或者可能认为将资源投入其他方面更有回报。

文化因素:一些企业可能更愿意依靠人工经验而不是自动化系统,可能是因为他们缺乏对自动化系统的信任,或者他们可能认为在紧急情况下专家的判断比机器更可靠。

技术限制:一些企业可能缺乏必要的技术基础设施来支持智能化运维系统,这可能需要较高的成本投入来升级设备和系统。

意识不足:一些企业可能没有意识到数字化运维的潜在优势,或者可能没有足够的知识和了解数字化运维的实施方法。

虽然传统行业在运维数字化上存在各种认知的不足,但随着技术的发展和数字化的日益重要,智能化运维将成为未来信息系统运维的一个趋势,也是一个必然的方向。

反思我们这些年做系统优化与运维的工作经历,经验不足的技术人员是导致优化工作效果不佳的重要因素。优化工作需要专业知识和技能,而不是仅仅依靠经验。可能需要更加系统化的培训来确保所有参与优化工作的人员具备必要的技能和知识。此外,优化工作的效果也受到多个因素的影响,如系统设计,数据质量和优化工作的过程等。

随着技术的不断发展,现在已经有许多智能化的算法与方法可供使用,可以大大提高运维效率和减少人为错误。通过运维知识自动化工具可以提供智能化分析和自动化操作,以帮助DBA更好地管理和优化系统。如果企业有足够的资源,可以考虑引入这些工具和系统来改善运维效率。“运维知识自动化系统”结合了大数据分析、人工智能等技术,以及专家经验和工作积累,构建了一个全面的运维知识体系,可以帮助提高运维工作的效率和质量。通过监控指标体系、健康模型、运维知识图谱、异常检测算法等技术,“运维知识自动化系统”可以自动化地分析和解决系统性能问题,同时还能提供智能化的优化建议和决策支持,为企业的运维工作提供了强有力的支持。

实际上D-SMART系统开发的最重要的目的是对我们这个团队这二十多年在IT运维与系统优化上的经验的总结,让团队中的专家把这些年积累的经验变成可自动化执行的数字化知识库。并通过不断的迭代知识库,让运维知识不断的能够在平台中沉淀与积累,从而不断提升自动化分析的能力。

Kacha
Kacha

KaCha是一款革命性的AI写真工具,用AI技术将照片变成杰作!

下载

这个系统的研发不仅仅依赖于研发团队,知识工具的研发完全由DBA完成,而没有借助于普通的运维人员。这是因为普通的研发人员并不了解IT运维,不了解数据库,不了解性能优化。只有做过运维工作的DBA才能够更加准确的把专家的思路变成自动化的工具。

D-SMART系统的起点是指标体系,我认为指标是专家经验的一部分,而且是十分重要的一部分,专家认知后的指标才是可以完全解读的指标。而目前很多数据库监控软件提供的很多指标,运维人员无法正确解读,哪怕这些指标出现了异常,可能也无法被发现,或者说发现了指标异常也无法感知到系统哪个地方出现了问题。而专家梳理出来的指标数据都是单一可被专家解读的,因此每个指标都会被专家进行标注,打上特定的标签。

D-SMART的第二步是完成指标的准确采集,准确的采集到每个指标的数据对于智能化运维系统来说十分关键。要确保每个数据都能够准确的反映出数据库的真实状态十分关键。很多数据被采集回来后,需要经过加工才能变成可被使用的指标,这些加工算法里也体现了专家的经验。通过这个步骤,D-SMART系统在不断的获取数据库运行状态的数字化模型。

第三步是对采集回来的指标、日志数据进行自动化的建模分析。我们通过健康模型判断数据库的运行状态是否正常,是否存在风险;通过性能模型了解数据库的总体性能状态;通过负载模型了解数据库当前的负载情况;通过故障模型发现数据库可能存在的隐患,并及时报警。

第四步是利用这些被采集回来的数据自动完成各种巡检工作。比如日检,每天半夜系统会自动对前一天采集的数据做分析,发现其中的风险与隐患,并生成日检报告。每个月或者每个星期,可以定制任务对最近采集的数据进行自动化分析,生成巡检报告。这种巡检能够分析全面的数据,比传统的靠人工采集数据,人工进行分析的方式拥有更为丰富的数据。通过自动化分析的算法也更加高效。

利用这些数据,还可以做很多有价值的分析工作,比如容量预测、性能优化、专项审计等。同时利用标准化的指标体系,我们还可以构建一线运维与二三线运维的数字化沟通,通过完善的指标集,可以尽可能全面的为三线运维提供数据库运行的全景视图,真正做到不用到现场,专家可以尽知天下事。

前阵子80多岁的母亲一定要给我过个生日,这些年在外面跑,已经有十多年没有过生日了。插蜡烛的时候才发现,过完生日已经54岁,离退休已经时日无多了。我想在现在还能做点事情的时候,尽可能的能够把这些年积累的经验都数字化了,能够留下来,这样也就没有遗憾了。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

16

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

23

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

75

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

95

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

218

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

420

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

168

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

222

2026.03.03

C++高性能网络编程与Reactor模型实践
C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开,深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例,帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

33

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号