0

0

途游邹轶:中小公司的运维怎么做?

WBOY

WBOY

发布时间:2023-06-09 13:56:08

|

1019人浏览过

|

来源于51CTO.COM

转载

途游邹轶:中小公司的运维怎么做?

通过采访和约稿的方式,请运维领域老炮输出深刻洞见,共同碰撞,以期形成一些先进的共识,推动行业更好得前进。

这一期我们邀请到的是邹轶,途游游戏运维总监,邹总经常戏称自己是世界500万强企业的运维代表,可见内心中是觉得中小公司的运维建设思路和大型企业是有差别的,今天我们带着几个问题,来请邹总分享一下他的中小公司研运一体化之路。

这里是接地气、有高度的《​​​运维百家讲坛​​》第 6 期,开讲!

问题预览

  • 途游是游戏公司,您觉得游戏运维有哪些独特性?面临的最大运维挑战是什么?您又是如何解决这些挑战的?
  • 游戏运维的人才技能是什么样子的,如果想在游戏运维方向发展,您对职业路径规划上有没有什么建议?
  • 中型公司的运维团队通常不会很大,您是如何对这有限的人力排兵布阵的,有没有什么心得可以分享给大家?
  • 您是否会遇到因为团队人才水平不行,导致自己的想法落地慢,落地难的问题,您是如何解决的?
  • 您说您特别认同《运维的未来是平台工程》文章中的观点,您的团队也是一个产研式的全功能组织,想请您介绍一下:对于业务研发,相比直接使用云厂商提供的平台产品,您这个团队带来的Delta增益是什么?
  • 您经常说成本节省要硬桥硬马,节省了大量成本,公司给发个奖状,说明这个FinOps的项目大概率是在自嗨,在云上、云下Infra建设上,您的团队为公司带来了巨额成本节省,而且得到了公司的物质奖励,能否分享一下相关的心得?
  • 运维团队一直是站在公司业务的后面,离业务的距离相对远,对如何更好的支持业务,或如何说明运维对业务的价值这个点,您有什么建议?

采访实录

问:途游是游戏公司,您觉得游戏运维有哪些独特性?面临的最大运维挑战是什么?您又是如何解决这些挑战的?

整体游戏运维架构相对传统互联网业务来比较,相对简单,但是单机可靠性要求比较高,运维日常工作,相对事务性的工作较多,比如开服合服等等。 面临最大的运维挑战,其实不是技术层面的,更多的是价值认可度层面的,怎么让我们业务部门认可我们的价值,这个挑战我相信也是整个运维赛道同仁们一致的挑战。要去赢得业务部门的认可,提升运维团队的价值,从我以及我团队的实践来总结,其实就是一句话:扎扎实实的做好服务,以业务部门/用户为中心

问:游戏运维的人才技能是什么样子的,如果想在游戏运维方向发展,您对职业路径规划上有没有什么建议?

游戏运维的人才技能和传统互联网行业没有太大的区别,对于运维这个赛道来说,认知比较低和缺乏体系的成长环境,是我们中小厂运维面临的比较现实的问题,我们常年和机器底层打交道,很少去认真思考过,未来10年,15年后的发展,更多的是追逐热点,追逐变化,很少去思考沉淀那些不变的内容,以及怎么去利用这些内容来做时间的朋友形成自己的竞争力。我个人建议中小厂的运维同学,还是要在理论方法论学习和技能提升两手抓,用理论指导实践,通过实践完善自己对理论的理解。学习理论和方法这块,我也提几点建议:

  1. 持有开放的心态去学习,ITIL,SRE,lean,scrum,平台工程,可观测等等,不要纠结于门派之见,只要对自己有价值的内容,都可以去学习去吸收融合,比如ITIL抓住变更管理、故障管理、问题管理、持续服务改进,这几个流程去学习并应用于实践,其实就能解决好大部分运维问题。又比如对SRE的理念的学习,抓住SLO的理念,开展可靠性建设,引导业务部门与运维团队建立一个可靠性目标共担的协作模式。而在实践的SLO落地的过程中,又可以引入可观测性理念和方法,来加强自己对可观测性能力的建设。
  2. 面向国外科技公司学习为主,面向国内大厂学习为辅,国外科技公司的理论和工程方法相对严谨和体系,不太受场景限制,可以学以致用,国内的大厂更多偏向于特殊场景的实践,理论和工程方法抽象不够,基本上都是万亿并发,千亿流量的场景,其实和中小厂的运维没啥关系,中小厂去深度对标学习,价值杠杆率不高

问:中型公司的运维团队通常不会很大,您是如何对这有限的人力排兵布阵的,有没有什么心得可以分享给大家?

有限的资源,往往容易激发创新,团队规模可以不大,但是要保持精干、敏捷,换句话说就是你团队要足够能打,而且应对不确定性能力要强,要想达到这个效果,我个人总结了我们这5年的组织能力建设实践:

  1. 人才结构要做深度优化,要引入专业产研人才,用产研驱动团队价值输出。目前途游的运维安全团队,产研和传统运维比例接近1:1。
  2. 研运一体化的组织模式去构建,要形成一支全职能,端到端的混合型团队。目前的途游的运维安全团队,有产品经理、研发负责人,前,后端工程师,服务运营工程师,运维工程师,IT工程师。
  3. 围绕互信、目标一致、信息共享、去中心化去构建敏捷的文化氛围。通过敏捷的文化氛围,来形成一支能应对不确定性的敏捷组织。

关于敏捷组织的实践,可以看我的分享:https://tuyoo.feishu.cn/docs/doccnFlAD2m7WnSpcLYxFJRImZb

问:您是否会遇到因为团队人才水平不行,导致自己的想法落地慢,落地难的问题,您是如何解决的?

这个肯定会遇到,我们解决思路:

  1. 保持耐心,对团队持续迭代,这个就和打牌一样,你不能期望上手一手好牌,这个都得不断的进出的换牌,最后把牌理顺去赢得比赛。
  2. 对新人的标准是潜力要高于团队现有70%的人员,不符合标准宁可不招聘,招人谨慎,对人的培养才会用心。
  3. 团队负责人自己一定是团队首席HR,要主动出击去找人才,我最近4年在BOSS直聘上大概聊过接近两万人吧,看过的简历应该超过2万多份,这个可能很难有中小公司的运维负责人会做到这点。
  4. 利用敏捷组织作为基础支持,发挥集体智慧。

关于我团队转型实践分享:https://tuyoo.feishu.cn/docx/doxcnGMuijglK6NdENYC2vD7KKh

问:您说您特别认同《运维的未来是平台工程》文章中的观点,您的团队也是一个产研式的全功能组织,想请您介绍一下:对于业务研发,相比直接使用云厂商提供的平台产品,您这个团队带来的Delta增益是什么?

在回答这个问题之前,我还是想阐述下我们对造轮子和外采服务的认知:

Kacha
Kacha

KaCha是一款革命性的AI写真工具,用AI技术将照片变成杰作!

下载

我们其实对外采还是自研,蛮开放的心态,也是蛮简单的判断,就是看ROI的投入产出比,标准化的,投入巨大的,自己搞不定的肯定是尽量用外部三方的服务或者产品来帮助我们解决问题,我们更关注的是如何服务好我们的业务部门,关注我们提供的服务结果和质量,不太关注这个能力是我们自己具备的还是三方的服务能力,只要能帮助我们提升服务质量和效率的,我们都非常开放的心态去吸收和融合。

再来回答这个产研团队对我们的增益问题,每个公司都有它本身一些特性或者定制化场景需求,这些东西外来产品肯定不能完全覆盖到位,所以这样的一支端到端的团队,其实是让整个团队有了解决一些非标问题的能力。这种能力其实非常关键,很大程度决定了团队的价值实现。

另外再来说说我们对运维的未来是平台工程的理解,我对平台工程的理解有两点关键要素:

  1. 平台工程面向的对象是以业务部门为主,而不是运维为主
  2. 平台工程提供的是自服务,平台工程输出的产品和工具一定是业务部门自服务为主

我们团队转型探索,就是主要按照这两个要素来做的实践,但是理论水平不够,没有清晰的去提出平台工程的理念。我们游戏运维有一个蛮大的痛点就是琐事很多,比如CDN的上传发布,游戏的配置更新,例行起停服,都是游戏运维日常的事务,不可或缺,但是都是事务性的,价值很低,可能在我们游戏运维的常识里面,我们会想到做一些自动化的工具,去提升运维的人效,把运维从人肉或者写脚本的状态,变成WEBOPS状态,这个感觉杠杆率还是太低,并没有把运维释放出来,所以在解决这些问题过程中,诞生了我对平台工程理念的原始理解,目前我们游戏运维的日常事务性工作有50%都是项目组自服务,通过我们提供的工具,这在我们接触平台工程的理念后,发现是高度认知一致的。所以对运维的未来是平台工程,我相信只要尝过自服务的甜头,吃过人肉运维的苦的同学,应该都会有很深的认同感。

问:您经常说成本节省要硬桥硬马,节省了大量成本,公司给发个奖状,说明这个FinOps的项目大概率是在自嗨,在云上、云下Infra建设上,您的团队为公司带来了巨额成本节省,而且得到了公司的物质奖励,能否分享一下相关的心得?

对于FINOPS这件事,平时也和行业一些专家老师做过一些交流碰撞,结合我们团队自己的实践,我个人感觉FINOPS实践落地难,难在改变老板的认知,目前行业还是偏技术实现或者理念碰撞阶段,还停留在比谁更专业,更规范的阶段,个人感觉不能影响到老板认知的FINOPS,基本都是无价值,或者价值极低,做和不做没啥区别。对于FINOPS这个领域不过多评价,我们缩小到成本优化这件事来讲,在我们团队我没有设定过成本优化的OKR,我们一直用精益的理念在指导开展工作,精益有一个核心的理念,一切不产生价值的都是浪费,持续消除浪费, 这样在工作开展过程中,其实就不用搞运动式的成本优化。很多省了几个亿的成本优化,可能在老板眼里就是应该的,以前浪费太大了,现在只是消除浪费,这自然就不会得到价值认可。

成本优化实践过程中我个人总结了几点:

  1. 要用精益的理念去持续指导成本优化,而不是简单的运动式降本增效。
  2. 要拉齐价值共识,要和相关部门比如总办,财务等监管部门达成共识。
  3. 成本优化的计算模型不能太复杂,模型计算太复杂,很难去达成共识。
  4. 数据要统一按照财务口径进行核对,不能我们从技术角度想当然。

编者按:邹总做成本优化,具体节省多少钱是经过财务最终测算的,个人觉得很值得借鉴,很多公司的成本优化,都是自己测算的,缺乏公信力,老板较难有体感。

问:这是老问题了,运维团队一直是站在公司业务的后面,离业务的距离相对远,对如何更好的支持业务,或如何说明运维对业务的价值这个点,您有什么建议?

具体怎么去体现价值,我建议运维团队要想体现价值,首先是要有服务意识,然后是要对服务体系进行建设,再就是保持耐心和持续改善,通过这个去形成一个正循环,从而把时间做朋友。

在这块我简单分享下我们团队的服务体系建设指导纲要。我们以客户为中心,构建安全、可靠、高效、低成本、可持续的服务。通过服务运营输出价值,通过产品和工具落地服务运营,并持续改善。在这个指导纲要中,我们将团队里的运维、产研和运营三个职能角色进行了深度融合。通过服务运营的输出来把价值进行体现。很多时候,做技术的人往往不太容易意识到服务运营的重要性,我们常常听到人们谈论技术运营和产品运营,但很少有人谈论服务运营。这与我们做技术出身的惯性认知有很大关系,更多的是站在自己专业领域去表达,很少去站在我们服务对象的角度去看我们的价值。很多人提到服务可能就会简单联想到端茶倒水、跑腿这种角色,比较排斥提服务。但实际上,每个团队都是服务型团队。比如我们服务项目组,项目组服务我们最终的用户,我们的最终用户可能是在他的工作领域服务其他客户。因此,提供服务是一件非常重要的事情。只有服务好了客户,帮助他们获得结果,才能真正体现自己的价值。

扩展阅读

  • ​​运维百家讲坛第5期:度小满陈存利:20年老“司令”聊运维、绩效、成长​​
  • ​​运维百家讲坛第4期:又拍云邵海杨:25年Linux老兵聊DevOps八荣八耻​​
  • ​运维百家讲坛第3期:Flashcat来炜:如何把运维的饭碗端稳​
  • ​​运维百家讲坛第2期:作业帮聂安:运维如何转型,听听作业帮的OPaS思路​​
  • ​​运维百家讲坛第1期:井源:运维几何​​

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

16

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

23

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

75

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

95

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

218

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

420

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

168

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

222

2026.03.03

C++高性能网络编程与Reactor模型实践
C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开,深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例,帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

33

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.5万人学习

Excel 教程
Excel 教程

共162课时 | 21万人学习

C# 教程
C# 教程

共94课时 | 11.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号