Linux 运维如何支撑业务快速扩展

舞夢輝影

发布时间：2026-02-11 20:56:02

977人浏览过

来源于php中文网

原创

CPU突增却查不到热点进程，因短命进程、内核线程或容器子进程未被top捕获；需用ps、pidstat、/proc/pid/stack多维度排查。

linux 运维如何支撑业务快速扩展

服务扩容时 CPU 突增却查不到热点进程？`top` 和 `htop` 不够用

说明：业务流量一涨，top 显示 CPU 使用率飙升，但排序后前几名进程加起来只占 30%，剩下 70% “黑盒”里跑着啥？常见于短生命周期进程、内核线程、或容器内未暴露的子进程。

实操建议：

先跑 ps -eo pid,ppid,comm,%cpu --sort=-%cpu | head -20，看是否有大量同名短命进程（比如 curl、sh、python 脚本）
用 pidstat -t 1 观察线程级 CPU，确认是否是某个进程内部线程打满（如 Java 应用 GC 线程、Node.js 事件循环阻塞）
检查 /proc//stack（需 root）看内核栈，排除 nf_conntrack 打满、ext4 日志锁、或 NFS 客户端卡住等内核态问题

横向扩容器后连接数不均，`iptables` SNAT 规则成瓶颈

说明：K8s 或自建集群加节点后，新 Pod 的出向连接集中在少数宿主机上，netstat -s | grep -i "conn failed" 出现大量 connection failed，本质是 iptables 的 CONNMARK + SNAT 规则在高并发下哈希冲突+锁竞争。

实操建议：

避免在 POSTROUTING 链中对所有流量做 SNAT；改用 ip rule + ip route 基于源地址路由，或启用 nf_conntrack_hashsize 调大哈希桶（需重启模块）
若必须用 iptables，把 SNAT 规则拆到不同链（如 SNAT-0、SNAT-1），配合 ipset 分流，降低单链匹配开销
检查 sysctl net.netfilter.nf_conntrack_max 和当前连接数（cat /proc/sys/net/netfilter/nf_conntrack_count），超 80% 就要调或清理老化连接

Ansible 批量部署失败，`Connection refused` 却能 `ssh` 手动连通

说明：Ansible 报 Connection refused，但人肉 ssh user@host 没问题——大概率是 Ansible 默认用 paramiko 实现 SSH，而目标机 sshd_config 中禁用了 PubkeyAuthentication no 或启用了 UsePAM yes 导致 paramiko 认证路径异常。

Colourlab.ai

好莱坞内容创作者依赖的AI色彩分级软件

下载

实操建议：

在 ansible.cfg 中强制走 OpenSSH：添加 [defaults] 下 transport = ssh
检查目标机 /var/log/secure，搜索 Failed password 或 authentication failure，确认是否被 PAM 拦截（比如 pam_faillock 锁了用户）
避免在 inventory 中混用密码和密钥认证；统一用 --private-key 指定密钥，并确保权限为 600，否则 OpenSSH 会静默拒绝

`systemd` 服务依赖启动慢，`systemctl start` 卡住 90 秒

说明：写了个新服务 A，After=B.service，但 B 已运行，A 启动仍卡住。根本原因是 B.service 的 Type=notify 但没发 sd_notify("READY=1")，systemd 等超时（默认 DefaultTimeoutStartSec=90s）才放弃。

实操建议：

查 systemctl show A.service | grep TimeoutStartSec 确认实际超时值
对 Type=notify 服务，必须在代码中调用 sd_notify(0, "READY=1")（C）、systemd.daemon.notify("READY=1")（Python）、或用 systemd-notify --ready（Shell）
若无法改代码，临时改 A.service：加 Wants=B.service 但去掉 After=，再用 ExecStartPre=/bin/sh -c 'while ! systemctl is-active --quiet B.service; do sleep 1; done' 主动轮询

业务扩展不是堆机器，是让每台机器的资源、连接、部署、启动都可预期。最容易被跳过的，永远是 systemd 的 notify 信号、nf_conntrack 的哈希大小、以及 Ansible 底层到底走的是哪个 SSH 实现。

Linux 运维如何支撑业务快速扩展

Linux 网络配置基础与高级技巧

Linux 日志系统原理与运维实践

Linux 备份文件无法恢复的排查思路

Linux 运维新人常见误区总结

相关标签:

linux sort while cURL 循环栈堆 private 线程 var 并发 JS 事件 linux ssh ansible

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：时间跳跃导致证书失效的 chrony makestep threshold 与 hwclock -systohc 下一篇：sftp 连接慢的 TCP keepalive_interval 与 ServerAliveCountMax 配置

作者最新文章

植物大战僵尸无敌版无需下载地址_植物大战僵尸无敌无限版手机版破解无需下载

2026-02-09 08:23

4090毒蘑菇测试表现如何？RTX 4090跑毒蘑菇显卡满载测试帧数及温度实测分析

2026-02-09 09:57

扫描全能王免费版网页版_扫描全能王网页版免费功能使用指南

2026-02-09 11:30

GitHub 下载按钮没了怎么办？替代下载方式说明

2026-02-09 12:52

空调外机噪音大嗡嗡响怎么办外机异响原因与解决方法

2026-02-10 01:17

公积金贷款利率什么时候调整

2026-02-10 08:19

扫描全能王怎么扫描图片高清_扫描全能王图片扫描优化方法

2026-02-10 08:29

谷歌确认Android更新“回滚”至2025年系显示错误修复补丁开发中

2026-02-10 10:04

Golang fuzz 测试怎么玩？2026新特性实战

2026-02-10 10:48

拒绝无限期等待！Steam新功能让游戏正式版日期透明化

2026-02-10 12:26

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

399

2023.09.04