Redis如何分析内存驱逐导致的系统变慢

P粉602998670

发布时间：2026-03-16 11:39:31

261人浏览过

来源于php中文网

原创

这是驱逐已开始但尚未爆发的典型信号：Redis达maxmemory后每次写入前检查并触发驱逐，消耗CPU和内存带宽，导致ops下降、延迟升高，evicted_keys持续增长。

redis如何分析内存驱逐导致的系统变慢

为什么 `INFO memory` 显示内存快满，但 `redis-cli --stat` 看不到明显写入？

这是驱逐（eviction）已开始但尚未爆发的典型信号。Redis 在达到 maxmemory 后不会立刻卡顿，而是每次写入前检查内存、触发驱逐逻辑——这个过程本身要花时间，尤其当驱逐策略是 allkeys-lru 或 volatile-lfu 时，需要扫描、排序、淘汰，CPU 和内存带宽都会被占用。

常见错误现象：used_memory_human 接近 maxmemory_human，mem_fragmentation_ratio > 1.5，同时 evicted_keys 持续增长，但 instantaneous_ops_per_sec 却掉到很低，甚至 latency doctor 报出 “eviction is taking too long”。

务必检查 maxmemory-policy：用 CONFIG GET maxmemory-policy 查，noeviction 不会驱逐但直接返回 OOM 错误；allkeys-random 开销最小，volatile-lfu 最耗 CPU
evicted_keys 是累计值，要看增量：每秒执行一次 INFO memory，观察它是否稳定上涨（比如每秒 +500）
如果 mem_allocator 是 jemalloc 但 mem_fragmentation_ratio > 2.0，说明内存碎片严重，驱逐时 malloc/free 更慢，此时光调策略没用，得重启或启用 activedefrag yes

怎么定位哪些 key 正在被高频驱逐？

Redis 本身不记录“谁被删了”，但可以通过驱逐行为反推热点 key 的分布特征。真正要查的是“哪些 key 容易被淘汰”，而不是“刚被删了谁”——因为驱逐发生在写入路径上，关键在访问模式和过期设置。

使用场景：业务突然变慢，evicted_keys 暴涨，但监控里没看到大 key 或异常写入流量。

先用 MEMORY USAGE 抽样检查大 key：MEMORY USAGE user:10086，确认是否存在单个 >1MB 的 value（比如未分片的缓存列表）
用 SCAN 配合 TTL 批量看过期时间分布：SCAN 0 MATCH "session:*" COUNT 1000 → 对每个结果跑 TTL，统计 TTL volatile-* 策略就会频繁扫描它们
避免用 KEYS *：它阻塞主线程，在驱逐压力下等于雪上加霜

`maxmemory-policy volatile-lru` 为什么比 `allkeys-lru` 更容易卡？

不是算法更复杂，而是数据结构访问模式不同。volatile-lru 要维护两套 LRU 链表：一套是所有带过期时间的 key，另一套是其中“当前未过期”的子集。每次写入都要更新、比较、剪枝，且无法利用 Redis 4.0+ 的近似 LRU 优化（该优化只对 allkeys 生效）。

Machine Translation

聚合多个来源的AI翻译

下载

性能影响明显：在 100 万 volatile key、平均 TTL 60 秒的实例中，volatile-lru 的驱逐延迟可达 allkeys-lru 的 3–5 倍，且随 key 数量非线性上升。

如果你的业务里 90% 的 key 都设了 EXPIRE，那 volatile-lru 实际等价于 allkeys-lru，还多一层判断——不如直接切 allkeys-lru
volatile-ttl 看似简单（只比 TTL），但它会让 Redis 频繁遍历整个过期字典，高并发下锁竞争剧烈，实测比 volatile-lru 更容易引发延迟毛刺
没有“永远安全”的策略：哪怕 noeviction，客户端收到 (error) OOM command not allowed when used memory > 'maxmemory'. 后重试逻辑若没退避，也会打满连接数

如何用 `redis-cli --latency` 和 `slowlog` 分离驱逐干扰？

--latency 测的是纯事件循环延迟，能暴露驱逐导致的主线程卡顿；slowlog 记的是命令执行时间，但驱逐动作不计入 slowlog——所以 slowlog 里看不到慢，系统却卡，正是驱逐在后台吃资源的铁证。

实操建议：

运行 redis-cli --latency -p 6380 看最大延迟（注意单位是毫秒），如果 > 100ms 且与 evicted_keys 上涨时段吻合，基本锁定驱逐问题
SLOWLOG GET 5 只能辅助排除：如果 slowlog 里全是正常命令（如 GET、HGETALL）且耗时
开启 latency-monitor-threshold 100（单位 ms），再用 LATENCY LATEST 查最近一次超阈值事件类型，输出里出现 eviction 就不用再猜了

真正难处理的，是驱逐和慢命令、大 key、AOF rewrite、RDB save 全部挤在同一时段——这时候 INFO stats 里的 total_commands_processed 增速会断崖下跌，而 instantaneous_input_kbps 却没降，说明网络还在收请求，但 Redis 已经顾不上处理了。

相关标签:

count Session Error volatile 循环数据结构线程主线程并发事件算法 redis

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Redis怎样调整故障转移超时时间_配置failover-timeout防止因网络抖动中断切换流程下一篇：暂无

作者最新文章

Java中的SynchronousQueue有什么特点_容量为0的线程间直接握手传递通道

2026-03-16 09:55

Java基础如何手写一个简单的记事本程序_IO字符流读写与File类文件操作

2026-03-16 09:55

mysql如何备份表结构不包含数据_mysql --no-data参数

2026-03-16 09:56

如何在Golang中控制函数内联Inlining Go语言gcflags参数详解

2026-03-16 09:56

PostgreSQL在Navicat中如何修改已有表结构_高级特性支持

2026-03-16 09:57

怎么设置MongoDB客户端读取操作的过时容忍度_maxStalenessSeconds详解

2026-03-16 09:57

Navicat连Redis出现中文乱码怎么办_字符集编码调整

2026-03-16 09:57

如何配置Active Data Guard_备库实时查询与只读打开模式实现

2026-03-16 09:58

怎么优化远程服务器的开启备份文件加密保护_降低延迟与丢包率

2026-03-16 09:58

如何在Java接口中定义静态方法_工具方法的封装与调用规范

2026-03-16 09:58

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.11.20

session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍：1、会话超时：服务器为Session设置了一个默认的超时时间，当用户在一段时间内没有与服务器交互时，Session将自动失效；2、会话数量限制：服务器为每个用户的Session数量设置了一个限制，当用户创建的Session数量超过这个限制时，最新的会覆盖最早的等等。

336

2023.10.17