0

0

SQL YugabyteDB 的 tablet splitting 与负载均衡自动调整实践

舞夢輝影

舞夢輝影

发布时间:2026-02-15 08:45:11

|

977人浏览过

|

来源于php中文网

原创

yugabytedb 的 tablet splitting 后负载不均,因 split 与负载均衡异步:split 按 range 切分并注册新 tablet,但 loadbalancer 默认每 5 分钟检查一次,仅对偏离均值 2 倍以上的节点触发迁移;可手动执行 yb-admin trigger_load_balancing 加入下轮调度,但迁移本身受副本数、网络及 raft 同步影响,需数秒至十几秒;若 split 过于激进(如热点写入导致连续切分),易引发 tablet 数爆炸,建议建表时预设 split into n tablets 并监控总数(超 5000 需警惕);跨 az 部署下,新 tablet 副本可能暂未满足 placement policy,需确保各 zone 至少 3 个 tserver 且 --placement_num_replicas 合理;split 窗口期的 “tablet not found” 错误属正常重试场景,依赖客户端 driver 自动重定向。

sql yugabytedb 的 tablet splitting 与负载均衡自动调整实践

tablet splitting 触发后数据不均匀,为什么负载均衡没立刻跟上

YugabyteDB 的 tablet splitting 是按范围(range)切分的,切完新 tablet 会注册进集群,但不会自动触发立即重平衡。负载均衡器(yb-master 中的 LoadBalancer 模块)默认每 5 分钟检查一次 tablet 分布,且只对「偏离均值 2 倍以上」的节点才发起迁移。

  • 观察是否真卡住:用 yb-admin list_tablets 看各 tablet 的 leader 分布,再用 yb-admin list_all_masters 对比节点数,确认是否真的倾斜
  • 手动触发一次:运行 yb-admin trigger_load_balancing,它不阻塞,但会把当前不平衡状态加入下一轮调度队列
  • 别指望秒级响应——即使触发,迁移本身受 --placement_num_replicas、网络延迟、raft log 同步速度影响,单个 tablet 迁移常需数秒到十几秒

split 相关参数调得太激进,导致 tablet 数爆炸

YugabyteDB 默认在 tablet 达到约 1GB 或写入 QPS 超过 1000 时尝试 split,但这个阈值是软限制。如果业务写入集中在某几个 range(比如时间戳前缀 + 用户 ID),容易在单个 tablet 内快速累积数据,触发连续 split,最终产生大量小 tablet,拖慢元数据管理。

  • 关键配置项:--ysql_yb_num_tablets(建表时指定初始 tablet 数)、--tablet_split_limit(全局最大 tablet 数,超出后 split 被拒绝)
  • 建表时预估写入热点:对高吞吐表,显式指定 SPLIT INTO 8 TABLETS,比依赖自动 split 更可控
  • 查当前 tablet 总数:用 SELECT count(*) FROM system.tablet_servers;,超过 5000 就该警惕——不是绝对上限,但 master 元数据压力明显上升

跨 AZ 部署下 split 后副本分布违反 placement policy

--placement_zone--placement_cloud 配置了多可用区策略,tablet split 后的新副本可能暂时落在同一 zone,直到负载均衡介入。这不是 bug,而是 split 和 rebalance 两个异步流程的竞态结果。

MusicArt
MusicArt

AI音乐生成器

下载
  • 验证方式:查 yb-admin list_tablets --tabular 输出中的 replicas 列,看每个 replica 的 cloud.region.zone 是否满足你定义的 placement_policy
  • 临时缓解:设 --enable_load_balancing=false 启动后先手动 split,再开 balancer,避免 split 和 move 同时发生
  • 根本解法:确保每个 zone 至少有 3 个 tserver,且 --placement_num_replicas ≤ zone 数 × 3;否则 balancer 根本无法凑出合法副本集

split 过程中遇到 “Tablet not found” 或 “Leader not found” 错误

这类错误通常出现在 split 正在进行、但客户端还在往旧 tablet 发请求的窗口期。YugabyteDB 会返回 TryAgainNotFound,由 client driver 自动重试(如 ysql 的 pgwire 协议层会重定向),但重试逻辑依赖客户端版本和超时设置。

  • 常见诱因:应用用了长连接 + 旧版 driver(如 psycopg2 TryAgain 重定向响应
  • 检查点:升级到 ysql driver 支持 tablet-aware routing 的版本(如 libpq ≥ 12,pgx ≥ v4.16)
  • 应急手段:临时加大 --tablet_split_timeout_sec(默认 30s),给 split 更多完成时间,减少重试窗口

split 和 load balancing 是两个独立机制,它们之间没有强同步信号。真正难调的不是单次 split,而是长期运行中 tablet 数增长与副本分布稳定性的拉锯——尤其在写入模式突变或节点反复上下线时,得盯住 yb-master 日志里的 LoadBalancer: Skipped tablet … due to … 这类提示,那才是真实瓶颈所在。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

943

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

334

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

375

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1636

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

369

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

1211

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

583

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

434

2024.04.29

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

76

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号