SQL表分片路由的核心是精准定位数据分片,关键在于基于确定性、可逆的分片键(如user_id)设计路由规则,常用哈希取模、范围分片和复合路由三种方式,需兼顾均匀性、扩容平滑性与查询效率。

SQL表分片路由的核心,是让查询或写入请求能准确落到对应的数据分片(Shard)上,避免全分片扫描。关键不在于“分多少片”,而在于“怎么知道某条数据该去哪片”。路由规则必须与分片键(Sharding Key)强绑定,且具备确定性、可逆性、低冲突和易维护性。
明确分片键,拒绝多键模糊路由
分片键是路由的唯一依据,通常是业务中高频查询、高基数、稳定不变的字段,如 user_id、order_no 或 tenant_id。一旦选定,所有DML操作(INSERT/UPDATE/DELETE/SELECT WHERE)都必须携带该键,否则无法精准定位分片。
- 避免用时间字段(如create_time)做分片键——范围查询易跨片,且冷热不均
- 禁止在同一条SQL中混用多个潜在分片键(比如同时带 user_id 和 shop_id),系统无法自动判断主从关系
- 若业务确需多维度查询,优先通过冗余字段(如在订单表里冗余 user_id)或全局索引补足,而非动摇路由根基
哈希取模:简单可靠,但注意扩容平滑性
对分片键做一致性哈希或普通哈希后取模,是最常用路由方式。例如:shard_id = hash(user_id) % 8,将数据均匀打散到8个库/表。
- 普通取模适合分片数长期固定场景;扩容需双写+迁移,停机或灰度成本高
- 一致性哈希(如Ketama)更适合动态扩缩容,新增节点只影响邻近虚拟节点数据,迁移量可控
- 哈希函数必须是确定性的(如MD5转整型、FNV-1a),严禁使用带随机因子或时钟依赖的算法
范围分片:适配时间/地理等天然有序场景
当分片键本身具有明显顺序特征(如日期、区域编码),可用范围映射直接路由。例如:2024-01 → shard_01,2024-02 → shard_02。
- 需预定义好范围边界(如按月/按省/按ID段),并维护一张轻量路由元数据表或配置中心规则
- 范围查询(如“查2024年全部订单”)天然命中连续分片,但跨范围JOIN或非范围条件(如WHERE status=1)可能需广播查询
- 务必预留“溢出分片”或自动分裂机制,防止某段数据暴增导致单片过载
复合路由:多级拆分下的嵌套定位
超大规模系统常采用“库级分片 + 表级分片”两级结构,路由规则需分步计算。例如:先按 tenant_id % 4 确定DB,再按 order_id % 16 确定TABLE。
- 两级键可不同(如租户ID分库,订单ID分表),但必须保证组合后全局唯一且无歧义
- SQL解析层需支持嵌套表达式提取,如解析 WHERE tenant_id = 1001 AND order_id = 987654321 并分别代入两级公式
- 避免三级及以上深度嵌套,会显著增加解析开销和运维复杂度
基本上就这些。路由规则不是越复杂越高级,而是越清晰、越少例外、越容易被SQL解析器读懂,就越稳定可靠。











