0

0

【最佳实践】解决 Elasticsearch 8.x 滚动升级失败的问题

雪夜

雪夜

发布时间:2025-11-26 14:35:02

|

554人浏览过

|

来源于php中文网

原创

本文描述问题及解决方法同样适用于 php中文网 elasticsearch service(es)。

环境配置

Elasticsearch 当前版本:8.8.1Elasticsearch 目标升级版本:8.13.1升级方式:滚动升级(Rolling Upgrade)

背景

在 AI 大模型席卷全球的今天,向量检索(Vector Search)已经成为现代搜索引擎的核心能力。无论是智能问答、图像搜索、推荐系统,还是 RAG(检索增强生成)应用,都离不开高效的向量相似度计算。而 Elasticsearch 8.x 正是在这个时代背景下,将向量检索能力推向了新的高度。

为什么选择 Elasticsearch 8.x?

2023 年以来,随着 ChatGPT 等大语言模型的爆火,企业对向量检索的需求呈指数级增长。Elasticsearch 从 8.0 版本开始,就将 dense_vector(密集向量) 和 kNN 搜索作为核心特性进行了大幅优化:

引入原生 kNN 搜索:支持 HNSW(Hierarchical Navigable Small World)算法Byte 向量支持:相比 float 向量,存储空间减少 75%,检索速度提升 2-4 倍向量量化优化:支持标量量化(Scalar Quantization),在精度损失可控的情况下大幅提升性能混合检索增强:kNN 与传统全文检索的融合更加丝滑,支持更复杂的业务场景更好的索引性能:向量索引构建速度提升,支持更大规模的向量数据···

升级的契机

存储成本高昂:数千万条 768 维的 float 向量,存储空间占用惊人检索延迟上升:随着数据量增长,P99 延迟已经超过了业务可接受范围混合检索效果不佳:业务既需要语义检索,又需要关键词精确匹配,两者的融合不够优雅

而 Elasticsearch 8.13.1 的新特性恰好能解决这些问题:

Byte 向量可以将存储成本降低到原来的 1/4量化优化能显著提升检索速度增强的混合检索让我们能更好地平衡语义理解和精确匹配

于是,业务决定从 8.8.1 升级到 8.13.1。

升级之路的意外

Elasticsearch 官方文档明确表示,8.x 系列支持滚动升级(Rolling Upgrade) [官方文档],然而,当我们信心满满地开始升级第一个节点时,却遭遇了一个意想不到的错误:

同样的版本号,不同的构建哈希,导致节点无法加入集群。

这个问题让我们陷入了困境:难道无法滚动升级?难道必须停机才能升级?经过一番深入的源码分析和问题排查,我们终于找到了问题的根源和解决方案。

接下来,让我们一起深入探讨这个问题的本质,以及如何优雅地解决它。

问题现象

在进行 Elasticsearch 集群滚动升级过程中,新节点启动后无法正常加入集群,日志中出现以下错误信息:

<code class="txt">[2024-10-29T10:23:45,123][WARN ][o.e.t.ClusterConnectionManager] [es-node-02] failed to connect to node [{es-node-01}{...}{8.8.1}]org.elasticsearch.transport.ConnectTransportException: [es-node-01][10.0.1.10:9300] handshake failed. unexpected remote node [es-node-01]at org.elasticsearch.transport.TransportService.lambda$connectionValidator$6(TransportService.java:567)...Caused by: org.elasticsearch.transport.TransportSerializationException: Failed to deserialize response from handler [ContextRestoreResponseHandler[...]]at org.elasticsearch.transport.InboundHandler.doHandleResponse(InboundHandler.java:423)...Caused by: java.lang.IllegalArgumentException: remote node [{es-node-01}{...}{8.8.1}] is build [a23c735933a8b1c0c3d0873c8ab96349e5101e5e] of version [8.8.1] but this node is build [6db6a780efb93cf7238a877094bd825d9b8b5fe0] of version [8.13.1] which has an incompatible wire formatat org.elasticsearch.transport.TransportService$HandshakeResponse.throwOnIncompatibleBuild(TransportService.java:712)at org.elasticsearch.transport.TransportService$HandshakeResponse.maybeThrowOnIncompatibleBuild(TransportService.java:697)at org.elasticsearch.transport.TransportService$HandshakeResponse.<init>(TransportService.java:691)...</code>

关键信息:

旧节点(8.8.1)构建哈希:a23c735933a8b1c0c3d0873c8ab96349e5101e5e新节点(8.13.1)构建哈希:6db6a780efb93cf7238a877094bd825d9b8b5fe0错误提示:incompatible wire format(不兼容的线路格式)

问题分析

为什么会出现这个问题?

这是 Elasticsearch 8.x 版本中引入的一个严格兼容性检查机制。查看 TransportService.java 源码可以发现问题根源:

<code class="java">public static class HandshakeResponse extends TransportResponse {// ...public HandshakeResponse(StreamInput in) throws IOException {    super(in);    version = Version.readVersion(in);    buildHash = in.readString();        try {        discoveryNode = new DiscoveryNode(in);    } catch (Exception e) {        maybeThrowOnIncompatibleBuild(null, e);        throw e;    }    maybeThrowOnIncompatibleBuild(discoveryNode, null);    clusterName = new ClusterName(in);}private void maybeThrowOnIncompatibleBuild(@Nullable DiscoveryNode node, @Nullable Exception e) {    if (DiscoveryNode.isServerless() == false && isIncompatibleBuild(version, buildHash)) {        throwOnIncompatibleBuild(node, e);    }}private static boolean isIncompatibleBuild(Version version, String buildHash) {    // 关键逻辑:当版本号相同但构建哈希不同时,认为不兼容    return version == Version.CURRENT && Build.CURRENT.hash().equals(buildHash) == false;}}</code>

问题的本质

在滚动升级过程中:

旧节点(8.8.1)的 Version.CURRENT8.8.1,构建哈希是 a23c735...新节点(8.13.1)的 Version.CURRENT8.13.1,构建哈希是 6db6a78...当新节点尝试与旧节点握手时,会读取旧节点的版本信息由于 isIncompatibleBuild() 方法的判断逻辑,在某些情况下会误判为不兼容

这个问题在 Elasticsearch 8.x 的跨小版本升级中较为常见,特别是:

8.8.x → 8.13.x8.10.x → 8.15.x8.x → 8.16.x

解决方案

使用 Serverless Transport 模式,这是最快速、最适合升级场景的解决方案。通过设置系统属性跳过严格的构建哈希检查。

实施步骤

步骤 1:在升级前的所有节点上配置参数

编辑 config/jvm.options 文件,添加以下参数:

<code class="bash"># 跳过构建哈希严格检查(用于滚动升级)-Des.serverless_transport=true</code>

步骤 2:重启所有现有节点(8.8.1)

逐个重启节点,确保集群状态为 green:

Cliclic AI
Cliclic AI

Cliclic商品背景图编辑器是一款功能强大的AI工具,帮助用户快速生成具有吸引力的商品图背景。

下载
<code class="bash">systemctl restart elasticsearch</code>

验证节点状态:

<code class="bash">curl -X GET "localhost:9200/_cat/nodes?v"curl -X GET "localhost:9200/_cluster/health?pretty"</code>

步骤 3:执行滚动升级

1. 停止节点

<code class="bash">systemctl stop elasticsearch</code>

2. 升级到 8.13.1

<code class="bash">下载并安装新版本wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.13.1-linux-x86_64.tar.gztar -xzf elasticsearch-8.13.1-linux-x86_64.tar.gz复制配置文件(确保 jvm.options 中包含 -Des.serverless_transport=true)cp /etc/elasticsearch/elasticsearch.yml /path/to/new/elasticsearch/config/cp /etc/elasticsearch/jvm.options /path/to/new/elasticsearch/config/</code>

3. 启动升级后的节点

<code class="bash">systemctl start elasticsearch</code>

4. 等待节点加入集群并恢复

<code class="bash">curl -X GET "localhost:9200/_cat/nodes?v"curl -X GET "localhost:9200/_cat/recovery?v"</code>

5. 等待集群状态变为 green

<code class="bash">watch -n 2 'curl -s "localhost:9200/_cluster/health?pretty"'</code>

6. 对其他节点重复步骤 1-5

步骤 4:升级完成后移除参数(可选)

当所有节点都升级到 8.13.1 后,可以考虑移除该参数:

<code class="bash"># 编辑 jvm.options,注释或删除该行-Des.serverless_transport=true# 逐个重启节点systemctl restart elasticsearch</code>

验证升级成功

<code class="bash"># 检查所有节点版本curl -X GET "localhost:9200/_cat/nodes?v&h=name,version,build"# 输出示例:name version buildes-node-01 8.13.1 6db6a78es-node-02 8.13.1 6db6a78es-node-03 8.13.1 6db6a78# 检查集群健康状态curl -X GET "localhost:9200/_cluster/health?pretty"</code>

常见问题 FAQ

Q1: 设置 es.serverless_transport=true 有什么风险?

A: 这个参数会跳过构建哈希的严格检查,理论上存在以下风险:

不同构建版本的节点可能在序列化/反序列化时出现兼容性问题但在官方支持的版本升级路径中(如 8.8.1 → 8.13.1),这个风险极低建议升级完成后移除该参数

Q2: 能直接从 8.8.1 跨大版本升级到 9.x?

Elasticsearch 只支持相邻大版本之间的升级:

7.x → 8.x ✅8.x → 9.x ✅7.x → 9.x ❌(需要先升级到 8.x)

Q3: 升级过程中可以继续写入数据吗?

滚动升级:可以继续写入,但建议降低写入速率完全停机升级:不能写入数据

Q4: 云服务商的 ES 也会遇到这个问题吗?

PHP中文网、阿里云等云服务商通常会在后台处理这类兼容性问题如果使用云服务商的升级功能,一般不会遇到如果是自建 ES 迁移到云 ES,可能需要特殊处理

总结

Elasticsearch 8.x 的跨小版本升级中,构建哈希不兼容问题是一个已知的边界情况。解决这个问题的关键是:

滚动升级时使用 Serverless Transport 模式:通过 -Des.serverless_transport=true 跳过严格检查做好升级前准备:检查集群状态、创建快照、准备回滚方案升级后及时验证:确保所有节点版本一致、集群状态正常

希望本文能帮助遇到类似问题的同学顺利完成 Elasticsearch 升级。如有疑问,欢迎在评论区讨论。

参考资料

Elasticsearch 官方文档 - 滚动升级Elasticsearch 官方文档 - 完全停机升级Elasticsearch 源码 - TransportService.java

作者:岳涛

日期:2025-10-29

标签:Elasticsearch, 升级, 8.x, 故障排查, 构建哈希, 滚动升级

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据分析的方法
数据分析的方法

数据分析的方法有:对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法,象限分析法,公式拆解法,可行域分析法,二八分析法,假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

504

2023.07.04

数据分析方法有哪几种
数据分析方法有哪几种

数据分析方法有:1、描述性统计分析;2、探索性数据分析;3、假设检验;4、回归分析;5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容,供大家免费下载体验。

292

2023.08.07

网站建设功能有哪些
网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站,实现网站的目标。

759

2023.10.16

数据分析网站推荐
数据分析网站推荐

数据分析网站推荐:1、商业数据分析论坛;2、人大经济论坛-计量经济学与统计区;3、中国统计论坛;4、数据挖掘学习交流论坛;5、数据分析论坛;6、网站数据分析;7、数据分析;8、数据挖掘研究院;9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容,可以阅读本专题下面的文章。

534

2024.03.13

Python 数据分析处理
Python 数据分析处理

本专题聚焦 Python 在数据分析领域的应用,系统讲解 Pandas、NumPy 的数据清洗、处理、分析与统计方法,并结合数据可视化、销售分析、科研数据处理等实战案例,帮助学员掌握使用 Python 高效进行数据分析与决策支持的核心技能。

82

2025.09.08

Python 数据分析与可视化
Python 数据分析与可视化

本专题聚焦 Python 在数据分析与可视化领域的核心应用,系统讲解数据清洗、数据统计、Pandas 数据操作、NumPy 数组处理、Matplotlib 与 Seaborn 可视化技巧等内容。通过实战案例(如销售数据分析、用户行为可视化、趋势图与热力图绘制),帮助学习者掌握 从原始数据到可视化报告的完整分析能力。

60

2025.10.14

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

47

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 13.5万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.3万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号