0

0

K3s pod 启动时 "failed to allocate IP" 或 IP 耗尽

舞夢輝影

舞夢輝影

发布时间:2026-01-18 13:27:30

|

238人浏览过

|

来源于php中文网

原创

K3s中Flannel CNI无法分配Pod IP的核心原因是子网耗尽或本地子网状态异常,表现为节点子网未释放、ARP缓存污染或IP池用尽,可通过检查configmap、清理残留、调整CIDR等手段快速恢复。

k3s pod 启动时 \

这是 K3s 中非常典型的网络问题,本质是 CNI(通常是 Flannel)无法为新 Pod 分配 IP 地址,常见于集群运行一段时间后、节点重启后、或大规模部署 Pod 时。核心原因不是“没 IP”,而是 IP 地址池已用尽本地子网分配状态异常

检查 Flannel 子网分配是否耗尽

K3s 默认使用 Flannel,每个节点从集群 CIDR(如 10.42.0.0/16)中分配一个 /24 子网(即 256 个 IP),用于该节点上所有 Pod。一旦节点数达到 256 个,子网就用完了;但更常见的是:某节点的子网被反复申请却未释放(比如节点异常离线后未清理)。

  • 查看当前子网分配情况:kubectl get nodes -o wide 看各节点 IP,再查 Flannel 配置:kubectl -n kube-system get cm kube-flannel-cfg -o yaml | grep -A 5 "Network\|SubnetLen"
  • 直接检查 Flannel 的子网租约:kubectl -n kube-system get configmap -l tier=node —— 正常应有与节点数一致的 configmap(如 coreos.com/flannel/subnets/node-192.168.1.10);缺失或重复意味着分配异常
  • 若发现某节点 configmap 存在但节点已下线,手动删除它:kubectl -n kube-system delete cm coreos.com/flannel/subnets/node-xxx,Flannel 会在节点重连时重新分配

确认节点本地子网是否被占满

单个节点的 /24 子网最多支持 253 个活跃 Pod(去掉 .0/.1/.255)。如果该节点长期运行大量短生命周期 Pod(如 Job、CronJob),可能因 iptables 规则残留、cni0 网桥 ARP 表堆积或容器运行时未彻底清理,导致可用 IP 实际减少。

Mokker AI
Mokker AI

AI产品图添加背景

下载
  • 登录问题节点,查看 cni0 网桥 IP 分配:ip addr show cni0,确认其 inet 是类似 10.42.x.1/24,说明子网已加载
  • 检查已分配的 Pod IP:kubectl get pods -o wide --field-selector spec.nodeName=NODE_NAME,统计数量;再对比 arp -n -i cni0 | wc -l,若远大于 Pod 数,说明 ARP 缓存污染
  • 临时清理(谨慎):ip neigh flush dev cni0,并重启 flanneld:sudo systemctl restart k3s-agent(或 k3s-server)

调整 CIDR 或子网大小(预防性措施)

默认 10.42.0.0/16 + /24 每节点,最多支撑 256 节点 × 253 Pod ≈ 64K Pod。若规划超量,需提前调整。

  • 扩大集群 CIDR:启动 K3s 时加参数 --cluster-cidr 10.42.0.0/12(支持 4096 个 /24 子网),同时确保 Flannel 配置中 SubnetLen: 24 不变
  • 减小子网(不推荐):设 SubnetLen: 26 可支持更多节点(1024),但每节点仅 61 个 Pod,适合轻量节点场景
  • 修改方式:编辑 /var/lib/rancher/k3s/server/manifests/kube-flannel.yml(或通过 Helm chart 覆盖),更新 ConfigMap 中的 NetConf,然后重启 k3s

验证和快速恢复

多数情况下,问题可快速缓解,无需重建集群。

  • 先尝试重启问题节点上的 k3s 服务:sudo systemctl restart k3s(server)或 sudo systemctl restart k3s-agent(agent)
  • 观察日志:sudo journalctl -u k3s -n 100 -f | grep -i "flannel\|ipam\|failed to allocate"
  • 确认新 Pod 是否能正常获取 IP:kubectl run test-pod --image=busybox:1.35 -- sleep 3600,再 kubectl get pod -o wide

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

443

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

605

2023.08.10

数据库Delete用法
数据库Delete用法

数据库Delete用法:1、删除单条记录;2、删除多条记录;3、删除所有记录;4、删除特定条件的记录。更多关于数据库Delete的内容,大家可以访问下面的文章。

287

2023.11.13

drop和delete的区别
drop和delete的区别

drop和delete的区别:1、功能与用途;2、操作对象;3、可逆性;4、空间释放;5、执行速度与效率;6、与其他命令的交互;7、影响的持久性;8、语法和执行;9、触发器与约束;10、事务处理。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

222

2023.12.29

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

37

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

47

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

90

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
HTML5/CSS3/JavaScript/ES6入门课程
HTML5/CSS3/JavaScript/ES6入门课程

共102课时 | 7.3万人学习

前端基础到实战(HTML5+CSS3+ES6+NPM)
前端基础到实战(HTML5+CSS3+ES6+NPM)

共162课时 | 21.7万人学习

第二十二期_前端开发
第二十二期_前端开发

共119课时 | 13.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号