Ansible 连不上目标主机需先检查 SSH 连通性和 inventory 配置;确保免密登录、端口正确、DNS 可解析;Python 解释器不匹配时统一设置 ansible_python_interpreter;批量任务需用 run_once 或 delegate_to 控制执行位置;Gathering Facts 可关闭以提升性能。

Ansible 连不上目标主机:检查 ssh 和 inventory 配置
连不上是 80% 新手卡住的第一步,不是 Ansible 本身出错,而是底层连接没通。ansible 命令默认走 SSH,不依赖客户端安装,但要求你本机能 ssh user@host 成功。
常见错误现象:UNREACHABLE! => {"msg": "Failed to connect to the host via ssh: Permission denied (publickey).", "unreachable": true}
- 确认
inventory文件里写的 IP 或主机名能被 DNS 或本地/etc/hosts解析 - 用户必须有免密登录权限:用
ssh-copy-id user@host推送公钥,别依赖密码交互(Ansible 默认禁用) - 如果目标改了 SSH 端口,inventory 中要显式写成
host.example.com:2222,或在host_vars/host.example.com里设ansible_port: 2222 - Ansible 不读你 shell 的
~/.bashrc,所以别把ssh-agent启动逻辑写在里面;改用~/.bash_profile或直接在命令前加eval $(ssh-agent); ssh-add
运行 playbook 报错 “module not found”:Python 模块路径和解释器不一致
Ansible 在远程主机上执行模块时,会尝试用默认 Python 解释器(通常是 /usr/bin/python),但很多新系统(如 CentOS 8、Ubuntu 22.04)默认只有 python3,且没建 python 软链。
错误信息典型长这样:"msg": "The module failed to execute correctly, see stdout for more information.",实际 stderr 里藏着 /usr/bin/python: bad interpreter: No such file or directory
- 最稳的解法:在 inventory 里统一指定解释器,比如加一行
ansible_python_interpreter=/usr/bin/python3 - 别在 playbook 顶层写
vars:设ansible_python_interpreter—— 它只对当前 play 生效,而 setup 阶段(Gathering Facts)已经失败了 - 如果目标机连
python3都没装,得先用raw模块装:ansible all -m raw -a "apt update && apt install -y python3"(Debian/Ubuntu)或yum install -y python3(RHEL/CentOS)
批量改配置文件却只生效一台:忘了用 delegate_to 或 run_once
想从控制机读一个本地模板、渲染后分发到所有节点?直接用 template 模块会每台都去读一次本地文件——这没问题;但如果你要“生成一个全局唯一 token 写进所有机器”,就容易出错:每台都自己生成,结果 token 全不同。
使用场景:部署证书、分发密钥、写入集群 join token、更新时间戳版本号
-
run_once: true让任务只在第一个节点(或 control node)跑一次,适合生成值、发通知、查状态 -
delegate_to: localhost强制任务在本机执行,配合local_action(已弃用)或delegate_facts: false控制变量作用域 - 别在
loop里嵌套delegate_to却没关loop_control—— 可能意外重复执行
Ansible 执行慢、卡在 “Gathering Facts”:关掉不需要的 fact 收集
Gathering Facts 是 Ansible 默认做的第一件事,它会跑一堆命令探测系统信息。对简单任务(比如只是重启服务),这个过程纯属浪费时间,尤其跨公网或管理上百台机器时。
性能影响:单台可能多花 1–3 秒,100 台就是额外 2–5 分钟
- 全局关闭:在
ansible.cfg加gather_facts = False - 单个 play 关闭:
gather_facts: false - 需要部分 facts?用
setup模块手动拉:ansible all -m setup -a "gather_subset=!all,hardware",避开耗时的network或virtual子集 - 注意:
when: ansible_os_family == "RedHat"这类判断依赖 facts,关了就得换写法,比如用command: cat /etc/os-release+register+when
真正麻烦的从来不是语法,是控制机和目标机之间那层 SSH 连接状态、Python 环境差异、以及 facts 收集这种默认行为带来的隐性延迟——它们不会报错,只会让你等得怀疑人生。








