0

0

如何在Linux中自动重启 Linux systemd自动恢复

P粉602998670

P粉602998670

发布时间:2025-09-10 09:34:01

|

392人浏览过

|

来源于php中文网

原创

答案:通过配置systemd服务文件中的Restart、RestartSec、WatchdogSec及StartLimitInterval等参数,可实现Linux服务的自动重启与看门狗监控,并避免无限重启循环,提升系统稳定性。

如何在linux中自动重启 linux systemd自动恢复

在Linux中,可以通过systemd来实现服务的自动重启,确保服务在崩溃或意外停止后能够自动恢复,提高系统的稳定性和可靠性。

解决方案

Systemd 是 Linux 系统中用于初始化系统和服务管理的工具,它提供了一种简单而强大的方式来配置服务的自动重启策略。以下是具体步骤:

  1. 创建或编辑 Systemd 服务文件:

    首先,找到你要配置自动重启的服务的

    .service
    文件。通常,这些文件位于
    /etc/systemd/system/
    目录下。如果服务还没有对应的
    .service
    文件,你需要创建一个。

    例如,假设我们要配置名为

    my_app.service
    的服务:

    sudo nano /etc/systemd/system/my_app.service
  2. 配置 Restart 策略:

    .service
    文件中,找到
    [Service]
    部分,如果没有,则添加它。在这个部分,你需要添加或修改
    Restart
    RestartSec
    选项。

    [Unit]
    Description=My Application
    After=network.target
    
    [Service]
    ExecStart=/path/to/my_app
    User=myuser
    Restart=on-failure
    RestartSec=5s
    
    [Install]
    WantedBy=multi-user.target
    • Restart=on-failure
      :表示只有当服务因为错误而退出时才重启。其他选项包括
      always
      (总是重启)、
      on-success
      (只有当服务正常退出时才重启)、
      on-abort
      (只有当服务因为未捕获的信号而退出时才重启)等。根据你的需求选择合适的策略。
    • RestartSec=5s
      :表示在服务重启之前等待 5 秒。可以根据你的应用特性调整这个时间。
  3. 重新加载 Systemd 配置:

    修改完

    .service
    文件后,需要重新加载 systemd 的配置,使更改生效:

    sudo systemctl daemon-reload
  4. 启用并启动服务:

    确保服务已启用并启动。如果服务未启用,使用以下命令启用它:

    sudo systemctl enable my_app.service

    然后启动服务:

    sudo systemctl start my_app.service
  5. 验证自动重启:

    为了验证自动重启是否生效,你可以故意让服务崩溃,例如通过发送一个 kill 信号:

    sudo kill -9 $(pidof my_app)

    然后,使用以下命令查看服务状态:

    sudo systemctl status my_app.service

    如果配置正确,你会看到服务在几秒钟后自动重启。

Systemd Restart 策略有哪些选项,应该如何选择?

Systemd 提供了多种

Restart
策略,选择合适的策略对于确保服务的稳定性和可靠性至关重要。以下是几种常见的选项:

  • no
    :默认值。服务不会自动重启。
  • on-success
    :只有当服务正常退出(退出码为 0)时才重启。适用于那些需要定期运行并希望在成功完成后重新启动的服务。
  • on-failure
    :只有当服务因为错误而退出(退出码非 0)时才重启。这是最常用的选项,适用于大多数需要自动恢复的服务。
  • on-abnormal
    :只有当服务因为接收到信号而异常退出(例如
    SIGSEGV
    SIGABRT
    )时才重启。适用于那些容易崩溃的服务。
  • on-abort
    :只有当服务因为未捕获的信号而退出时才重启。
  • on-watchdog
    :只有当服务因为看门狗超时而退出时才重启。看门狗是一种监控服务运行状态的机制,如果服务在指定时间内没有响应,看门狗会触发重启。
  • always
    :总是重启服务,无论服务是如何退出的。适用于需要持续运行的服务,例如网络服务。

选择策略时,需要考虑以下因素:

  • 服务的性质: 不同的服务有不同的运行特性。例如,一个需要持续运行的网络服务应该使用
    always
    策略,而一个只需要定期运行的任务可以使用
    on-success
    策略。
  • 错误处理: 如果服务有完善的错误处理机制,可以选择
    on-failure
    策略。如果服务容易崩溃,可以选择
    on-abnormal
    策略。
  • 资源消耗:
    always
    策略可能会导致服务在出现问题时不断重启,消耗大量资源。因此,需要谨慎使用。

总的来说,

on-failure
是一个通用的选择,适用于大多数需要自动恢复的服务。但是,为了更好地满足特定需求,应该根据服务的具体情况选择合适的策略。

如何配置 Systemd 的看门狗 (Watchdog) 功能?

Systemd 的看门狗功能可以监控服务的运行状态,并在服务没有响应时自动重启。这对于确保服务的可用性非常有用。以下是配置看门狗功能的步骤:

  1. .service
    文件中配置看门狗:

    [Service]
    部分,添加
    WatchdogSec
    选项,指定看门狗的超时时间。例如,设置超时时间为 30 秒:

    [Service]
    ExecStart=/path/to/my_app
    User=myuser
    Restart=on-failure
    RestartSec=5s
    WatchdogSec=30s
    • WatchdogSec=30s
      :表示如果服务在 30 秒内没有向 systemd 发送心跳信号,systemd 会认为服务已经停止响应,并触发重启。
  2. 在应用程序中发送心跳信号:

    为了让看门狗正常工作,应用程序需要定期向 systemd 发送心跳信号。可以使用

    sd_notify
    函数来发送心跳信号。

    Peppertype.ai
    Peppertype.ai

    高质量AI内容生成软件,它通过使用机器学习来理解用户的需求。

    下载

    以下是一个简单的 C 语言示例:

    #include <systemd/sd-daemon.h>
    #include <unistd.h>
    
    int main() {
        while (1) {
            // 应用程序的主要逻辑
    
            // 发送心跳信号
            sd_notify(0, "WATCHDOG=1");
    
            // 休眠一段时间
            sleep(15);
        }
        return 0;
    }

    在这个示例中,应用程序每 15 秒发送一次心跳信号。由于

    WatchdogSec
    设置为 30 秒,只要应用程序在 30 秒内发送一次心跳信号,看门狗就不会触发重启。

    如果你的应用程序使用其他编程语言,可以查找相应的 systemd 库来发送心跳信号。例如,Python 可以使用

    systemd
    模块。

  3. 重新加载 Systemd 配置并重启服务:

    修改完

    .service
    文件和应用程序后,需要重新加载 systemd 的配置并重启服务:

    sudo systemctl daemon-reload
    sudo systemctl restart my_app.service
  4. 验证看门狗功能:

    为了验证看门狗功能是否生效,你可以故意让应用程序停止发送心跳信号,例如通过注释掉

    sd_notify
    函数的调用。然后,观察服务是否在 30 秒后自动重启。

    sudo systemctl status my_app.service

    如果配置正确,你会看到服务在 30 秒后自动重启。

如何处理服务启动失败的情况,避免无限重启循环?

有时候,服务可能会因为配置错误或其他原因而无法启动。如果配置了

Restart=always
Restart=on-failure
策略,服务可能会陷入无限重启循环,消耗大量资源。为了避免这种情况,可以采取以下措施:

  1. 使用

    StartLimitInterval
    StartLimitBurst
    选项:

    Systemd 提供了

    StartLimitInterval
    StartLimitBurst
    选项,可以限制服务在一段时间内启动的次数。如果服务在指定的时间内启动失败的次数超过了限制,systemd 会停止尝试重启服务。

    .service
    文件中,添加以下选项:

    [Unit]
    Description=My Application
    After=network.target
    
    [Service]
    ExecStart=/path/to/my_app
    User=myuser
    Restart=on-failure
    RestartSec=5s
    StartLimitInterval=60s
    StartLimitBurst=5
    
    [Install]
    WantedBy=multi-user.target
    • StartLimitInterval=60s
      :表示在 60 秒内。
    • StartLimitBurst=5
      :表示最多尝试启动 5 次。

    如果服务在 60 秒内启动失败 5 次,systemd 会停止尝试重启服务。

  2. 检查服务日志:

    当服务启动失败时,应该检查服务日志,找出错误原因。可以使用以下命令查看服务日志:

    sudo journalctl -u my_app.service

    日志中通常会包含有关启动失败的详细信息,例如配置文件错误、依赖项缺失等。

  3. 使用

    ExecStartPre
    ExecStartPost
    选项:

    ExecStartPre
    ExecStartPost
    选项可以在服务启动前后执行一些命令。可以使用这些选项来检查服务的运行环境,例如检查配置文件是否存在、依赖项是否已安装等。如果检查失败,可以阻止服务启动。

    [Service]
    ExecStartPre=/path/to/check_config.sh
    ExecStart=/path/to/my_app
    User=myuser
    Restart=on-failure
    RestartSec=5s

    在这个示例中,

    check_config.sh
    脚本会在服务启动前执行。如果脚本返回非 0 退出码,systemd 会认为服务启动失败,并根据
    Restart
    策略进行处理。

  4. 使用

    TimeoutStartSec
    选项:

    TimeoutStartSec
    选项可以设置服务启动的超时时间。如果服务在指定时间内没有启动完成,systemd 会认为服务启动失败,并根据
    Restart
    策略进行处理。

    [Service]
    ExecStart=/path/to/my_app
    User=myuser
    Restart=on-failure
    RestartSec=5s
    TimeoutStartSec=30s

    在这个示例中,如果服务在 30 秒内没有启动完成,systemd 会认为服务启动失败。

通过以上措施,可以有效地处理服务启动失败的情况,避免无限重启循环,提高系统的稳定性和可靠性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1564

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

716

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

300

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

801

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

588

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

570

2023.07.20

linux查看ip命令
linux查看ip命令

本专题为大家提供linux查看ip命令相关文章内容,感兴趣的朋友可以免费下载体验试试。

314

2023.07.20

linux查看cpu使用率
linux查看cpu使用率

在linux的系统维护中,可能需要经常查看cpu使用率,分析系统整体的运行情况。本专题为大家带来了linux查看cpu使用率的相关文章,感兴趣的朋友千万不要错过了。

400

2023.07.25

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.7万人学习

Git 教程
Git 教程

共21课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号