0

0

Python爬虫定时任务怎么做_APScheduler每天定时启动抓取任务并写入日志文件

P粉602998670

P粉602998670

发布时间:2026-03-12 17:41:02

|

827人浏览过

|

来源于php中文网

原创

APScheduler配置需选CronTrigger、显式设timezone='Asia/Shanghai';爬虫函数须try/except捕获异常并logger.exception记录;日志用RotatingFileHandler配delay=True、绝对路径;启动后务必调start()并join主线程,持久化job需改用SQLAlchemyJobStore。

python爬虫定时任务怎么做_apscheduler每天定时启动抓取任务并写入日志文件

APScheduler 怎么配置每天固定时间执行爬虫任务

直接用 BackgroundScheduler + add_job 就能跑,但关键在触发器选对、时区设准、任务不重复。默认用 date 触发器只能跑一次,得换 CronTriggerIntervalTrigger

常见错误是本地时间 vs UTC 混淆:APScheduler 默认用系统时区,但如果你服务器在海外、代码部署在 Docker 里没配时区,hour=9 可能真在 UTC 9 点(即北京时间 17 点)运行。

  • CronTrigger(day_of_week='mon-fri', hour=9, minute=30) 最直观,支持 cron 表达式所有语义
  • 务必显式传入 timezone='Asia/Shanghai',哪怕本地开发环境已设时区,Docker 容器里大概率没生效
  • 避免用 IntervalTrigger(hours=24) 模拟“每天”,它从首次启动开始倒计时,长期运行后会漂移

爬虫函数怎么写才不会被 APscheduler 吃掉异常

APScheduler 默认捕获并吞掉任务中抛出的异常,你根本看不到报错,日志里只有 “Job crashed” 一行,排查无从下手。

必须手动加 try/except 包裹主逻辑,并把异常写进日志——别依赖 logging.error 自动传播,scheduler 不转发。

立即学习Python免费学习笔记(深入)”;

  • 在爬虫函数开头加 logger = logging.getLogger(__name__),用 logger.exception("抓取失败") 记录完整 traceback
  • 别在任务里调 sys.exit() 或 raise 系统级异常(如 KeyboardInterrupt),会导致 scheduler 主线程退出
  • requests 超时必须设 timeout=(3, 7),否则一个卡死请求会阻塞整个调度器

日志文件怎么按天轮转且不被多进程写乱

APScheduler 在单进程里是安全的,但如果你用 Gunicorn 启多个 worker,或后期改用 ProcessPoolExecutor 并发抓多个站点,日志就可能错行、覆盖、丢内容。

Sora
Sora

Sora是OpenAI发布的一种文生视频AI大模型,可以根据文本指令创建现实和富有想象力的场景。

下载

最稳方案是用 RotatingFileHandler 配合 delay=True,且禁止多进程共用同一个 FileHandler 实例。

  • 不要用 TimedRotatingFileHandler,它在多进程下轮转逻辑不一致,容易生成 app.log.2024-05-01app.log.2024-05-01.1 两份
  • 每个爬虫任务函数内单独初始化 logger + handler,handler 设 delay=True,确保首次写日志时才创建文件
  • 路径写绝对路径,比如 os.path.join('/var/log/mycrawler', f'crawl_{date.today()}.log'),避免相对路径在不同工作目录下失效

为什么 APScheduler 启动后任务没执行,连日志都不打

最常踩的坑是忘了调 .start(),或者调了但没 join() 住主线程——脚本一跑完就退出,scheduler 还没来得及触发第一次任务。

另一个隐蔽问题是 job store 用内存型(MemoryJobStore)时,程序重启 job 就消失,看着像“没执行”,其实是压根没注册成功。

  • 确认写了 scheduler.start(),且后面有 try: ... except KeyboardInterrupt: scheduler.shutdown()
  • 如果想持久化 job(比如机器重启后继续跑),必须换 SQLAlchemyJobStore,配好数据库 URL,光改 jobstores 字典不够,还得装 sqlalchemy
  • scheduler.print_jobs() 打印当前注册的任务,看是否真加进去了——有时 add_job 报错被忽略,job 根本没注册

时区、异常捕获、日志初始化这三处,改一次能省两小时 debug 时间。其他都是语法细节,错也容易看出来。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

492

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

382

2023.10.25

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

765

2023.08.10

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

765

2023.08.10

k8s和docker区别
k8s和docker区别

k8s和docker区别有抽象层次不同、管理范围不同、功能不同、应用程序生命周期管理不同、缩放能力不同、高可用性等等区别。本专题为大家提供k8s和docker区别相关的各种文章、以及下载和课程。

280

2023.07.24

docker进入容器的方法有哪些
docker进入容器的方法有哪些

docker进入容器的方法:1. Docker exec;2. Docker attach;3. Docker run --interactive --tty;4. Docker ps -a;5. 使用 Docker Compose。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

516

2024.04.08

docker容器无法访问外部网络怎么办
docker容器无法访问外部网络怎么办

docker 容器无法访问外部网络的原因和解决方法:配置 nat 端口映射以将容器端口映射到主机端口。根据主机兼容性选择正确的网络驱动(如 host 或 overlay)。允许容器端口通过主机的防火墙。配置容器的正确 dns 服务器。选择正确的容器网络模式。排除主机网络问题,如防火墙或连接问题。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

416

2024.04.08

docker镜像有什么用
docker镜像有什么用

docker 镜像是预构建的软件组件,用途广泛,包括:应用程序部署:简化部署,提高移植性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

454

2024.04.08

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号