
本文详解如何在 wordpress 中通过定时任务自动同步外部 api 职位数据,并精准识别、移入回收站(或彻底删除)已从 api 下线的旧职位文章,避免数据冗余与不一致。核心在于正确比对「现有文章的 requisitionid」与「当前 api 返回的全部 requisitionid 列表」。
在构建基于 WordPress 的招聘门户时,常需定期从第三方招聘平台(如 Greenhouse、Workday 或自建 API)拉取最新职位数据。理想流程应具备三项能力:① 新增 API 中新增的职位;② 更新已有职位的字段(如截止时间、描述);③ 清理 API 中已下线、本地仍存在的“僵尸职位”。但许多开发者会陷入一个典型逻辑陷阱:在遍历单个 API 职位时,试图用该职位 ID 去判断“其他所有旧职位是否该被删除”——这导致 in_array() 永远只比对单个 ID,无法识别哪些旧职位已整体消失。
✅ 正确思路:两阶段处理法
解决方案的关键在于分离「读取」与「清理」阶段:
- 第一阶段(收集):先一次性获取当前 API 返回的所有 requisitionId,存入数组;
- 第二阶段(比对):再查询 WordPress 中所有同区域/同类型的已发布职位,逐一检查其 job-requisition-id 是否存在于上述数组中;不存在者即为过期数据,执行 wp_trash_post() 或 wp_delete_post()。
以下为优化后的生产级代码结构(兼容 WP-Cron):
// 1. 获取当前 API 全量职位数据(示例使用 $response['requisitions'])
$api_jobs = $response['requisitions'] ?? [];
$region_slug = sanitize_title($_POST['region'] ?? 'global');
// 2. 提取所有有效的 requisitionId 到数组(去重保障)
$valid_requisition_ids = array_unique(
array_filter(
array_map(function($job) {
return $job['requisitionId'] ?? null;
}, $api_jobs)
)
);
// 3. 查询当前区域所有已发布的职位(含元数据)
$existing_jobs = get_posts([
'post_type' => 'jobs',
'post_status' => 'publish',
'posts_per_page' => -1,
'tax_query' => [[
'taxonomy' => 'jobs-region',
'field' => 'slug',
'terms' => $region_slug,
]],
'meta_query' => [['key' => 'job-requisition-id', 'compare' => 'EXISTS']],
]);
// 4. 遍历现有职位,标记需清理的 ID
$to_trash_ids = [];
foreach ($existing_jobs as $post) {
$req_id = get_post_meta($post->ID, 'job-requisition-id', true);
if (!in_array($req_id, $valid_requisition_ids)) {
$to_trash_ids[] = $post->ID;
}
}
// 5. 批量移入回收站(安全首选)或彻底删除(设 force=true)
if (!empty($to_trash_ids)) {
foreach ($to_trash_ids as $id) {
wp_trash_post($id); // 推荐:保留恢复可能
// 或 wp_delete_post($id, true); // 彻底删除(不可逆)
}
}
// 6. 同步导入/更新当前 API 职位(复用原逻辑,但移除冗余判断)
foreach ($api_jobs as $job) {
if ($job['internalOnly'] === false) { // 仅处理 External 职位
$requisition_id = $job['requisitionId'];
$slug = sanitize_title("{$job['title']}-{$job['locationCity']}-{$requisition_id}");
// 查找是否存在同 slug 或同 requisition_id 的文章(建议优先查 meta)
$existing = get_posts([
'post_type' => 'jobs',
'meta_key' => 'job-requisition-id',
'meta_value'=> $requisition_id,
'posts_per_page' => 1,
]);
$args = [
'post_title' => $job['title'],
'post_name' => $slug,
'post_content' => preg_replace('/ style=("|\')(.*?)("|\')/', '', $job['description']),
'post_date' => date('Y-m-d H:i:s', (int)substr($job['lastUpdatedDate'], 0, 10)),
'post_status' => 'publish',
'post_type' => 'jobs',
'meta_input' => [
'job-apply-link' => $job['applyLink'],
'job-published' => date('Y-m-d H:i:s', (int)substr($job['lastUpdatedDate'], 0, 10)),
'job-role' => 'External',
'job-requisition-id' => $requisition_id,
],
];
if (empty($existing)) {
$post_id = wp_insert_post($args);
} else {
$args['ID'] = $existing[0]->ID;
wp_update_post($args);
$post_id = $existing[0]->ID;
}
// 同步分类法(region/city/department)
wp_set_object_terms($post_id, $region_slug, 'jobs-region');
wp_set_object_terms($post_id, $job['locationCity'], 'jobs-city');
wp_set_object_terms($post_id, $job['category'], 'jobs-department');
}
}⚠️ 关键注意事项
- 性能优化:对千级职位站点,避免在循环内调用 get_page_by_path()(全表扫描 slug)。改用 WP_Query + meta_query 直接按 job-requisition-id 精准查找,效率提升显著。
- 事务安全:生产环境建议将「清空旧数据」与「导入新数据」拆分为两个独立 cron 事件,或添加 wp_defer_term_counting(true) 减少分类计数开销。
- 回收站 vs 彻底删除:首次上线推荐用 wp_trash_post(),观察 24–48 小时确认无误后再批量清空回收站;长期运行可切换为软删除策略。
- 错误防御:API 返回空或格式异常时,应 return 并记录日志,切勿清空全部职位(原答案中“先删后插”的暴力方式存在高风险)。
- 权限与非阻塞:若通过 AJAX 触发,确保 current_user_can('publish_posts');若走 WP-Cron,需用 wp_schedule_event() 注册独立钩子,避免阻塞前台请求。
通过以上结构化实现,你将获得一个健壮、可维护、符合 WordPress 最佳实践的 API 同步系统——既保证数据实时性,又守护内容资产的安全边界。










