WorkBuddy提供三种批量检测并删除无效URL的方法:一、内置URL健康检查工具,通过HTTP HEAD请求识别4xx/5xx及超时链接;二、自定义JavaScript脚本调用API并发检测并标记删除;三、导出URL后用CLI工具离线检测,再通过Webhook回调清理。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您在WorkBuddy中管理大量URL链接,但部分链接已失效或跳转异常,则可能影响自动化流程、数据采集准确性及用户交互体验。以下是批量检测并删除无效URL链接的具体操作方法:
一、使用WorkBuddy内置URL健康检查工具
WorkBuddy提供原生的链接状态扫描功能,可对指定数据表或字段中的全部URL执行HTTP HEAD请求验证,快速识别返回码为4xx/5xx或超时的链接。
1、进入WorkBuddy控制台,点击左侧导航栏【数据管理】→【数据表】,选择含URL字段的目标表。
2、点击表右上角【更多操作】下拉菜单,选择【批量URL健康检查】。
3、在弹出窗口中勾选待检测的URL字段(如“source_link”“redirect_url”),设置超时阈值(默认3秒),点击【开始扫描】。
4、扫描完成后,系统自动生成【无效链接报告】表格,其中每条记录标注状态码、响应时间及错误类型;点击【导出失败列表】可下载CSV文件。
5、回到原数据表,点击【筛选】→【按URL状态】→【仅显示无效】,全选结果后点击【批量删除】→【确认清除无效链接】。
二、通过自定义JavaScript脚本调用WorkBuddy API执行检测
适用于需集成自定义逻辑(如忽略特定重定向、校验响应体关键词)或定时触发检测的场景。脚本通过WorkBuddy REST API读取URL字段,发起并发HTTP请求,并将失败项标记为待删除状态。
1、在WorkBuddy【开发者中心】→【API密钥管理】中创建具有read:table和write:table权限的API Key。
2、新建【自动化脚本】,粘贴以下代码片段(替换YOUR_API_KEY、TABLE_ID、FIELD_NAME为实际值):
const apiKey = "YOUR_API_KEY"; const tableId = "TABLE_ID"; const urlField = "FIELD_NAME";
3、在脚本末尾添加deleteRecordsByFilter调用,参数filter条件设为status_code IN [0, 400, 404, 500, 503]且response_time > 5000。
4、保存脚本后点击【立即运行】,观察控制台输出的“已标记X条无效链接”及“已删除Y条记录”日志。
5、进入对应数据表,验证被删除行的URL字段值是否为空或已移入回收站。
三、借助外部CLI工具结合WorkBuddy Webhook实现离线检测
当URL数量超过10万条或需复用企业已有检测基础设施时,可将URL导出至本地,使用curl + parallel命令行组合完成高并发探测,再通过Webhook回调通知WorkBuddy执行清理。
1、在WorkBuddy数据表中点击【导出】→【导出为TSV】,勾选仅导出URL字段列,下载文件命名为urls_to_check.tsv。
2、在Linux终端执行:cat urls_to_check.tsv | parallel -j 50 'curl -s -o /dev/null -w "%{http_code}\t%{url_effective}\n" {}' | grep -E "^(000|4|5)" > invalid_list.txt
3、编写Python脚本解析invalid_list.txt,构造JSON payload,包含待删记录ID数组与操作类型"delete_invalid_urls"。
4、调用WorkBuddy预设的Webhook端点(格式为https://api.workbuddy.dev/v1/webhook/{webhook_id}),携带payload与签名头X-Signature。
5、登录WorkBuddy【系统日志】页面,搜索该Webhook ID,确认状态为“200 OK”且日志显示“processed 1274 records for deletion”。










