需启用图片识别、配置筛选规则、设定智能归档、执行带重试下载、运行后处理脚本。具体包括开启media识别模式、设置URL与尺寸过滤、按domain/date/title建目录、设3次重试、调用Python脚本去重标注。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望使用WorkBuddy工具高效获取网页中的图片资源并实现自动分类存储,则需借助其内置的批量抓取与规则匹配能力。以下是实现该目标的具体操作路径:
一、启用图片批量抓取模块
WorkBuddy默认不自动激活图片提取功能,需手动开启抓取器的媒体资源识别模式,使其在解析HTML时同步捕获img标签及CSS背景图URL。
1、启动WorkBuddy客户端,点击右上角“设置”图标进入全局配置界面。
2、在左侧菜单中选择“抓取行为”,将“启用图片资源识别”选项切换为开启状态。
3、勾选“同时提取data-src和srcset属性中的候选图片地址”以覆盖懒加载场景。
4、点击“保存配置”使更改立即生效。
二、配置网页范围与图片筛选规则
通过定义URL匹配模式与图片元数据过滤条件,可精准限定下载对象,避免无关资源混入归档目录。
1、进入“任务管理”页,点击“新建抓取任务”,在“目标网址”栏输入起始页面URL或支持通配符的域名格式(如https://example.com/gallery/*)。
2、在“内容过滤”区域展开高级选项,设置“仅下载宽度≥800像素且文件大小在10KB–5MB之间的JPEG/PNG/GIF图片”。
3、在“排除路径”栏填入“/ads/、/avatar/、/icon/”等干扰路径关键词,用英文逗号分隔。
4、确认无误后点击“生成采集规则”按钮,系统将自动生成对应XPath与正则表达式组合。
三、设定自动归档目录结构
WorkBuddy支持基于网页来源、时间戳及图片语义标签动态创建嵌套文件夹,确保下载结果按逻辑分层存放。
1、在任务编辑页底部找到“输出设置”,点击“启用智能归档”开关。
2、在“主目录路径”中指定根文件夹,例如D:\WorkBuddy\Images_Archive。
3、于“子目录模板”框内输入:{domain}/{date:yyyy-MM}/{page_title:clean},其中{page_title:clean}会自动移除标题中的特殊字符与空格。
4、勾选“为每张图片附加原始URL哈希值作为前缀”,防止同名文件覆盖。
四、执行带重试机制的批量下载
网络波动或临时限流可能导致部分图片请求失败,启用断点续传与多轮重试策略可显著提升完整率。
1、返回任务列表,右键目标任务,选择“运行(带重试)”。
2、在弹出窗口中将“最大重试次数”设为3,“重试间隔(秒)”设为2.5。
3、勾选“跳过HTTP状态码为403/429的响应并记录至error.log”。
4、点击“开始执行”,进度条旁将实时显示已成功下载图片数与待重试项数量。
五、应用后处理脚本自动标注与去重
下载完成后,可通过集成外部Python脚本对本地图片进行EXIF读取、相似度比对及标签注入,强化归档可用性。
1、在“输出设置”区域下方点击“添加后处理命令”,选择“执行本地脚本”。
2、浏览并导入已编写完成的process_images.py文件,该脚本需包含PIL与imagehash库调用逻辑。
3、在参数字段填入--input "{output_dir}" --min_similarity 92 --add_copyright "WorkBuddy-Archived-2024"。
4、启用“仅当下载完成且无错误时执行后处理”复选框,确保脚本不会在中断状态下被触发。










