WorkBuddy可自动采集竞品信息并生成结构化日报:一、配置竞品目标与数据源;二、设定XPath/CSS/正则抽取规则;三、构建模板并映射字段;四、设置定时调度与多端交付;五、启用异常监控与数据校验。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望高效获取竞品动态并减少人工整理时间,WorkBuddy 可通过预设规则自动采集公开渠道的竞品信息,并生成结构化日报。以下是实现该功能的具体操作指南:
一、配置竞品目标与数据源
需明确监控对象及合法可采集的信息范围,确保WorkBuddy仅从官网、新闻稿、应用商店更新日志、招聘页面等公开渠道抓取数据,避免触发反爬机制或违反robots.txt协议。
1、在WorkBuddy主界面点击「新建任务」,选择「竞品监测」模板。
2、输入竞品公司名称、品牌关键词、官方域名(如example.com)、App Store/华为应用市场包名。
3、勾选数据源类型:官网新闻栏、微信公众号推文、天眼查工商变更、脉脉岗位发布、第三方舆情平台RSS接口(需提前授权)。
4、为每个竞品设置更新频率阈值,例如「官网新闻栏每6小时扫描一次,公众号推文每日凌晨2点同步」。
二、设定信息抽取规则
WorkBuddy依赖XPath、CSS选择器或正则表达式定位关键字段,需针对不同页面结构定制提取逻辑,确保标题、发布时间、产品功能点、价格变动等要素准确捕获。
1、进入「规则编辑器」,粘贴竞品官网某条新闻页面URL,点击「自动分析DOM结构」。
2、在预览窗格中,用鼠标框选新闻标题区域,系统自动生成CSS路径;手动校验是否匹配所有同类节点。
3、对发布时间字段,选择「日期格式识别」模式,支持yyyy-MM-dd、MM/DD/yy、"3小时前"等变体归一化转换。
4、针对产品功能描述段落,启用「语义块切分」,排除页脚版权、广告位、相关推荐等干扰内容。
三、构建日报模板与字段映射
日报需按固定格式组织多源信息,通过字段映射将原始抓取结果填充至对应模块,保证输出一致性与可读性。
1、在「模板中心」选择「标准竞报」模板,或导入自定义HTML/Markdown模板文件。
2、将「抓取标题」字段拖拽至模板中「今日要闻」区块的标题占位符位置。
3、将「发布时间」映射至「时效标识」字段,并启用「相对时间显示」(如“2小时前”“昨日”)。
4、将「功能点关键词」(由NLP模块自动提取的TOP5术语)填入「核心动向」表格,按出现频次降序排列。
四、启用自动化调度与交付
通过内置定时引擎与推送通道联动,实现无人值守运行,确保日报准时生成并触达指定接收端。
1、在「调度设置」中选择「每日07:00执行」,勾选「跳过周末」选项。
2、添加交付方式:企业微信机器人Webhook地址、钉钉群自定义机器人、邮箱SMTP服务器参数(含发件人别名“竞报小助手”)。
3、开启「差异高亮」开关,系统自动比对昨日报告,仅将新增/变更条目用黄色背景+粗体标注。
4、测试运行一次,检查生成PDF附件中的表格对齐、超链接有效性、中文标点全角状态。
五、异常监控与数据校验
为抓取稳定性提供兜底机制,当页面结构变更或网络中断时,系统需及时告警并保留最近有效快照,避免日报空白。
1、进入「监控看板」,启用「断连预警」,设定连续3次HTTP 403/502响应即触发企业微信消息通知。
2、为每个竞品配置「结构健康度」阈值,当XPath匹配成功率低于85%持续2小时,自动暂停该源并标记为「待适配」。
3、每日06:45执行校验任务:比对抓取条目数与历史7日均值,偏差超±40%时发送异常摘要邮件。
4、在「快照库」中手动保存当前可用的页面样本,供后续规则调试时加载比对。








