需通过结构化清洗流程实现标准化输出:一、配置清洗模板,定义字段类型与校验规则;二、批量导入Excel并自动执行清洗,生成_clean后缀文件;三、用Python脚本扩展复杂逻辑;四、导出结构化日志追溯问题。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您使用WorkBuddy处理大量Excel文件,但原始数据中存在空值、重复行、格式混乱、异常字符或列错位等问题,则需通过结构化清洗流程实现标准化输出。以下是完成该任务的具体操作步骤:
一、配置WorkBuddy清洗模板
WorkBuddy支持基于规则的模板化清洗,预先定义字段类型、校验逻辑与替换策略,可复用于多个工作表。模板一旦保存,后续导入新文件时自动套用规则,避免重复设置。
1、打开WorkBuddy主界面,点击左侧导航栏【数据清洗】模块。
2、点击右上角【新建模板】按钮,输入模板名称为“通用Excel脏数据清洗”。
3、在字段配置区,依次添加需清洗的列名,为每列指定数据类型(如文本、数值、日期)及是否允许空值。
4、针对“姓名”列,勾选【去除首尾空格】和【过滤不可见字符(如\u200B、\uFEFF)】选项。
5、针对“手机号”列,启用【正则匹配校验】,填入表达式 ^1[3-9]\d{9}$,并设置不匹配项统一标记为无效号码。
二、批量导入并执行清洗
WorkBuddy支持多文件拖拽导入,自动识别Excel工作簿内所有Sheet,并按模板逐表应用清洗逻辑,生成独立清洗结果文件,保留原始文件结构不变。
1、在清洗模板编辑页点击【保存并启用】,返回【数据清洗】主视图。
2、点击【批量导入】按钮,将待处理的12个.xlsx文件全部拖入弹出窗口区域。
3、系统自动解析每个文件的Sheet数量与首行标题,勾选全部Sheet后点击【确认导入】。
4、在任务列表中找到当前批次,点击右侧【启动清洗】,状态栏显示“运行中”后开始逐文件处理。
5、清洗完成后,每份文件对应生成一个同名带“_clean”后缀的新Excel文件,保存至默认输出路径/WorkBuddy/output/cleaned/。
三、自定义脚本增强清洗能力
对于模板无法覆盖的复杂逻辑(如根据“部门编码”前两位动态补全“所属大区”,或合并多列生成唯一ID),可通过内置Python脚本模块扩展清洗动作,无需导出到外部环境。
1、进入已启用的清洗模板详情页,下滑至【高级规则】区域,点击【添加脚本节点】。
2、在代码编辑框中输入以下逻辑:
df['大区'] = df['部门编码'].str[:2].map({'01': '华北', '02': '华东', '03': '华南', '04': '西南'})
df['唯一ID'] = df['工号'].astype(str) + '_' + df['入职年份'].astype(str)
3、点击【语法校验】确保无报错,再点击【保存脚本】。
4、该脚本将在清洗流水线末尾自动执行,输出DataFrame直接写入结果文件对应列。
四、导出清洗日志与问题记录
每次批量清洗均生成结构化日志,包含每文件的清洗耗时、字段修正条数、异常行样本及拦截原因,便于追溯数据质量问题源头,支撑后续业务规则优化。
1、清洗任务完成后,在任务卡片右侧点击【查看日志】图标。
2、日志页面默认展开汇总统计,点击任意文件条目可展开明细。
3、在“异常数据”标签页中,筛选类型为【空值填充】,查看所有被自动补为未知的单元格原始值与所在行列坐标。
4、点击【导出日志】按钮,选择CSV格式,保存至本地磁盘指定文件夹。











