
本文介绍使用正则表达式(preg_match_all)从非结构化商品描述中可靠提取风味(flavor)、件数(number of pieces)、净重数值(weight)及单位(g/kg)的完整php教程,适用于初学者,含可运行示例与关键细节解析。
在处理大量不规范的商品描述文本时(如“Superpremium cat food beef 42 x 85g”),手动分割或简单 strpos()/explode() 往往失效——空格、连字符、逗号、单位紧贴数字等变体极大增加了复杂度。此时,正则表达式是首选且最健壮的解决方案。
以下是一个经过验证的完整示例代码,可直接运行并适配您提供的全部6种格式:
✅ 输出示例(以最后一行为例):
Flavor: beef Number of pieces: 42 Weight: 85 Unit: g
? 正则关键说明:
立即学习“PHP免费学习笔记(深入)”;
- .*food\s+:跳过前缀(如“Superpremium cat”),定位到 food 后至少一个空白符;
- ([a-zA-Z\s]+?):非贪婪捕获风味名(如 beef、light chicken),支持多词与空格;
- (\d+):捕获整数件数(42, 2);
- [x×]?:兼容 x 或 × 符号(常见OCR/录入误差);
- ([\d,]*\.?\d*):捕获重量数值,支持 3,8、10、85、.5 等;
- ([gkGK]{1,2}):捕获单位(g, kg, KG, G),后续做标准化;
- /m 修饰符:启用多行模式,使 ^/$ 匹配每行首尾(此处虽未用 ^,但增强鲁棒性)。
⚠️ 注意事项与进阶建议:
-
风味词需预定义校验? 当前正则依赖文本位置推断风味。若风味列表固定(如 ['beef','chicken',...]),可在提取后增加白名单过滤:
$validFlavors = ['beef', 'chicken', 'turkey', 'salmon', 'fish', 'rabbit', 'cod']; if (!in_array($flavor, $validFlavors)) { $flavor = 'unknown'; // 或跳过该条记录 } - 处理无“x”的单件商品(如 1 kg)? 当前正则要求存在 x。如需兼容,可将 [x×]? 改为 (?:\s*[x×]\s*)? 并调整权重捕获组逻辑,或单独用第二条正则兜底匹配 (\d+(?:[,\.]?\d+)?)\s*([gkGK]{1,2});
- 性能提示: 对数百条数据,preg_match_all 毫秒级完成,无需优化;若扩展至万级,建议预编译正则(preg_quote 防注入)并批量处理;
- 编码安全: 确保输入字符串为 UTF-8;若含中文风味(如“三文鱼”),需添加 u 修饰符并使用 \p{L} 替代 [a-zA-Z]。
掌握此模式后,您不仅能解析猫粮,还可快速适配零食、日化、五金等各类商品规格文本——正则不是魔法,而是结构化思维在字符串上的落地实践。











