
本文详解如何正确提取 html 表格中带小数的数字字符串(如 "10.00"),并将其可靠转换为整数,避免直接类型转换导致的截断错误(如 `(int)"10.00"` 得到 10 而非预期的 10)。
在使用 preg_match_all() 从 HTML 中提取数值时,一个常见误区是:正则未使用捕获组,导致匹配结果包含完整 HTML 标签(如 10.00 )。此时 $match[0] 数组中存储的是带标签的字符串,而非纯数字——直接对
✅ 正确做法:用捕获组精准提取纯数字
修改正则表达式,在数字部分添加括号形成捕获组(Capture Group),使目标值存入 $matches[1]:
// 示例 HTML 片段
$html = '<table><tr><td>10.00</td><td>10.00</td><td>10.00</td><td>1.00</td><td>12.00</td></tr></table>';
// 使用捕获组:([0-9]{1,2}\.[0-9]{2}) —— 仅匹配并捕获数字部分
preg_match_all('/<td>([0-9]{1,2}\.[0-9]{2})<\/td>/', $html, $matches);
// $matches[1] 是纯数字字符串数组:['10.00', '10.00', ..., '12.00']
if (!empty($matches[1])) {
$integers = [];
foreach ($matches[1] as $str) {
// 方法1:先转 float 再转 int(推荐,可正确处理 .00)
$integers[] = (int) (float) $str; // → 10, 10, 10, 1, 12
// 方法2:使用 intval() + floatval()
// $integers[] = intval(floatval($str));
// 方法3:使用 round() 避免浮点误差(如 10.00 可能被解析为 9.999999)
// $integers[] = (int) round(floatval($str));
}
print_r($integers);
}⚠️ 注意事项与替代方案
-
不要直接 (int) 字符串标签:$match[0][0] 是
10.00 ,(int) 结果恒为 0; -
strip_tags() 可作为备选(但性能略低,且需额外清理空格):
$cleaned = array_map(function($s) { return (int) (float) strip_tags($s); }, $matches[0]); - 正则健壮性建议:若数字可能含千分位或负号,应升级正则(如 /[-+]?\d+(?:\.\d+)?/),并配合 filter_var($str, FILTER_SANITIZE_NUMBER_FLOAT) 预处理;
- 类型安全提醒:PHP 的 (int) 截断不四舍五入("10.99" → 10),若需四舍五入,请用 round(floatval($str))。
✅ 总结
核心原则是:先分离(capture),再转换(cast)。通过正则捕获组确保 $matches[1] 中的数据为干净的数字字符串,再经 floatval() → (int) 或 intval() 安全转为整数。这既规避了 HTML 标签干扰,又避免了浮点字符串直接强转的陷阱,是处理此类 Web 抓取数据的标准实践。











