
本文介绍一种基于 PHP parse_url() 的健壮 URL 域名校验方案,替代易被绕过的字符串匹配逻辑,精准拦截非授权域名、前置/后置垃圾字符及格式错误的 URL,确保短链服务仅重定向至指定可信站点。
本文介绍一种基于 php `parse_url()` 的健壮 url 域名校验方案,替代易被绕过的字符串匹配逻辑,精准拦截非授权域名、前置/后置垃圾字符及格式错误的 url,确保短链服务仅重定向至指定可信站点。
在构建短链接服务时,仅允许用户提交来自特定域名(如 myydomain.com)的目标 URL 是基础安全策略。但若依赖简单的 strpos($url, 'myydomain.com') 进行判断(如原始函数 denyNonSite 所示),攻击者极易绕过校验:例如在真实 URL 前插入 @ryui:、http://evil.com/?redirect=,或在末尾拼接 #malicious 等干扰内容——这些操作均不会影响 strpos 对子串的匹配结果,却会导致非法 URL 被写入数据库。
根本问题在于:字符串匹配无法识别 URL 结构。它无法区分“myydomain.com 是完整主机名”,还是仅作为路径、参数或垃圾前缀中的普通文本片段。
✅ 正确做法是使用 PHP 内置的 parse_url() 函数进行结构化解析:
function denyNonSite($url): bool
{
$host = parse_url($url, PHP_URL_HOST);
// 若解析失败(返回 false)或主机名不匹配,一律拒绝
return $host !== 'myydomain.com';
}该函数具备三大优势:
- 结构感知:parse_url(..., PHP_URL_HOST) 仅提取标准化后的主机名字段,自动忽略 URL 中所有非主机部分(协议、路径、查询参数、锚点、前置/后置文本等);
- 天然抗注入:对 @ryui:https://myydomain.com/... 或 https://myydomain.com/...?x=@spam.com 等恶意构造,parse_url 将返回 false(因整体非合法 URL)或正确提取 'myydomain.com',绝不会误判 @spam.com 为有效主机;
- 零配置容错:根据 PHP 官方文档,parse_url() 对格式严重错误的输入(如无协议、无双斜杠)返回 false,可直接用于拒绝,无需额外正则或异常处理。
⚠️ 注意事项:
- 确保传入 $url 为已 trim() 的纯净字符串(建议在调用 denyNonSite() 前执行 trim($inputUrl),避免首尾空格或不可见字符干扰);
- 若业务需支持 www.myydomain.com 或子域名(如 app.myydomain.com),请改用 str_ends_with($host, '.myydomain.com') || $host === 'myydomain.com' 进行后缀匹配;
- 生产环境应配合 HTTPS 强制重定向、CSP 策略及数据库层面的 URL 字段长度/格式约束,形成纵深防御。
总结:URL 校验必须基于语义而非文本。放弃 strpos、strstr 等字符串操作,坚定采用 parse_url() 解析主机名,是保障短链服务域名白名单机制可靠性的关键一步。










