
php 使用 `simplexml_load_string()` 解析 rss 时,默认无法处理带冒号的 xml 命名空间标签(如 `
RSS 提要常包含来自不同命名空间的扩展字段,尤其是播客(Podcast)类 RSS 中广泛使用的
你原始代码中的问题在于两处冗余且有害的字符串预处理:
$fileContents = str_replace(array("\n", "\r", "\t"), '', $fileContents); // 删除空白符 → 破坏格式,非必需
$fileContents = trim(str_replace('"', "'", $fileContents)); // 错误转义引号 → 可能损坏属性值这些操作不仅不必要,还可能破坏 XML 结构(例如干扰 CDATA 或属性值中的引号),加剧解析异常。
✅ 正确做法是:仅对命名空间分隔符 : 进行标准化替换,将其统一转为下划线 _,从而生成合法的 PHP 属性名(如 itunes:subtitle → itunes_subtitle),再交由 simplexml_load_string() 安全解析。
以下是优化后的健壮解析函数:
function rssToJson($url) {
$xmlContent = file_get_contents($url);
if ($xmlContent === false) {
throw new RuntimeException("Failed to fetch RSS feed from: $url");
}
// ✅ 关键修复:仅将命名空间冒号替换为下划线,保留 XML 结构完整性
$normalizedXml = str_replace(':', '_', $xmlContent);
$simpleXml = simplexml_load_string($normalizedXml, 'SimpleXMLElement', LIBXML_NOCDATA);
if ($simpleXml === false) {
throw new RuntimeException("Failed to parse XML: " . implode(', ', libxml_get_errors()));
}
return json_encode($simpleXml, JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT);
}
// 使用示例
try {
$json = rssToJson('https://example.com/podcast.rss');
echo $json;
} catch (Exception $e) {
error_log('RSS Parse Error: ' . $e->getMessage());
}⚠️ 注意事项:
- 不要删除换行/缩进:XML 格式无需“压缩”,simplexml 能高效处理标准格式;
- 避免引号替换:原始引号是 XML 属性值的一部分(如 href="https://..."),擅自替换会破坏结构;
- 启用错误报告:添加 LIBXML_NOCDATA 可防止文本节点被转为 CDATA 对象,libxml_get_errors() 有助于调试解析失败;
- 命名空间声明保留:xmlns_itunes 等属性仍会以 @attributes 形式存在(如 "xmlns_itunes": "http://www.itunes.com/dtds/podcast-1.0.dtd"),可用于后续验证;
- JSON 字段命名一致性:所有 itunes_xxx 字段将原样出现在 JSON 中(如 "itunes_subtitle": "Subtitle text here"),可直接被前端或下游服务消费。
总结:RSS 到 JSON 的转换失败,本质是 XML 命名空间与 PHP 对象模型的兼容性问题。通过精准的 : → _ 预处理,即可零侵入地桥接二者,完整保留 iTunes 等扩展字段,无需依赖第三方库(如 DOMDocument 或 xml_parser_*),兼顾简洁性与可靠性。










