PHP获取听书插件章节信息只能通过模拟请求:优先抓取JSON格式API(需处理User-Agent、Referer等校验),其次解析HTML静态页(用DOMDocument+DOMXPath,避免正则);反爬强时应换用Node.js渲染或寻求官方OpenAPI。

听书插件没有标准 PHP SDK,得靠解析接口或 HTML
市面上所谓“听书插件”基本是前端 JS 渲染的 Web 应用(比如基于 Vue/React 的小程序 H5 页面),PHP 无法直接调用其内部函数。你看到的“章节信息”,实际来自它背后的服务端 API 或静态资源文件。所以 PHP 要获取,只能模拟请求——要么抓它的 AJAX 接口,要么扒它的 HTML 页面结构。
先确认目标页面是否返回 JSON 数据(优先走 API)
打开浏览器开发者工具(F12),切换到 Network → XHR,刷新听书页面,找带 chapter、catalog、list 或 bookId 参数的请求。常见路径类似:
/api/v1/book/12345/chapters/catalog?book_id=12345/index.php?m=book&a=getCatalog&bookid=12345
如果响应是纯 JSON,且无严格 Referer / Token 校验,PHP 就能用 file_get_contents() 或 curl_init() 直接拿:
$url = 'https://example.com/api/v1/book/12345/chapters'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'); $result = curl_exec($ch); curl_close($ch); $data = json_decode($result, true);
注意:很多接口会校验 User-Agent、Referer,甚至要求携带 X-Request-ID 或登录态 Cookie,漏掉就返回空数组或 403。
立即学习“PHP免费学习笔记(深入)”;
HTML 静态页需用 DOM 解析,别用正则硬匹配
有些老系统把章节列表写死在 HTML 里(比如 常见坑: 如果目标站用了前端加密签名(如参数含 强行逆向 JS 签名算法成本高、维护难,上线三天可能就失效。第一章)。这时该用 DOMDocument + DOMXPath,而不是 preg_match_all()——后者一改格式就崩。
$html = file_get_contents('https://example.com/book/12345');
$dom = new DOMDocument();
libxml_use_internal_errors(true);
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$nodes = $xpath->query('//div[@class="chapter-list"]//a');
$chapters = [];
foreach ($nodes as $node) {
$title = $node->textContent;
$href = $node->getAttribute('href');
if ($href && trim($title)) {
$chapters[] = ['title' => trim($title), 'url' => $href];
}
}
loadHTML() 对乱码敏感,若网页是 GBK 编码,得先 mb_convert_encoding($html, 'HTML-ENTITIES', 'GBK');另外部分站点用 JS 动态插入章节,PHP 拿到的源码里根本没内容——那就不是 PHP 能解决的了。反爬强的站点建议换方案,别硬刚
sign=xxx,每次随时间/参数变化)、WebAssembly 校验、或强制走 WebSocket 推送章节列表,PHP 同步请求基本没法稳定对接。这时候更现实的做法是:











