0

0

如何抓取公众号文章_PHP抓取微信文章内容技巧【教程】

蓮花仙者

蓮花仙者

发布时间:2026-02-16 15:34:03

|

398人浏览过

|

来源于php中文网

原创

php无法直接抓取公众号正文,因微信采用js动态渲染、反爬校验及阅读权限控制;可行方案是用puppeteer/playwright渲染后传给php清洗。

如何抓取公众号文章_php抓取微信文章内容技巧【教程】

不能直接抓取公众号文章正文——微信服务端对非授权访问做了严格反爬与动态渲染限制,所有声称“PHP直接抓取公众号原文”的方案,本质都是绕过或模拟登录行为,且极不稳定。

为什么 file_get_contentscURL 拿不到真实内容

公众号文章页面(mp.weixin.qq.com/s/xxx)返回的 HTML 中,正文文本通常被包裹在 <script></script> 标签内、经 JS 动态解密或分片加载;部分页面甚至返回空 <div id="js_content"></div>,真实内容需执行 JS 才能还原。

  • 微信服务端会校验 User-AgentCookie(尤其是 ua_idmm_langwap_sid2)、Referer 和请求频率
  • 未登录状态或 Cookie 过期时,页面会跳转到登录页或返回 403/404,但 HTTP 状态码仍可能是 200
  • 部分文章启用「阅读权限控制」,即使有合法 Cookie,也需用户已关注该号或满足阅读条件

PHP 能做的有限动作:解析已获取的 HTML 片段

若你已有合法渠道拿到带正文的 HTML(例如通过 Puppeteer/Playwright 渲染后保存的静态页面),PHP 可用 DOMDocument 提取内容,但必须避开 JS 渲染陷阱:

  • 优先用 $dom->getElementById('js_content') 获取容器,再用 $node->textContent 提取纯文本,而非 innerHTML(避免残留样式标签)
  • 手动过滤常见干扰节点:span[data-type="music"]section[data-role="outer"]img[data-type="wx"]
  • 注意编码:微信 HTML 常声明 charset=GBK,但实际内容为 UTF-8,需强制 mb_convert_encoding($html, 'UTF-8', 'GBK')

示例片段:

Pixlr Remove BG
Pixlr Remove BG

几秒钟删除图片背景

下载

立即学习PHP免费学习笔记(深入)”;

$dom = new DOMDocument();
libxml_use_internal_errors(true);
$dom->loadHTML(mb_convert_encoding($html, 'UTF-8', 'GBK'));
$content = $dom->getElementById('js_content');
echo $content ? trim($content->textContent) : '';

真正可行的替代路径:不依赖 PHP 直接抓取

PHP 不适合承担浏览器环境模拟任务。更可靠的做法是:

  • 用 Node.js 的 Puppeteer 或 Python 的 playwright 启动无头 Chromium,注入有效 Cookie 并等待 #js_content 渲染完成,再提取 innerHTML
  • 将渲染结果 POST 到 PHP 接口,由 PHP 做后续清洗、存储或格式转换
  • 若需长期稳定采集,必须维护一套 Cookie 池 + 登录态心跳机制(微信会定期失效 wap_sid2
  • 注意法律边界:《微信公众号平台运营规范》明确禁止未经许可的内容搬运,高频请求还可能触发账号封禁

真正难的不是写几行 curl_setopt,而是维持一个能持续通过微信反爬验证的登录态——这和 PHP 本身关系不大,关键在环境模拟精度与 Cookie 生命周期管理。

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
cookie
cookie

Cookie 是一种在用户计算机上存储小型文本文件的技术,用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时,网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器,浏览器会将该 Cookie 存储在用户的计算机上。之后,当用户再次访问该网站时,浏览器会向服务器发送 Cookie,服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6464

2023.06.30

document.cookie获取不到怎么解决
document.cookie获取不到怎么解决

document.cookie获取不到的解决办法:1、浏览器的隐私设置;2、Same-origin policy;3、HTTPOnly Cookie;4、JavaScript代码错误;5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

362

2023.11.23

阻止所有cookie什么意思
阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验,因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

430

2024.02.23

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

96

2025.08.19

curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

452

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

181

2023.10.30

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1465

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

383

2025.10.17

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

145

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 11.9万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号