怎么抓取新闻标题_PHP抓取新浪新闻列表教程【详解】

蓮花仙者

发布时间：2026-02-15 14:42:46

300人浏览过

来源于php中文网

原创

file_get_contents 抓不到新浪新闻首页，因其默认无 user-agent、不支持自动跳转和 cookie 管理，被新浪服务器识别为爬虫而返回 403 或空内容；必须改用 curl 并设置 curlopt_useragent 和 curlopt_encoding 才能正常获取 html。

怎么抓取新闻标题_php抓取新浪新闻列表教程【详解】

file_get_contents 和 curl 都能抓，但直接用 file_get_contents 在新浪新闻首页上大概率失败——它会返回空内容或 403，因为新浪对无 User-Agent 的请求做了拦截。

为什么 `file_get_contents` 经常抓不到新浪新闻列表？

新浪新闻首页（http://news.sina.com.cn/）默认拒绝没有浏览器标识的请求。PHP 默认的 file_get_contents 不带 User-Agent，也不支持自动跳转和 Cookie 管理，容易被当成爬虫封掉。

现象：返回空字符串、乱码，或 HTTP 403 / 503 错误
根本原因：服务端通过 User-Agent 和 Accept-Encoding 判断是否为真实浏览器
解决思路：改用 curl，手动设置请求头 + 编码处理

`curl` 抓取新浪首页标题的最小可行代码

以下是最简但能跑通的版本，已适配当前（2026年）新浪首页结构（仍使用 h1 + data-client="headline" 类选择器）：

<pre class="brush:php;toolbar:false;">$url = 'http://news.sina.com.cn/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36');
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
$html = curl_exec($ch);
curl_close($ch);
<p>// 提取标题（注意：新浪首页结构不稳定，正则需宽松）
preg_match_all('/<h1\s+data-client="headline">([^<]+)<\/h1>/iU', $html, $matches);
$titles = array_map('trim', $matches[1]);
print_r($titles);</p>

必须加 CURLOPT_USERAGENT，否则多数时候拿不到 HTML
CURLOPT_ENCODING 要设成 gzip,deflate，否则可能解压失败导致乱码
正则不能写死路径或 class 名，新浪经常微调 DOM 结构；优先匹配语义化属性（如 data-client）

编码问题怎么破？`iconv` 还是 `mb_convert_encoding`？

新浪首页目前是 UTF-8，但部分子页（尤其是旧新闻）仍是 GBK 编码。如果抓到中文乱码，别急着硬转，先确认源编码：

FlowMuse AI

节点式AI视觉创作引擎

下载

立即学习“PHP免费学习笔记（深入）”；

用 mb_detect_encoding($html) 粗略判断（不绝对可靠）
更稳的方式：看响应头 Content-Type 中的 charset= 字段（curl_getinfo($ch, CURLINFO_CONTENT_TYPE)）
若确定是 GBK → UTF-8，用 mb_convert_encoding($html, 'UTF-8', 'GBK') 比 iconv('gbk', 'utf-8', ...) 更容错
避免在未检测前强行转码，否则可能把 UTF-8 当 GBK 转，产生“锟斤拷”

别只盯着标题：结构变动比你想的更频繁

新浪新闻首页不是静态页面，它用 JS 注入部分内容（尤其推荐位），纯服务端抓取拿到的是骨架 HTML，很多标题实际藏在异步接口里（比如 https://feed.mix.sina.com.cn/api/roll/get?...）。如果你发现 h1[data-client] 匹配不到预期数量，大概率是前端渲染了。

对策一：抓它的 JSON 接口（需分析 Network 面板，找 roll/get 类请求）
对策二：放弃首页，改抓频道页（如科技：http://tech.sina.com.cn/），结构更稳定
对策三：加延迟、模拟滚动行为 —— PHP 做不到，得换 Puppeteer 或 Playwright

真正难的从来不是写几行 curl，而是应对它随时改 DOM、切接口、加反爬。别迷信“一次写完永久运行”。

延迟高如何降低_PHP高并发网络延迟优化方法【详解】

PHP加密调试输出乱码_正确处理二进制转十六进制显示【说明】

没有源码的PHP加密文件如何解密_无源码解密方法介绍【操作】

内存泄漏如何排查_PHP高并发内存泄漏处理指南【方法】

DW运行PHP提示扩展缺失怎么办_安装扩展的方法【解答】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php json Cookie cURL 字符串接口 class JS dom 异步选择器 http https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：WordPress 中为登录用户与访客显示不同页眉内容的完整实现指南下一篇：暂无

作者最新文章

蛙漫正版漫画免费在线阅读_蛙漫官方无干扰纯净入口

2026-02-13 17:32

麒麟系统(Kylin)网络配置与安全加固入门

2026-02-13 18:08

如何用记事本写HTML5网页_最简单的手写代码方法【操作】

2026-02-13 18:14

Windows系统老旧游戏全屏显示有黑边怎么调_Win缩放设置与显卡驱动调整【教程】

2026-02-13 18:34

芒果浏览器和Chrome哪个好用_芒果浏览器2026真实评测【汇总】

2026-02-13 18:41

怎么设置网页背景颜色或图片_CSS基础样式添加技巧【教程】

2026-02-13 18:45

Windows系统激活状态怎么查_Windows正版授权验证【教程】

2026-02-13 19:14

统信UOS如何查看磁盘剩余空间_统信UOS磁盘空间查看【存储】

2026-02-13 19:36

Windows电脑开机密码怎么设置_Windows系统登录密码设置方法【指南】

2026-02-13 19:46

猿辅导在线教育入口猿辅导官网网页版访问方式

2026-02-13 19:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

439

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

544

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

318

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

Cookie 是一种在用户计算机上存储小型文本文件的技术，用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时，网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器，浏览器会将该 Cookie 存储在用户的计算机上。之后，当用户再次访问该网站时，浏览器会向服务器发送 Cookie，服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6463

2023.06.30