python爬虫抓取html实现方法_python爬虫怎么抓取html【详解】

看不見的法師

发布时间：2026-03-09 21:22:43

712人浏览过

来源于php中文网

原创

requests.get() 返回空或乱码主因是编码未正确设置，应优先用 r.apparent_encoding 或手动设 utf-8/gbk；beautifulsoup 找不到元素常因 js 渲染导致源码无目标标签；反爬需合理 headers、控制频率；中文 url 必须 quote 编码。

python爬虫抓取html实现方法_python爬虫怎么抓取html【详解】

requests.get() 返回空内容或乱码

多数人卡在这一步：明明 URL 能在浏览器打开，requests.get() 却拿不到正文，或者返回一堆问号、方块。核心原因是没处理响应编码——requests 默认用 ISO-8859-1 解码，而网页实际是 UTF-8 或 GBK。

实操建议：

B12

B12是一个由AI驱动的一体化网站建设平台

下载

立即学习“Python免费学习笔记（深入）”；

永远手动设 r.encoding，优先试 r.encoding = r.apparent_encoding（基于内容自动推测，比 r.encoding 更靠谱）
如果 apparent_encoding 错了（比如识别成 Windows-1254），就查网页 <meta charset="...> 或响应头 Content-Type，硬写死，例如 r.encoding = 'utf-8'
别依赖 r.text 直接输出，先打印 len(r.content) 和 r.status_code 确认请求真成功了——403、406、被重定向到登录页都可能让 r.text 看似“有内容”实则无效

BeautifulSoup 解析失败：find() 返回 None

不是代码写错了，是 HTML 结构和你看到的不一致。浏览器里按 F12 看到的 DOM 是 JS 渲染后的，而 requests 拿到的是原始 HTML，里面往往没有目标标签。

实操建议：

立即学习“Python免费学习笔记（深入）”；

用 print(r.text[:500]) 截取开头几百字符，确认目标文本是否真在源码里；不在？说明是 JS 动态加载，requests + BeautifulSoup 无解，得换 selenium 或 playwright

检查标签大小写和属性值：有些站点用 <div class="item-list">，你写 <code>soup.find('div', class_='itemList') 就会失败——class 属性值必须完全匹配，且 class_ 参数不支持驼峰转换

避免链式调用 soup.find('a').get('href')：前一步返回 None 就直接报 AttributeError，改成两步，加 if tag: 判断

反爬拦截：requests 报 403 或返回验证码页面

服务器一看 User-Agent 是 python-requests/2.31.0，立刻拉黑。这不是“要加 headers”，而是要加对、加全、且模拟真实访问节奏。

实操建议：

立即学习“Python免费学习笔记（深入）”；

至少带 User-Agent 和 Accept，示例：{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36', 'Accept': 'text/html,application/xhtml+xml'}
别一股脑加十多个 headers——某些站点会校验 Sec-Fetch-* 等现代字段，填错反而露馅；宁可少，不要假
加 time.sleep(1) 控制频率，但别机械等固定秒数；连续请求间隔差异太小（比如全是 1.0s）也会被识别为脚本
如果返回的是验证码 HTML（含 <img src="/captcha?..." alt="python爬虫抓取html实现方法_python爬虫怎么抓取html【详解】" >），说明已进入强反爬环节，requests 基本退场，别硬刚

中文路径或参数导致 URL 编码错误

拼接 URL 时直接写 f"https://example.com/搜索?q={keyword}"，结果发出去变成 %E6%90%9C%E7%B4%A2 乱码，服务端收不到预期参数。

实操建议：

立即学习“Python免费学习笔记（深入）”；

所有动态拼入 URL 的非 ASCII 字符（中文、emoji、空格等），必须用 urllib.parse.quote() 编码，例如 quote(keyword, safe='')
查询参数统一走 params 参数，让 requests 自动处理：requests.get(url, params={'q': keyword}) —— 它内部会调用 urlencode，比手拼安全得多
路径部分（URL 中 / 后面的段）不能靠 params，必须手动 quote，且注意 safe='/'（保留斜杠不编码）

真正难的从来不是“怎么拿到 HTML”，而是判断“这个 HTML 是不是我要的那个”。每次请求后，先看 status_code，再看 content 长度和开头几十字，最后才进解析——跳过这三步，后面写的全是空中楼阁。

html格式怎么转换成PDF_html转PDF工具与保存方法【推荐】

txt文本怎么改成html_txt转html文件方法【攻略】

怎么保存为html格式_保存为html格式方法【教程】

html文档怎么转换成word文档_html文档怎么转换成word格式【方法】

html文件怎么转换成word文档_html转word文档方法【教程】

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

python html 爬虫 xhtml beautifulsoup print if xml 堆 class len JS dom href ASCII windows https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：HTML文档结构中的time标签怎么用_时间日期的语义化标记方法【详解】下一篇：vscode中html怎么引入css_vscode中html怎么正确引入css样式表文件【教程】

作者最新文章

飞书文档怎么加水印_飞书企业版文档防泄密水印设置

2026-03-07 13:19

视频号怎么查看直播实时在线人数_视频号直播数据监控与调整【解答】

2026-03-07 13:29

ppt背景音乐怎么设置渐停_ppt背景音乐渐弱停止设置【秘籍】

2026-03-07 13:30

ppt背景图斑马线怎么设置_PPT背景添加斑马线图案效果设置

2026-03-07 13:38

PHP怎么输出中文星期几_PHP输出中文星期的方法说明【说明】

2026-03-07 13:53

HTML怎样标记文档独立内容区块_HTML标记独立内容区块标签【标签】

2026-03-07 14:07

html页面分两列怎么弄_html双列布局实现技巧【排版】

2026-03-07 14:23

mysqli_stmt_bind_param参数怎么填_绑定变量的类型说明【技巧】

2026-03-07 14:29

微博怎么用名人堂找大V_微博KOL发现与合作对接【说明】

2026-03-07 14:30

华硕ROG电脑闹钟怎么关联游戏_华硕游戏本游戏启动提醒设置【汇总】

2026-03-07 15:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容，供大家免费下载体验。

192

2023.09.27

python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容，阅读专题下面的文章了解更多详细教程。

2026.02.03

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

846

2023.08.22

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1945

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1165

2024.11.28

堆和栈的区别

堆和栈的区别：1、内存分配方式不同；2、大小不同；3、数据访问方式不同；4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容，供大家免费下载体验。

438

2023.07.18

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板