如何使用 Python 逐行读取 URL 列表并逐一解析网页内容

碧海醫心

发布时间：2026-01-17 13:45:36

201人浏览过

来源于php中文网

原创

如何使用 Python 逐行读取 URL 列表并逐一解析网页内容

本文详解如何修正 readlines() 后仅处理最后一个 url 的常见错误，通过正确缩进将请求与解析逻辑置于循环体内，实现对文本文件中每个 url 的独立抓取、解析与结果写入。

在使用 file.readlines() 读取 URL 列表时，一个典型误区是：将 requests.get()、BeautifulSoup 解析及文件写入等核心逻辑写在 for 循环外部——这会导致只有最后一次迭代赋值的 url（即列表末尾的 URL）被实际处理，其余 URL 被完全忽略。

正确做法是：将整个 HTTP 请求、状态校验、HTML 解析与数据提取流程完整包裹在 for link in linksList: 循环内部，确保每条 URL 都经历一次完整的处理流水线。

以下是修正后的完整可运行代码（含关键优化）：

import requests
from bs4 import BeautifulSoup

def news():
    # 使用 with 语句安全读取 URL 文件（自动关闭）
    with open('list.txt', 'r', encoding='utf-8') as f:
        links_list = [line.strip() for line in f if line.strip()]  # 去除换行符和空行

    # 逐个处理每个 URL
    for link in links_list:
        try:
            print(f"Processing: {link}")
            resp = requests.get(link, timeout=10)

            if resp.status_code == 200:
                soup = BeautifulSoup(resp.text, 'html.parser')
                # 定位目标容器（注意：若该 div 不存在，find 返回 None）
                container = soup.find("div", {"class": "m-exhibitor-entry__item__body__contacts__additional__website"})

                if container:
                    # 提取所有 <a> 标签的文本内容
                    websites = [a.get_text(strip=True) for a in container.find_all("a")]
                    # 追加写入结果文件（同样推荐用 with 管理）
                    with open("Websites.txt", "a", encoding="utf-8") as out_f:
                        for site in websites:
                            out_f.write(site + "\n")
                    print(f"✓ Extracted {len(websites)} website(s) from {link}")
                else:
                    print(f"⚠ Warning: Target container not found on {link}")
            else:
                print(f"✗ Failed to fetch {link}: HTTP {resp.status_code}")

        except requests.exceptions.RequestException as e:
            print(f"❌ Request error for {link}: {e}")
        except Exception as e:
            print(f"❌ Unexpected error parsing {link}: {e}")

        # 可选：添加短暂停顿，避免对服务器造成压力
        # time.sleep(1)

if __name__ == "__main__":
    news()

✅ 关键改进说明：

百度GBI

百度GBI-你的大模型商业分析助手

下载

立即学习“Python免费学习笔记（深入）”；

循环作用域正确：所有网络请求与解析逻辑均位于 for 内部，确保每条 URL 独立处理；
健壮性增强：加入 try/except 捕获网络异常与解析异常，防止单个失败中断整个流程；
资源安全：使用 with open(...) 替代裸 open()，避免文件句柄泄露；
数据清洗：line.strip() 清除换行符与首尾空格，if line.strip() 过滤空行；
容错提示：当目标 HTML 结构缺失时给出明确警告，而非抛出 AttributeError；
可维护性：添加日志输出，便于调试与监控进度。

⚠️ 注意事项：

确保 list.txt 中每行仅包含一个有效 URL（无多余空格或注释）；
目标网站可能有反爬机制，建议设置 headers（如 User-Agent）并遵守 robots.txt；
若需高并发，应改用 asyncio + aiohttp，但需重写架构；本例为顺序执行，简洁可靠。

通过以上重构，你的爬虫即可稳定、清晰地遍历全部 URL，并将每个页面中匹配的网站链接逐行写入 Websites.txt。

Python虚拟环境问题排查_依赖隔离实践

Python 中 f-string 内嵌字典索引的语法陷阱与正确写法

如何正确从 MinIO（S3 兼容对象存储）读取 Zarr 数据集

Python单元测试怎么写_unittest与pytest对比

Python学习路线规划_Python进阶学习指南

相关标签:

python html ai 爬虫数据清洗作用域架构 beautifulsoup if for try 循环并发作用域 http 重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何修复Python中列表append后为空的问题？下一篇：解析 Python 类型字符串以提取泛型参数（如 Tuple 中的子类型）

作者最新文章

如何在 GStreamer 中动态切换音频文件源路径而不重建管道

2026-03-06 13:28

如何在 Go 中解析 JSON 数组并遍历提取每个元素值

2026-03-06 13:36

勇者联盟公认最强职业是什么勇者联盟最强职业排行

2026-03-06 13:36

如何在 Go 程序中自动触发 Windows UAC 提权提示

2026-03-06 13:50

实现 Flask 应用中的图片懒加载（Lazy Loading）

2026-03-06 14:05

Angular 中按钮点击区域失效问题的解决方案

2026-03-06 14:11

如何在用户输入内容后自动添加换行符

2026-03-06 14:24

最小操作次数使数组严格递增：基于下降点的高效算法

2026-03-06 14:46

GoClipse 插件中无法显示代码大纲（Outline）的解决方案

2026-03-06 15:03

构建复合业务控制器的正确方式：分离关注点，用服务层协调多模型操作

2026-03-06 15:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

845

2023.08.22

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

491

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

448

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3391

2024.03.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2840

2024.08.16

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

164

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板