如何使用 Python 逐行读取并解析 URL 列表中的每个网页

聖光之護

发布时间：2026-01-17 14:07:17

524人浏览过

来源于php中文网

原创

如何使用 Python 逐行读取并解析 URL 列表中的每个网页

本文详解如何修正 `readlines()` 后仅处理最后一个 url 的常见错误，通过将请求与解析逻辑正确嵌入 for 循环，实现对文本文件中所有 url 的批量抓取与结构化提取。

在使用 file.readlines() 读取 URL 列表时，一个典型误区是将 requests.get()、BeautifulSoup 解析及文件写入等核心逻辑写在循环外部——这会导致只有最后一次迭代赋值的 url（即列表末尾的 URL）被实际处理。你提供的代码中，for link in linksList: url = link 仅更新变量，而后续的 requests.get(url) 等操作却位于循环之外，因此只执行一次，且作用于最后一个链接。

✅ 正确做法是：将整个 HTTP 请求、状态校验、HTML 解析和结果写入逻辑全部包裹在 for 循环内，确保每个 URL 独立完成完整流程。

以下是优化后的完整可运行代码（含关键改进说明）：

import requests
from bs4 import BeautifulSoup

def news():
    # 使用 with 语句安全打开文件，自动关闭
    with open('list.txt', 'r', encoding='utf-8') as f:
        links_list = [line.strip() for line in f if line.strip()]  # 去除换行符和空行

    # 为每个 URL 单独处理
    for link in links_list:
        print(f"Processing: {link}")

        try:
            # 发起 GET 请求（建议添加超时和 headers 防止被拒）
            resp = requests.get(link, timeout=10, headers={
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
            })

            if resp.status_code == 200:
                soup = BeautifulSoup(resp.text, 'html.parser')

                # 查找目标 div 容器（注意：若页面无此结构，find 返回 None）
                container = soup.find("div", {"class": "m-exhibitor-entry__item__body__contacts__additional__website"})
                if container:
                    # 提取所有 <a> 标签的文本内容
                    websites = [a.get_text(strip=True) for a in container.find_all("a")]
                    if websites:
                        # 追加写入结果文件（每 URL 结果后加空行便于区分）
                        with open("Websites.txt", "a", encoding='utf-8') as out_f:
                            out_f.write(f"# Source: {link}\n")
                            out_f.writelines(f"{site}\n" for site in websites)
                            out_f.write("\n")
                        print(f"✓ Extracted {len(websites)} website(s) from {link}")
                    else:
                        print(f"⚠ No <a> tags found in target div at {link}")
                else:
                    print(f"⚠ Target div not found at {link}")
            else:
                print(f"✗ HTTP {resp.status_code} for {link}")

        except requests.exceptions.RequestException as e:
            print(f"❌ Request failed for {link}: {e}")
        except Exception as e:
            print(f"❌ Unexpected error parsing {link}: {e}")

if __name__ == "__main__":
    news()

? 关键改进点说明：

图酷AI

下载即用！可以免费使用的AI图像处理工具，致力于为用户提供最先进的AI图像处理技术，让图像编辑变得简单高效。

下载

立即学习“Python免费学习笔记（深入）”；

✅ 循环范围正确：所有网络请求与解析逻辑均在 for link in links_list: 内部，确保每个 URL 被独立处理；
✅ 健壮性增强：添加 try/except 捕获网络异常（如超时、连接拒绝）和解析异常（如目标元素不存在）；
✅ 资源安全：使用 with open() 自动管理文件句柄，避免文件未关闭风险；
✅ 数据清洗：line.strip() 去除每行末尾换行符及首尾空白，if line.strip() 过滤空行；
✅ 可读性优化：为每个 URL 的结果添加来源注释（# Source: ...），便于后期溯源；
✅ 反爬基础防护：设置 User-Agent 头，降低被服务器拦截概率。

⚠️ 注意事项：

若 list.txt 中的 URL 包含多余空格或换行符（如 https://example.com\n），不清理会直接导致 requests.get() 报错；
目标 HTML 结构（如 div.m-exhibitor-entry__item__body__contacts__additional__website）可能随网站改版失效，建议先用 print(soup.prettify()[:1000]) 调试确认实际 DOM；
高频请求可能触发反爬机制，生产环境应添加 time.sleep(1) 间隔，并考虑使用代理池或异步请求（如 aiohttp）提升效率。

通过以上重构，你的爬虫将真正实现「一链一解析」，稳定高效地批量提取多页面中的结构化链接数据。

Python函数异常传播规则_异常冒泡机制说明

Python常见报错汇总_NameError解决方法

Python线程池与进程池区别_并发选择策略

Python输入参数校验_防御式编程技巧

Python解释器执行原理_源码到字节码流程

相关标签:

python html windows ai win apple 爬虫数据清洗 beautifulsoup print if for try 循环 dom 异步 http https 重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何强制退出异步上下文管理器下一篇：如何绕过纽约时报的 JavaScript 验证，高效提取文章正文内容

作者最新文章

MagicAgent— 荣耀联合复旦推出的智能体基础模型

2026-03-06 13:18

实现水平滚动后无法垂直返回顶部的问题修复方案

2026-03-06 13:26

Python 中按命名规则批量加载并分组处理图像数据集的完整教程

2026-03-06 13:36

CSS 文件覆盖问题解析：加载顺序、选择器权重与字体资源一致性

2026-03-06 13:49

Highcharts 世界地图钻取后回退时视角错乱的解决方案

2026-03-06 13:53

JavaScript 中按指定属性分离唯一项与重复项的高效实现

2026-03-06 14:03

JavaScript 数组按指定属性分离唯一项与重复项的实用方法

2026-03-06 14:07

Python脚本高效解析专有配置文件为CSV格式

2026-03-06 14:09

Laravel 5.5 注册成功后自定义跳转路径的完整配置指南

2026-03-06 14:11

R503指纹传感器与树莓派通信失败的排查与解决指南

2026-03-06 14:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容，供大家免费下载体验。

192

2023.09.27

python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容，阅读专题下面的文章了解更多详细教程。

2026.02.03

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

845

2023.08.22

DOM是什么意思

dom的英文全称是documentobjectmodel，表示文件对象模型，是w3c组织推荐的处理可扩展置标语言的标准编程接口；dom是html文档的内存中对象表示，它提供了使用javascript与网页交互的方式。想了解更多的相关内容，可以阅读本专题下面的文章。

4219

2024.08.14

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

491

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

448

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3393

2024.03.12

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板