0

0

如何使用 Python 逐行读取 URL 列表并依次解析每个网页内容

碧海醫心

碧海醫心

发布时间:2026-01-17 15:22:01

|

781人浏览过

|

来源于php中文网

原创

如何使用 Python 逐行读取 URL 列表并依次解析每个网页内容

本文详解如何修正 readlines() 循环逻辑错误,确保 python 脚本对文本文件中每一行 url 都执行独立的 http 请求与 html 解析,避免仅处理最后一行的问题。

你的原始代码中存在一个典型的缩进与作用域错误:for link in linksList: 循环体仅包含 url = link 这一行,后续所有网络请求、解析和写入操作均位于循环外部。因此,url 变量在循环结束后只保留最后一个值,最终仅对该 URL 执行了一次处理。

要实现“逐个解析每个 URL”,必须将整个请求-解析-保存流程完整包裹在 for 循环内。以下是优化后的完整实现(含关键改进说明):

Texta
Texta

AI博客和文章一键生成

下载

✅ 正确结构:循环内完成全流程

import requests
from bs4 import BeautifulSoup

def news():
    # 使用 with 语句安全读取文件(自动关闭)
    with open('list.txt', 'r') as links_file:
        links_list = links_file.readlines()

    # 对每个 URL 执行独立处理
    for link in links_list:
        link = link.strip()  # 去除换行符和首尾空格,避免请求失败
        if not link:  # 跳过空行
            continue

        print(f"Processing: {link}")

        try:
            resp = requests.get(link, timeout=10)
            resp.raise_for_status()  # 抛出非200状态异常

            soup = BeautifulSoup(resp.text, 'html.parser')
            target_div = soup.find("div", {"class": "m-exhibitor-entry__item__body__contacts__additional__website"})

            if target_div:
                # 提取所有 <a> 标签的文本内容
                with open("Websites.txt", "a", encoding="utf-8") as f:
                    for anchor in target_div.find_all("a"):
                        f.write(anchor.get_text(strip=True) + "\n")
                print(f"✓ Extracted from {link}")
            else:
                print(f"⚠ Warning: Target div not found on {link}")

        except requests.exceptions.RequestException as e:
            print(f"✗ Failed to fetch {link}: {e}")
        except Exception as e:
            print(f"✗ Error parsing {link}: {e}")

if __name__ == "__main__":
    news()

? 关键改进点:

  • 缩进修复:全部网络请求、解析、写入逻辑均置于 for 循环内部,确保每轮迭代独立处理一个 URL;
  • 健壮性增强
    • link.strip() 清除 \n 和空格,防止 requests.get("https://...\n") 报错;
    • try/except 捕获网络异常(超时、连接拒绝等)和解析异常;
    • resp.raise_for_status() 主动检查 HTTP 错误状态;
    • 空行跳过与目标元素存在性校验,避免 AttributeError;
  • 资源管理优化
    • 使用 with open(...) 替代手动 open/close,防止文件句柄泄露;
    • 每次写入前重新打开文件("a" 模式),或更推荐:一次性打开写入流(见下方进阶建议);
  • 编码声明:encoding="utf-8" 避免中文等特殊字符写入乱码。

⚠ 注意事项:

  • list.txt 中每行应为一个有效 URL(如 https://www.enlit-europe.com/exhibitors/precept),无需额外符号;
  • 目标网站可能有反爬机制,若频繁请求被拒,请添加 time.sleep(1) 或设置 headers(如 'User-Agent');
  • 若需提升性能,可考虑使用 concurrent.futures.ThreadPoolExecutor 并发请求(注意遵守 robots.txt 及服务条款)。

通过以上重构,你的脚本将真正实现「逐一解析列表中每个 URL」的目标,并具备生产环境所需的稳定性与可维护性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

491

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

448

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3393

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2840

2024.08.16

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2840

2024.08.16

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

28

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

68

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

164

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

84

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号