0

0

如何使用 Python 逐行读取并解析 URL 列表中的每个网页

聖光之護

聖光之護

发布时间:2026-01-17 14:07:17

|

524人浏览过

|

来源于php中文网

原创

如何使用 Python 逐行读取并解析 URL 列表中的每个网页

本文详解如何修正 `readlines()` 后仅处理最后一个 url 的常见错误,通过将请求与解析逻辑正确嵌入 for 循环,实现对文本文件中所有 url 的批量抓取与结构化提取。

在使用 file.readlines() 读取 URL 列表时,一个典型误区是将 requests.get()、BeautifulSoup 解析及文件写入等核心逻辑写在循环外部——这会导致只有最后一次迭代赋值的 url(即列表末尾的 URL)被实际处理。你提供的代码中,for link in linksList: url = link 仅更新变量,而后续的 requests.get(url) 等操作却位于循环之外,因此只执行一次,且作用于最后一个链接。

✅ 正确做法是:将整个 HTTP 请求、状态校验、HTML 解析和结果写入逻辑全部包裹在 for 循环内,确保每个 URL 独立完成完整流程。

以下是优化后的完整可运行代码(含关键改进说明):

import requests
from bs4 import BeautifulSoup

def news():
    # 使用 with 语句安全打开文件,自动关闭
    with open('list.txt', 'r', encoding='utf-8') as f:
        links_list = [line.strip() for line in f if line.strip()]  # 去除换行符和空行

    # 为每个 URL 单独处理
    for link in links_list:
        print(f"Processing: {link}")

        try:
            # 发起 GET 请求(建议添加超时和 headers 防止被拒)
            resp = requests.get(link, timeout=10, headers={
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
            })

            if resp.status_code == 200:
                soup = BeautifulSoup(resp.text, 'html.parser')

                # 查找目标 div 容器(注意:若页面无此结构,find 返回 None)
                container = soup.find("div", {"class": "m-exhibitor-entry__item__body__contacts__additional__website"})
                if container:
                    # 提取所有 <a> 标签的文本内容
                    websites = [a.get_text(strip=True) for a in container.find_all("a")]
                    if websites:
                        # 追加写入结果文件(每 URL 结果后加空行便于区分)
                        with open("Websites.txt", "a", encoding='utf-8') as out_f:
                            out_f.write(f"# Source: {link}\n")
                            out_f.writelines(f"{site}\n" for site in websites)
                            out_f.write("\n")
                        print(f"✓ Extracted {len(websites)} website(s) from {link}")
                    else:
                        print(f"⚠ No <a> tags found in target div at {link}")
                else:
                    print(f"⚠ Target div not found at {link}")
            else:
                print(f"✗ HTTP {resp.status_code} for {link}")

        except requests.exceptions.RequestException as e:
            print(f"❌ Request failed for {link}: {e}")
        except Exception as e:
            print(f"❌ Unexpected error parsing {link}: {e}")

if __name__ == "__main__":
    news()

? 关键改进点说明:

图酷AI
图酷AI

下载即用!可以免费使用的AI图像处理工具,致力于为用户提供最先进的AI图像处理技术,让图像编辑变得简单高效。

下载

立即学习Python免费学习笔记(深入)”;

  • 循环范围正确:所有网络请求与解析逻辑均在 for link in links_list: 内部,确保每个 URL 被独立处理;
  • 健壮性增强:添加 try/except 捕获网络异常(如超时、连接拒绝)和解析异常(如目标元素不存在);
  • 资源安全:使用 with open() 自动管理文件句柄,避免文件未关闭风险;
  • 数据清洗:line.strip() 去除每行末尾换行符及首尾空白,if line.strip() 过滤空行;
  • 可读性优化:为每个 URL 的结果添加来源注释(# Source: ...),便于后期溯源;
  • 反爬基础防护:设置 User-Agent 头,降低被服务器拦截概率。

⚠️ 注意事项:

  • 若 list.txt 中的 URL 包含多余空格或换行符(如 https://example.com\n),不清理会直接导致 requests.get() 报错;
  • 目标 HTML 结构(如 div.m-exhibitor-entry__item__body__contacts__additional__website)可能随网站改版失效,建议先用 print(soup.prettify()[:1000]) 调试确认实际 DOM;
  • 高频请求可能触发反爬机制,生产环境应添加 time.sleep(1) 间隔,并考虑使用代理池或异步请求(如 aiohttp)提升效率。

通过以上重构,你的爬虫将真正实现「一链一解析」,稳定高效地批量提取多页面中的结构化链接数据。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

17

2026.02.03

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

845

2023.08.22

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4219

2024.08.14

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

491

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

448

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3393

2024.03.12

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.8万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号