0

0

如何正确批量下载 ArcGIS 页面中动态生成的 .zip 文件链接

碧海醫心

碧海醫心

发布时间:2026-02-02 11:34:01

|

549人浏览过

|

来源于php中文网

原创

如何正确批量下载 ArcGIS 页面中动态生成的 .zip 文件链接

本文详解为何直接用 beautifulsoup 解析 arcgis 页面无法获取 `.zip` 下载链接,并提供基于其官方 rest api 的可靠替代方案,含完整可运行代码与关键注意事项。

ArcGIS Online 页面(如 arcgis.com/home/item.html)通常不直接在 HTML 源码中硬编码下载链接,而是通过 JavaScript 动态加载数据(例如从 FeatureServer 查询结果中提取 ContoursURL 字段)。因此,你原始代码中使用 BeautifulSoup 解析静态 HTML 并查找 标签的方式必然失败——页面源码里根本不存在这些 .zip 链接,导致 soup.find_all("a", href=True) 返回空列表,控制台自然打印空白。

正确的做法是绕过前端渲染,直连 ArcGIS 的后端 REST API,按逻辑链路分步获取真实资源 URL:

  1. 解析页面 ID:从目标 URL 提取 id 参数(如 a5248eb6412648ec8cbd46838adb86e9);
  2. 查询组织信息:调用 /sharing/rest/content/items/{id} 获取 orgId;
  3. 构造 FeatureServer 查询地址:结合 orgId 和已知服务路径(需根据实际页面结构推断或检查浏览器开发者工具 Network 面板);
  4. 发起查询请求:传入标准参数(如 where=1=1, outFields=*),返回 JSON 格式特征数据;
  5. 提取 ZIP 链接字段:遍历 data["features"],读取每个要素的 attributes["ContoursURL"](字段名依实际 API 响应而定)。

以下是整合优化后的完整可执行脚本(含错误处理与下载功能):

PPT.AI
PPT.AI

AI PPT制作工具

下载
import os
import re
import requests
from urllib.parse import urlparse

def get_id(url):
    """从 ArcGIS URL 中安全提取 item ID"""
    match = re.search(r"id=([a-f0-9]+)", url)
    if not match:
        raise ValueError("Invalid ArcGIS URL: missing 'id' parameter")
    return match.group(1)

def download_zip_files(zip_urls, download_dir="downloads"):
    """批量下载 ZIP 文件到指定目录"""
    os.makedirs(download_dir, exist_ok=True)

    for i, url in enumerate(zip_urls, 1):
        try:
            # 生成安全文件名(避免非法字符)
            parsed = urlparse(url)
            filename = os.path.basename(parsed.path) or f"file_{i}.zip"
            filepath = os.path.join(download_dir, filename)

            print(f"[{i}/{len(zip_urls)}] Downloading: {filename}")
            with requests.get(url, stream=True) as r:
                r.raise_for_status()
                with open(filepath, "wb") as f:
                    for chunk in r.iter_content(chunk_size=8192):
                        f.write(chunk)
            print(f"✓ Saved to: {filepath}")
        except Exception as e:
            print(f"✗ Failed to download {url}: {e}")

# === 主流程 ===
base_url = "https://www.arcgis.com/home/item.html?id=a5248eb6412648ec8cbd46838adb86e9#data"
id_ = get_id(base_url)

# Step 1: 获取 orgId
api_url = f"https://www.arcgis.com/sharing/rest/content/items/{id_}?f=json"
response = requests.get(api_url)
response.raise_for_status()
data = response.json()
org_id = data.get("orgId")
if not org_id:
    raise RuntimeError("Failed to retrieve 'orgId' from ArcGIS item metadata")

# Step 2: 构造 FeatureServer 查询 URL(此处为示例路径,实际需根据页面 Network 面板确认)
feature_service_url = f"https://services1.arcgis.com/{org_id}/arcgis/rest/services/Statewide_Contours/FeatureServer/0/query"

# Step 3: 发起查询(注意:参数需匹配服务实际支持的字段)
params = {
    "f": "json",
    "where": "1=1",
    "returnGeometry": "false",
    "outFields": "*",
    "resultOffset": "0",
    "resultRecordCount": "1000",  # 避免单次请求过大,可分页处理
    "cacheHint": "true"
}

response = requests.get(feature_service_url, params=params)
response.raise_for_status()
data = response.json()

if "features" not in data:
    raise RuntimeError(f"No features found in API response. Response: {data}")

# Step 4: 提取所有 ZIP 链接(字段名需根据实际响应调整)
zip_urls = []
for feature in data["features"]:
    attrs = feature.get("attributes", {})
    url = attrs.get("ContoursURL")  # ⚠️ 关键:此字段名必须与 API 实际返回一致!
    if url and url.lower().endswith(".zip"):
        zip_urls.append(url)

print(f"\n✅ Found {len(zip_urls)} .zip URLs:")
for i, url in enumerate(zip_urls[:5], 1):  # 仅显示前5条预览
    print(f"  {i}. {url}")
if len(zip_urls) > 5:
    print(f"  ... and {len(zip_urls)-5} more")

# Step 5: 执行下载(取消注释下一行启用下载)
# download_zip_files(zip_urls, download_dir="ks_contours_zips")

关键注意事项:

  • ? 字段名验证:"ContoursURL" 是本例中的字段名,必须通过浏览器开发者工具 → Network → 查看实际 API 响应 JSON 结构确认,不同数据集字段名可能为 "DownloadURL"、"FileLink" 等;
  • ? 服务路径推断:FeatureServer/0/query 路径需根据页面实际加载的服务确定(常见于 Network 标签中以 query? 结尾的请求);
  • ⚙️ 分页处理:若数据量大(>1000 条),需循环请求 resultOffset + resultRecordCount 实现分页;
  • ?️ 权限与限流:部分 ArcGIS 服务需 token 认证或存在请求频率限制,生产环境建议添加重试机制与延时;
  • ? 路径安全:Windows 路径中避免空格(如原代码 "C: My Drive" 应改为 "C:/MyDrive" 或使用原始字符串 r"C:\MyDrive")。

通过 API 直连方式,你将获得稳定、可预测且可扩展的批量下载能力——这正是现代 Web 数据采集的正确范式。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

424

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

537

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

313

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

77

2025.09.10

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6246

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

825

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1072

2023.12.21

AO3官网入口与中文阅读设置 AO3网页版使用与访问
AO3官网入口与中文阅读设置 AO3网页版使用与访问

本专题围绕 Archive of Our Own(AO3)官网入口展开,系统整理 AO3 最新可用官网地址、网页版访问方式、正确打开链接的方法,并详细讲解 AO3 中文界面设置、阅读语言切换及基础使用流程,帮助用户稳定访问 AO3 官网,高效完成中文阅读与作品浏览。

5

2026.02.02

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 4.5万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.6万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号