如何正确批量下载 ArcGIS 页面中动态生成的 .zip 文件链接

碧海醫心

发布时间：2026-02-02 11:34:01

549人浏览过

来源于php中文网

原创

如何正确批量下载 ArcGIS 页面中动态生成的 .zip 文件链接

本文详解为何直接用 beautifulsoup 解析 arcgis 页面无法获取 `.zip` 下载链接，并提供基于其官方 rest api 的可靠替代方案，含完整可运行代码与关键注意事项。

ArcGIS Online 页面（如 arcgis.com/home/item.html）通常不直接在 HTML 源码中硬编码下载链接，而是通过 JavaScript 动态加载数据（例如从 FeatureServer 查询结果中提取 ContoursURL 字段）。因此，你原始代码中使用 BeautifulSoup 解析静态 HTML 并查找标签的方式必然失败——页面源码里根本不存在这些 .zip 链接，导致 soup.find_all("a", href=True) 返回空列表，控制台自然打印空白。

正确的做法是绕过前端渲染，直连 ArcGIS 的后端 REST API，按逻辑链路分步获取真实资源 URL：

解析页面 ID：从目标 URL 提取 id 参数（如 a5248eb6412648ec8cbd46838adb86e9）；
查询组织信息：调用 /sharing/rest/content/items/{id} 获取 orgId；
构造 FeatureServer 查询地址：结合 orgId 和已知服务路径（需根据实际页面结构推断或检查浏览器开发者工具 Network 面板）；
发起查询请求：传入标准参数（如 where=1=1, outFields=*），返回 JSON 格式特征数据；
提取 ZIP 链接字段：遍历 data["features"]，读取每个要素的 attributes["ContoursURL"]（字段名依实际 API 响应而定）。

以下是整合优化后的完整可执行脚本（含错误处理与下载功能）：

PPT.AI

AI PPT制作工具

下载

import os
import re
import requests
from urllib.parse import urlparse

def get_id(url):
    """从 ArcGIS URL 中安全提取 item ID"""
    match = re.search(r"id=([a-f0-9]+)", url)
    if not match:
        raise ValueError("Invalid ArcGIS URL: missing 'id' parameter")
    return match.group(1)

def download_zip_files(zip_urls, download_dir="downloads"):
    """批量下载 ZIP 文件到指定目录"""
    os.makedirs(download_dir, exist_ok=True)

    for i, url in enumerate(zip_urls, 1):
        try:
            # 生成安全文件名（避免非法字符）
            parsed = urlparse(url)
            filename = os.path.basename(parsed.path) or f"file_{i}.zip"
            filepath = os.path.join(download_dir, filename)

            print(f"[{i}/{len(zip_urls)}] Downloading: {filename}")
            with requests.get(url, stream=True) as r:
                r.raise_for_status()
                with open(filepath, "wb") as f:
                    for chunk in r.iter_content(chunk_size=8192):
                        f.write(chunk)
            print(f"✓ Saved to: {filepath}")
        except Exception as e:
            print(f"✗ Failed to download {url}: {e}")

# === 主流程 ===
base_url = "https://www.arcgis.com/home/item.html?id=a5248eb6412648ec8cbd46838adb86e9#data"
id_ = get_id(base_url)

# Step 1: 获取 orgId
api_url = f"https://www.arcgis.com/sharing/rest/content/items/{id_}?f=json"
response = requests.get(api_url)
response.raise_for_status()
data = response.json()
org_id = data.get("orgId")
if not org_id:
    raise RuntimeError("Failed to retrieve 'orgId' from ArcGIS item metadata")

# Step 2: 构造 FeatureServer 查询 URL（此处为示例路径，实际需根据页面 Network 面板确认）
feature_service_url = f"https://services1.arcgis.com/{org_id}/arcgis/rest/services/Statewide_Contours/FeatureServer/0/query"

# Step 3: 发起查询（注意：参数需匹配服务实际支持的字段）
params = {
    "f": "json",
    "where": "1=1",
    "returnGeometry": "false",
    "outFields": "*",
    "resultOffset": "0",
    "resultRecordCount": "1000",  # 避免单次请求过大，可分页处理
    "cacheHint": "true"
}

response = requests.get(feature_service_url, params=params)
response.raise_for_status()
data = response.json()

if "features" not in data:
    raise RuntimeError(f"No features found in API response. Response: {data}")

# Step 4: 提取所有 ZIP 链接（字段名需根据实际响应调整）
zip_urls = []
for feature in data["features"]:
    attrs = feature.get("attributes", {})
    url = attrs.get("ContoursURL")  # ⚠️ 关键：此字段名必须与 API 实际返回一致！
    if url and url.lower().endswith(".zip"):
        zip_urls.append(url)

print(f"\n✅ Found {len(zip_urls)} .zip URLs:")
for i, url in enumerate(zip_urls[:5], 1):  # 仅显示前5条预览
    print(f"  {i}. {url}")
if len(zip_urls) > 5:
    print(f"  ... and {len(zip_urls)-5} more")

# Step 5: 执行下载（取消注释下一行启用下载）
# download_zip_files(zip_urls, download_dir="ks_contours_zips")

关键注意事项：

? 字段名验证："ContoursURL" 是本例中的字段名，必须通过浏览器开发者工具 → Network → 查看实际 API 响应 JSON 结构确认，不同数据集字段名可能为 "DownloadURL"、"FileLink" 等；
? 服务路径推断：FeatureServer/0/query 路径需根据页面实际加载的服务确定（常见于 Network 标签中以 query? 结尾的请求）；
⚙️ 分页处理：若数据量大（>1000 条），需循环请求 resultOffset + resultRecordCount 实现分页；
?️ 权限与限流：部分 ArcGIS 服务需 token 认证或存在请求频率限制，生产环境建议添加重试机制与延时；
? 路径安全：Windows 路径中避免空格（如原代码 "C: My Drive" 应改为 "C:/MyDrive" 或使用原始字符串 r"C:\MyDrive"）。

通过 API 直连方式，你将获得稳定、可预测且可扩展的批量下载能力——这正是现代 Web 数据采集的正确范式。

Django教程：使用AJAX将JavaScript游戏分数传输并存储到后端模型

FastAPI与HTMX集成：精确解析JSON响应并局部更新HTML内容

python 怎么调用js

在Qt QML应用中利用Python字典动态更新TextEdit控件内容

利用AJAX将JavaScript游戏分数集成至Django模型：一份实践指南

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

424

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

537

2023.08.23

jquery怎么操作json

操作的方法有：1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”；3、“$.each(obj, callback)”；4、“$.ajax()”。更多jquery怎么操作json的详细内容，可以访问本专题下面的文章。

313

2023.10.13

go语言处理json数据方法

本专题整合了go语言中处理json数据方法，阅读专题下面的文章了解更多详细内容。

2025.09.10

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6246

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

825

2023.09.14