
本文详解为何直接用 beautifulsoup 解析 arcgis 页面无法获取 `.zip` 下载链接,并提供基于其官方 rest api 的可靠替代方案,含完整可运行代码与关键注意事项。
ArcGIS Online 页面(如 arcgis.com/home/item.html)通常不直接在 HTML 源码中硬编码下载链接,而是通过 JavaScript 动态加载数据(例如从 FeatureServer 查询结果中提取 ContoursURL 字段)。因此,你原始代码中使用 BeautifulSoup 解析静态 HTML 并查找 标签的方式必然失败——页面源码里根本不存在这些 .zip 链接,导致 soup.find_all("a", href=True) 返回空列表,控制台自然打印空白。
正确的做法是绕过前端渲染,直连 ArcGIS 的后端 REST API,按逻辑链路分步获取真实资源 URL:
- 解析页面 ID:从目标 URL 提取 id 参数(如 a5248eb6412648ec8cbd46838adb86e9);
- 查询组织信息:调用 /sharing/rest/content/items/{id} 获取 orgId;
- 构造 FeatureServer 查询地址:结合 orgId 和已知服务路径(需根据实际页面结构推断或检查浏览器开发者工具 Network 面板);
- 发起查询请求:传入标准参数(如 where=1=1, outFields=*),返回 JSON 格式特征数据;
- 提取 ZIP 链接字段:遍历 data["features"],读取每个要素的 attributes["ContoursURL"](字段名依实际 API 响应而定)。
以下是整合优化后的完整可执行脚本(含错误处理与下载功能):
import os
import re
import requests
from urllib.parse import urlparse
def get_id(url):
"""从 ArcGIS URL 中安全提取 item ID"""
match = re.search(r"id=([a-f0-9]+)", url)
if not match:
raise ValueError("Invalid ArcGIS URL: missing 'id' parameter")
return match.group(1)
def download_zip_files(zip_urls, download_dir="downloads"):
"""批量下载 ZIP 文件到指定目录"""
os.makedirs(download_dir, exist_ok=True)
for i, url in enumerate(zip_urls, 1):
try:
# 生成安全文件名(避免非法字符)
parsed = urlparse(url)
filename = os.path.basename(parsed.path) or f"file_{i}.zip"
filepath = os.path.join(download_dir, filename)
print(f"[{i}/{len(zip_urls)}] Downloading: {filename}")
with requests.get(url, stream=True) as r:
r.raise_for_status()
with open(filepath, "wb") as f:
for chunk in r.iter_content(chunk_size=8192):
f.write(chunk)
print(f"✓ Saved to: {filepath}")
except Exception as e:
print(f"✗ Failed to download {url}: {e}")
# === 主流程 ===
base_url = "https://www.arcgis.com/home/item.html?id=a5248eb6412648ec8cbd46838adb86e9#data"
id_ = get_id(base_url)
# Step 1: 获取 orgId
api_url = f"https://www.arcgis.com/sharing/rest/content/items/{id_}?f=json"
response = requests.get(api_url)
response.raise_for_status()
data = response.json()
org_id = data.get("orgId")
if not org_id:
raise RuntimeError("Failed to retrieve 'orgId' from ArcGIS item metadata")
# Step 2: 构造 FeatureServer 查询 URL(此处为示例路径,实际需根据页面 Network 面板确认)
feature_service_url = f"https://services1.arcgis.com/{org_id}/arcgis/rest/services/Statewide_Contours/FeatureServer/0/query"
# Step 3: 发起查询(注意:参数需匹配服务实际支持的字段)
params = {
"f": "json",
"where": "1=1",
"returnGeometry": "false",
"outFields": "*",
"resultOffset": "0",
"resultRecordCount": "1000", # 避免单次请求过大,可分页处理
"cacheHint": "true"
}
response = requests.get(feature_service_url, params=params)
response.raise_for_status()
data = response.json()
if "features" not in data:
raise RuntimeError(f"No features found in API response. Response: {data}")
# Step 4: 提取所有 ZIP 链接(字段名需根据实际响应调整)
zip_urls = []
for feature in data["features"]:
attrs = feature.get("attributes", {})
url = attrs.get("ContoursURL") # ⚠️ 关键:此字段名必须与 API 实际返回一致!
if url and url.lower().endswith(".zip"):
zip_urls.append(url)
print(f"\n✅ Found {len(zip_urls)} .zip URLs:")
for i, url in enumerate(zip_urls[:5], 1): # 仅显示前5条预览
print(f" {i}. {url}")
if len(zip_urls) > 5:
print(f" ... and {len(zip_urls)-5} more")
# Step 5: 执行下载(取消注释下一行启用下载)
# download_zip_files(zip_urls, download_dir="ks_contours_zips")关键注意事项:
- ? 字段名验证:"ContoursURL" 是本例中的字段名,必须通过浏览器开发者工具 → Network → 查看实际 API 响应 JSON 结构确认,不同数据集字段名可能为 "DownloadURL"、"FileLink" 等;
- ? 服务路径推断:FeatureServer/0/query 路径需根据页面实际加载的服务确定(常见于 Network 标签中以 query? 结尾的请求);
- ⚙️ 分页处理:若数据量大(>1000 条),需循环请求 resultOffset + resultRecordCount 实现分页;
- ?️ 权限与限流:部分 ArcGIS 服务需 token 认证或存在请求频率限制,生产环境建议添加重试机制与延时;
- ? 路径安全:Windows 路径中避免空格(如原代码 "C: My Drive" 应改为 "C:/MyDrive" 或使用原始字符串 r"C:\MyDrive")。
通过 API 直连方式,你将获得稳定、可预测且可扩展的批量下载能力——这正是现代 Web 数据采集的正确范式。










