Python动态网页抓取需Selenium与requests结合:Selenium处理JS渲染、登录验证等交互,requests高效调用API获取数据。关键在于用Selenium提取Cookie、Token等参数后交由requests批量请求,兼顾真实性与效率。

Python动态网页抓取不能只靠requests,因为很多页面内容由JavaScript异步加载,requests拿不到渲染后的HTML。这时候需要Selenium驱动浏览器模拟真实访问,再配合requests高效处理后续请求(如接口、图片、文件等),两者结合才能兼顾“可执行性”和“效率”。
用Selenium获取渲染后的真实HTML
启动浏览器(推荐Chrome + ChromeDriver),打开目标网址,等待关键元素出现后再提取页面源码。注意显式等待比time.sleep()更可靠。
- 安装:pip install selenium
- 下载对应版本的chromedriver,并确保它在PATH中或指定绝对路径
- 示例关键代码:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
driver = webdriver.Chrome()
driver.get("https://example.com")
# 等待某个class为"content"的div加载完成
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, "content")))
html = driver.page_source # 此时html含JS渲染后的内容
driver.quit()
从Selenium中提取请求参数,交给requests发接口
有些动态页的数据来自XHR接口(比如列表分页、评论、商品详情)。与其让Selenium反复点击翻页,不如用它先登录/触发一次,再从Network面板或页面源码中分析出API地址、headers、cookies、token等,转而用requests批量调用——速度快、资源省、易调试。
- 用
driver.get_cookies()获取当前会话cookie,传给requests.Session() - 用
driver.execute_script("return window.localStorage.getItem('token')")读取前端存储的认证信息 - 查看浏览器开发者工具→Network→XHR,找带数据的请求,右键“Copy as cURL”,再用在线工具转成requests代码(如curlconverter)
混合策略:Selenium只做“必要动作”,requests负责“大量数据”
典型场景如登录后爬商品列表:Selenium完成输入账号密码、点登录、过滑块验证;登录成功后,用requests直接调用商品API(带Cookie和Token),避免Selenium逐页跳转、解析DOM。
立即学习“Python免费学习笔记(深入)”;
- 登录后用
driver.current_url确认跳转成功,再用driver.get_cookie("sessionid")提取关键凭证 - 构造requests会话:
s = requests.Session()
for cookie in driver.get_cookies():
s.cookies.set(cookie['name'], cookie['value'])
resp = s.get("https://api.example.com/items?page=2", headers={"User-Agent": "Mozilla/5.0..."}) - 若接口需签名或时间戳,可在Selenium中执行JS生成(
driver.execute_script("return generateSign(...)")),再传给requests
注意事项与避坑点
两者结合不是简单拼接,要注意上下文一致性与反爬适配。
- Selenium默认User-Agent较明显,建议启动时加参数伪装:
options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) ...") - requests无法自动执行JS,所以不能替代Selenium处理验证码、Canvas指纹、WebGL检测等强对抗逻辑
- 关闭Selenium的图片加载可提速:
options.add_argument("--blink-settings=imagesEnabled=false") - 频繁启停浏览器开销大,建议复用driver实例,或用无头模式+连接池管理










