答案:JavaScript通过DOM操作获取HTML内容,Python则用requests或Selenium等库抓取。具体为:1. JavaScript使用outerHTML、innerHTML等属性获取页面或元素内容;2. Python用requests获取静态页面源码,Selenium或Playwright获取动态渲染内容;3. 配合BeautifulSoup解析提取数据。

脚本获取HTML内容的方法取决于使用的语言和运行环境。以下是JavaScript和Python中常用的方式,适用于不同场景如网页开发、爬虫或自动化操作。
JavaScript 获取 HTML 内容
在浏览器环境中,JavaScript 可直接操作 DOM 来获取页面内容。
1. 获取整个页面的 HTML使用 document.documentElement.outerHTML 可获取完整的页面结构:
const htmlContent = document.documentElement.outerHTML;
立即学习“Java免费学习笔记(深入)”;
2. 获取某个元素内的 HTML用 innerHTML 获取指定元素内部的 HTML 字符串:
const divHtml = document.getElementById('myDiv').innerHTML;
使用 outerHTML 包括元素自身:
const fullElementHtml = document.getElementById('myDiv').outerHTML;
通过 fetch 请求获取远程 HTML 片段:
fetch('/page.html')
.then(response => response.text())
.then(html => {
console.log(html);
});
Python 获取 HTML 内容
Python 通常用于服务器端或爬虫,需借助第三方库发送请求并解析响应。
1. 使用 requests 库获取网页源码最常见方式是通过 requests.get() 获取目标页面的 HTML 源代码:
import requests2. 处理动态渲染页面(含 JavaScript)
url = 'https://example.com'
response = requests.get(url)
html_content = response.text
若页面内容由 JS 动态生成,requests 无法获取渲染后的内容,应使用 Selenium 或 Playwright。
Selenium 示例:
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://example.com')
html_content = driver.page_source
driver.quit()
Playwright 示例(推荐,更现代高效):
from playwright.sync_api import sync_playwright3. 解析 HTML 结构(可选)
with sync_playwright() as p:
browser = p.chromium.launch()
page = browser.new_page()
page.goto('https://example.com')
html_content = page.content()
browser.close()
获取 HTML 后,可用 BeautifulSoup 提取特定部分:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
title = soup.find('title').text
选择合适方法的关键点
根据实际需求决定使用哪种方式:
- 静态页面 → Python + requests
- JS 渲染页面 → Selenium / Playwright
- 浏览器内脚本 → JavaScript DOM API
- 需要提取结构化数据 → 配合 BeautifulSoup 或 lxml











