
本文介绍如何利用 rvest 包高效爬取欧洲议会(europarl.europa.eu)议员全名单页面,精准提取每位议员的姓名、所属党团及国籍信息,并结构化为三列数据框。
在实际数据采集任务中,欧洲议会官网(https://www.php.cn/link/2ffe64129ff66819d763ef9148d4c761)是获取议员公开信息的一手权威来源。其意大利语版全名单页(/meps/it/full-list/all)结构清晰,适合用 CSS 选择器定位关键元素。核心挑战在于:.sln-additional-info 类所包裹的文本内容以每名议员占据三行的形式呈现(党团名称、国家、所属政党/联盟),需将其正确拆分为三列。
以下是完整、可复现的 R 解决方案:
library(rvest)
library(dplyr)
# 1. 抓取网页
url <- "https://www.php.cn/link/2ffe64129ff66819d763ef9148d4c761/it/full-list/all"
html <- read_html(url)
# 2. 提取议员姓名(位于 div.erpl_title-h4.t-item 中)
names <- html %>%
html_elements("div.erpl_title-h4.t-item") %>%
html_text(trim = TRUE)
# 3. 提取附加信息(党团、国家、政党),并按每3行为一组转为矩阵
info_raw <- html %>%
html_elements(".sln-additional-info") %>%
html_text(trim = TRUE)
# 关键步骤:将扁平向量重塑为 n×3 矩阵,按行填充(byrow = TRUE)
info_matrix <- matrix(info_raw, ncol = 3, byrow = TRUE,
dimnames = list(NULL, c("Group", "Country", "Party")))
# 4. 合并为数据框(推荐优于 cbind 的方式,确保类型安全)
df <- tibble(
Name = names,
Group = info_matrix[, "Group"],
Country = info_matrix[, "Country"],
Party = info_matrix[, "Party"]
)
# 查看前6行结果
head(df)✅ 输出示例(精简):
# A tibble: 6 × 4 Name Group Country Party1 Magdalena ADAMOWICZ Gruppo del Partito popolare europeo (Democratici… Polonia Independent 2 Asim ADEMOV Gruppo del Partito popolare europeo (Democratici… Bulgaria Citizens for European Development of Bulgaria 3 Isabella ADINOLFI Gruppo del Partito popolare europeo (Democratici… Italia Forza Italia ...
⚠️ 注意事项与最佳实践:
- 反爬提示:该页面无严格反爬机制,但建议添加 Sys.sleep(0.5) 避免高频请求;如需大规模采集,应遵守 robots.txt 并考虑使用 httr2::req_delay() 设置请求间隔。
- 语言版本影响:当前代码依赖意大利语页面(/it/),若切换至英语(/en/)或法语(/fr/),CSS 类名保持一致,但文本内容语言会变化,不影响结构解析。
- 容错增强:实际部署时,建议加入 tryCatch() 处理网络异常,并校验 length(names) == nrow(info_matrix),防止因页面结构微调导致错位。
- 后续处理:返回的 Group 列含冗长党团全称(如 "Gruppo dell'Alleanza progressista..."),可借助 stringr::str_replace_all() 建立映射表进行标准化缩写(如 "S&D")。
通过以上方法,你可在数秒内获取全部 MEPs 的结构化基础信息,为后续的政治倾向分析、跨国比较或可视化提供高质量数据基础。










