如何使用 R 从欧洲议会官网批量抓取议员姓名、党团与国籍信息

碧海醫心

发布时间：2026-02-08 09:20:36

563人浏览过

来源于php中文网

原创

如何使用 R 从欧洲议会官网批量抓取议员姓名、党团与国籍信息

本文介绍如何利用 rvest 包高效爬取欧洲议会（europarl.europa.eu）议员全名单页面，精准提取每位议员的姓名、所属党团及国籍信息，并结构化为三列数据框。

在实际数据采集任务中，欧洲议会官网（https://www.php.cn/link/2ffe64129ff66819d763ef9148d4c761）是获取议员公开信息的一手权威来源。其意大利语版全名单页（/meps/it/full-list/all）结构清晰，适合用 CSS 选择器定位关键元素。核心挑战在于：.sln-additional-info 类所包裹的文本内容以每名议员占据三行的形式呈现（党团名称、国家、所属政党/联盟），需将其正确拆分为三列。

以下是完整、可复现的 R 解决方案：

library(rvest)
library(dplyr)

# 1. 抓取网页
url <- "https://www.php.cn/link/2ffe64129ff66819d763ef9148d4c761/it/full-list/all"
html <- read_html(url)

# 2. 提取议员姓名（位于 div.erpl_title-h4.t-item 中）
names <- html %>% 
  html_elements("div.erpl_title-h4.t-item") %>% 
  html_text(trim = TRUE)

# 3. 提取附加信息（党团、国家、政党），并按每3行为一组转为矩阵
info_raw <- html %>% 
  html_elements(".sln-additional-info") %>% 
  html_text(trim = TRUE)

# 关键步骤：将扁平向量重塑为 n×3 矩阵，按行填充（byrow = TRUE）
info_matrix <- matrix(info_raw, ncol = 3, byrow = TRUE, 
                      dimnames = list(NULL, c("Group", "Country", "Party")))

# 4. 合并为数据框（推荐优于 cbind 的方式，确保类型安全）
df <- tibble(
  Name = names,
  Group = info_matrix[, "Group"],
  Country = info_matrix[, "Country"],
  Party = info_matrix[, "Party"]
)

# 查看前6行结果
head(df)

✅ 输出示例（精简）：

HoloPix AI

下载

# A tibble: 6 × 4
  Name                  Group                                                 Country  Party                                      
                                                                                                              
1 Magdalena ADAMOWICZ   Gruppo del Partito popolare europeo (Democratici… Polonia  Independent                                
2 Asim ADEMOV           Gruppo del Partito popolare europeo (Democratici… Bulgaria Citizens for European Development of Bulgaria
3 Isabella ADINOLFI     Gruppo del Partito popolare europeo (Democratici… Italia   Forza Italia                               
...

⚠️ 注意事项与最佳实践：

反爬提示：该页面无严格反爬机制，但建议添加 Sys.sleep(0.5) 避免高频请求；如需大规模采集，应遵守 robots.txt 并考虑使用 httr2::req_delay() 设置请求间隔。
语言版本影响：当前代码依赖意大利语页面（/it/），若切换至英语（/en/）或法语（/fr/），CSS 类名保持一致，但文本内容语言会变化，不影响结构解析。
容错增强：实际部署时，建议加入 tryCatch() 处理网络异常，并校验 length(names) == nrow(info_matrix)，防止因页面结构微调导致错位。
后续处理：返回的 Group 列含冗长党团全称（如 "Gruppo dell'Alleanza progressista..."），可借助 stringr::str_replace_all() 建立映射表进行标准化缩写（如 "S&D"）。

通过以上方法，你可在数秒内获取全部 MEPs 的结构化基础信息，为后续的政治倾向分析、跨国比较或可视化提供高质量数据基础。

如何使用 CSS 属性选择器精准匹配以 __tienda 结尾的 div 元素

Tailwind CSS 中自定义图片尺寸的正确写法

响应式图像缩放：让图片随屏幕尺寸自动等比缩放并保持相对位置

如何让网页中的图片随屏幕缩放自动等比缩放并保持相对位置？

HTML5视频旧版不支持objectpos_版本差异替代方案详解【详解】

相关标签:

css html Length 选择器 https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：html文字大小怎么调_跨平台调html文字大小注意事项指南【指南】下一篇：暂无

作者最新文章

如何优雅地在二维复数数组中找到模最大的复数值（而非仅返回其模长）

2026-02-07 16:36

如何使用 jQuery 基于未选中复选框动态显示/隐藏表格行

2026-02-07 16:36

如何在 Java 应用中为 GridDB 自定义连接端口

2026-02-07 16:49

如何在复杂表达式（如列表推导式）中嵌入 print 语句进行调试

2026-02-07 16:54

Go语言中的生产者-消费者模型：理解无缓冲通道的同步机制

2026-02-07 17:18

如何开通校园一信通卡并绑定

2026-02-07 17:34

高效流式构建与持久化 Polars DataFrame 的最佳实践

2026-02-07 17:58

瑞幸联名三丽鸥什么时候上线

2026-02-07 17:58

Spring 中 Application Scope Bean 的作用域详解

2026-02-07 18:05

如何在 Python 中正确打印 map 对象并实现字符位移加密

2026-02-07 18:09

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度，以便在查询和处理字符串数据时进行操作和判断。需要注意的是length函数计算的是字符串的字符数，而不是字节数。对于多字节字符集，一个字符可能由多个字节组成。因此，length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法，大家可以阅读本专题下面的文章。

931

2023.09.19

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2343

2024.08.16

Golang处理数据库错误教程合集

本专题整合了Golang数据库错误处理方法、技巧、管理策略相关内容，阅读专题下面的文章了解更多详细内容。

2026.02.06

java多线程方法汇总

本专题整合了java多线程面试题、实现函数、执行并发相关内容，阅读专题下面的文章了解更多详细内容。

2026.02.06

1688阿里巴巴货源平台入口与批发采购指南

本专题整理了1688阿里巴巴批发进货平台的最新入口地址与在线采购指南，帮助用户快速找到官方网站入口，了解如何进行批发采购、货源选择以及厂家直销等功能，提升采购效率与平台使用体验。

279

2026.02.06

快手网页版入口与电脑端使用指南快手官方短视频观看入口

本专题汇总了快手网页版的最新入口地址和电脑版使用方法，详细提供快手官网直接访问链接、网页端操作教程，以及如何无需下载安装直接观看短视频的方式，帮助用户轻松浏览和观看快手短视频内容。

147

2026.02.06

C# 多线程与异步编程

本专题深入讲解 C# 中多线程与异步编程的核心概念与实战技巧，包括线程池管理、Task 类的使用、async/await 异步编程模式、并发控制与线程同步、死锁与竞态条件的解决方案。通过实际项目，帮助开发者掌握如何在 C# 中构建高并发、低延迟的异步系统，提升应用性能和响应速度。

2026.02.06

Python 微服务架构与 FastAPI 框架

本专题系统讲解 Python 微服务架构设计与 FastAPI 框架应用，涵盖 FastAPI 的快速开发、路由与依赖注入、数据模型验证、API 文档自动生成、OAuth2 与 JWT 身份验证、异步支持、部署与扩展等。通过实际案例，帮助学习者掌握使用 FastAPI 构建高效、可扩展的微服务应用，提高服务响应速度与系统可维护性。

2026.02.06