如何通过R脚本高效抓取欧洲议会官网议员名单、所属党团及国籍数据?
- 内容介绍
- 文章标签
- 相关推荐
本文共计790个文字,预计阅读时间需要4分钟。
使用rvest包高效爬取欧洲议会(europarl.europa.eu)议会议员名单页面,提取每位议员的姓名、所属党派及国籍信息,并构建为三列数据框。
在实际数据采集任务中,欧洲议会官网(https://www.php.cn/link/2ffe64129ff66819d763ef9148d4c761)是获取议员公开信息的一手权威来源。其意大利语版全名单页(/meps/it/full-list/all)结构清晰,适合用 CSS 选择器定位关键元素。核心挑战在于:.sln-additional-info 类所包裹的文本内容以每名议员占据三行的形式呈现(党团名称、国家、所属政党/联盟),需将其正确拆分为三列。
以下是完整、可复现的 R 解决方案:
library(rvest) library(dplyr) # 1. 抓取网页 url <- "https://www.php.cn/link/2ffe64129ff66819d763ef9148d4c761/it/full-list/all" html <- read_html(url) # 2. 提取议员姓名(位于 div.erpl_title-h4.t-item 中) names <- html %>% html_elements("div.erpl_title-h4.t-item") %>% html_text(trim = TRUE) # 3. 提取附加信息(党团、国家、政党),并按每3行为一组转为矩阵 info_raw <- html %>% html_elements(".sln-additional-info") %>% html_text(trim = TRUE) # 关键步骤:将扁平向量重塑为 n×3 矩阵,按行填充(byrow = TRUE) info_matrix <- matrix(info_raw, ncol = 3, byrow = TRUE, dimnames = list(NULL, c("Group", "Country", "Party"))) # 4. 合并为数据框(推荐优于 cbind 的方式,确保类型安全) df <- tibble( Name = names, Group = info_matrix[, "Group"], Country = info_matrix[, "Country"], Party = info_matrix[, "Party"] ) # 查看前6行结果 head(df)
✅ 输出示例(精简):
# A tibble: 6 × 4 Name Group Country Party <chr> <chr> <chr> <chr> 1 Magdalena ADAMOWICZ Gruppo del Partito popolare europeo (Democratici… Polonia Independent 2 Asim ADEMOV Gruppo del Partito popolare europeo (Democratici… Bulgaria Citizens for European Development of Bulgaria 3 Isabella ADINOLFI Gruppo del Partito popolare europeo (Democratici… Italia Forza Italia ...
⚠️ 注意事项与最佳实践:
- 反爬提示:该页面无严格反爬机制,但建议添加 Sys.sleep(0.5) 避免高频请求;如需大规模采集,应遵守 robots.txt 并考虑使用 httr2::req_delay() 设置请求间隔。
- 语言版本影响:当前代码依赖意大利语页面(/it/),若切换至英语(/en/)或法语(/fr/),CSS 类名保持一致,但文本内容语言会变化,不影响结构解析。
- 容错增强:实际部署时,建议加入 tryCatch() 处理网络异常,并校验 length(names) == nrow(info_matrix),防止因页面结构微调导致错位。
- 后续处理:返回的 Group 列含冗长党团全称(如 "Gruppo dell'Alleanza progressista..."),可借助 stringr::str_replace_all() 建立映射表进行标准化缩写(如 "S&D")。
通过以上方法,你可在数秒内获取全部 MEPs 的结构化基础信息,为后续的政治倾向分析、跨国比较或可视化提供高质量数据基础。
本文共计790个文字,预计阅读时间需要4分钟。
使用rvest包高效爬取欧洲议会(europarl.europa.eu)议会议员名单页面,提取每位议员的姓名、所属党派及国籍信息,并构建为三列数据框。
在实际数据采集任务中,欧洲议会官网(https://www.php.cn/link/2ffe64129ff66819d763ef9148d4c761)是获取议员公开信息的一手权威来源。其意大利语版全名单页(/meps/it/full-list/all)结构清晰,适合用 CSS 选择器定位关键元素。核心挑战在于:.sln-additional-info 类所包裹的文本内容以每名议员占据三行的形式呈现(党团名称、国家、所属政党/联盟),需将其正确拆分为三列。
以下是完整、可复现的 R 解决方案:
library(rvest) library(dplyr) # 1. 抓取网页 url <- "https://www.php.cn/link/2ffe64129ff66819d763ef9148d4c761/it/full-list/all" html <- read_html(url) # 2. 提取议员姓名(位于 div.erpl_title-h4.t-item 中) names <- html %>% html_elements("div.erpl_title-h4.t-item") %>% html_text(trim = TRUE) # 3. 提取附加信息(党团、国家、政党),并按每3行为一组转为矩阵 info_raw <- html %>% html_elements(".sln-additional-info") %>% html_text(trim = TRUE) # 关键步骤:将扁平向量重塑为 n×3 矩阵,按行填充(byrow = TRUE) info_matrix <- matrix(info_raw, ncol = 3, byrow = TRUE, dimnames = list(NULL, c("Group", "Country", "Party"))) # 4. 合并为数据框(推荐优于 cbind 的方式,确保类型安全) df <- tibble( Name = names, Group = info_matrix[, "Group"], Country = info_matrix[, "Country"], Party = info_matrix[, "Party"] ) # 查看前6行结果 head(df)
✅ 输出示例(精简):
# A tibble: 6 × 4 Name Group Country Party <chr> <chr> <chr> <chr> 1 Magdalena ADAMOWICZ Gruppo del Partito popolare europeo (Democratici… Polonia Independent 2 Asim ADEMOV Gruppo del Partito popolare europeo (Democratici… Bulgaria Citizens for European Development of Bulgaria 3 Isabella ADINOLFI Gruppo del Partito popolare europeo (Democratici… Italia Forza Italia ...
⚠️ 注意事项与最佳实践:
- 反爬提示:该页面无严格反爬机制,但建议添加 Sys.sleep(0.5) 避免高频请求;如需大规模采集,应遵守 robots.txt 并考虑使用 httr2::req_delay() 设置请求间隔。
- 语言版本影响:当前代码依赖意大利语页面(/it/),若切换至英语(/en/)或法语(/fr/),CSS 类名保持一致,但文本内容语言会变化,不影响结构解析。
- 容错增强:实际部署时,建议加入 tryCatch() 处理网络异常,并校验 length(names) == nrow(info_matrix),防止因页面结构微调导致错位。
- 后续处理:返回的 Group 列含冗长党团全称(如 "Gruppo dell'Alleanza progressista..."),可借助 stringr::str_replace_all() 建立映射表进行标准化缩写(如 "S&D")。
通过以上方法,你可在数秒内获取全部 MEPs 的结构化基础信息,为后续的政治倾向分析、跨国比较或可视化提供高质量数据基础。

