0

0

BeautifulSoup 提取 Genius 歌词不全?原因与完整解决方案

心靈之曲

心靈之曲

发布时间:2026-02-28 11:45:23

|

374人浏览过

|

来源于php中文网

原创

BeautifulSoup 提取 Genius 歌词不全?原因与完整解决方案

使用 BeautifulSoup 解析 Genius 网站歌词时,find() 仅返回首个匹配的 ,而其歌词被拆分在多个 Lyrics__Container 类的 div 中,需改用 find_all() 并合并所有文本。

使用 beautifulsoup 解析 genius 网站歌词时,`find()` 仅返回首个匹配的 `

`,而其歌词被拆分在多个 `lyrics__container` 类的 div 中,需改用 `find_all()` 并合并所有文本。

Genius 网站为提升可维护性与响应式渲染,将长篇歌词(尤其是含 Verse/Chorus/Refrain 等结构化段落)动态拆分为多个

元素,每个均带有以 Lyrics__Container 开头的 CSS 类名(如 Lyrics__Container-sc-13h76k4-0 kxvKfE)。这是关键设计细节——并非 HTML 结构异常,而是有意为之的多容器布局

你原代码中使用:

div = soup.find("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))

find() 方法仅定位并返回第一个匹配的元素,因此只能提取首段(通常为 Verse 1 至 Verse 2),后续容器被完全忽略。

✅ 正确做法是使用 find_all() 获取全部匹配容器,并逐个提取文本后拼接:

phpweb1.0 美化简洁版
phpweb1.0 美化简洁版

phpweb1.0基于php+mysql+smarty开发的企业解决方案,总体感觉简洁快速,适合小型企业的建站方案,也适合初学者学习。 之前发布过phpweb1.0的原始版本,仅提供大家交流和学习,但很多的爱好者提出了一些不足和好评,本不想继续开发1.0,因为2.0已经开发完毕而且构架与1.0完全不同,但是有些使用者喜欢这种简洁和简便,应大家的要求,美化和优化了一些不足之处。后台更加简洁美观。

下载
from bs4 import BeautifulSoup
import re
import requests

song_api_path = '/Taylor-swift-cardigan-lyrics'
page_url = "https://genius.com" + song_api_path  # 注意:应使用 https 而非 http(Genius 强制 HTTPS)
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}  # 避免 403
page = requests.get(page_url, headers=headers)
soup = BeautifulSoup(page.text, "html.parser")

# 查找所有 Lyrics__Container 类的 div(注意:是 find_all,不是 find)
divs = soup.find_all("div", class_=lambda value: value and re.search(r'^Lyrics__Container', value))

# 合并所有容器的文本,用双换行分隔不同段落,增强可读性
all_text = '\n\n'.join(div.get_text(separator='\n').strip() for div in divs)

print(all_text)

? 关键注意事项:

  • 必须用 find_all():确保无遗漏任何容器;
  • 添加 User-Agent 请求头:Genius 会拦截无头浏览器请求(否则可能返回空页或 403 错误);
  • 使用 https:// 协议:http://genius.com 会重定向,但显式使用 HTTPS 更可靠;
  • .strip() 清理每段首尾空白:避免因 HTML 冗余空格导致多余空行;
  • ⚠️ 避免过度依赖正则匹配类名:若未来 Genius 改变类命名规则(如去掉前缀),建议结合更稳定的结构特征(如父容器 ID #lyrics-root 或 data-lyrics-container 属性)做兜底定位。

? 进阶提示:若需保留原始段落语义(如自动识别 [Verse 1]、[Chorus] 标签),可在 get_text() 后辅以正则清洗或使用 div.find_all(['br', 'span', 'a']) 进行结构化提取——但对纯歌词抓取,上述方案已稳定覆盖 99% 场景。

综上,问题本质不是 BeautifulSoup “失效”,而是对目标 DOM 结构理解偏差。掌握 find() 与 find_all() 的语义差异,并结合网站实际 HTML 组织方式,即可高效、鲁棒地提取完整内容。

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

DOM是什么意思
DOM是什么意思

dom的英文全称是documentobjectmodel,表示文件对象模型,是w3c组织推荐的处理可扩展置标语言的标准编程接口;dom是html文档的内存中对象表示,它提供了使用javascript与网页交互的方式。想了解更多的相关内容,可以阅读本专题下面的文章。

4034

2024.08.14

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

482

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

447

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3150

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2733

2024.08.16

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2733

2024.08.16

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

0

2026.02.28

Golang 工程化架构设计:可维护与可演进系统构建
Golang 工程化架构设计:可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则,涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术,帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

1

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号