
本文详解如何使用 beautifulsoup 高效、鲁棒地提取科研文章中作者名与所属单位(affiliation)信息,解决嵌套结构遍历、缺失数据处理及 class 定位失效等常见爬虫难题。
在网页结构化数据抓取中,作者与单位信息常以 和 形式成对或非严格邻接出现。初学者易陷入“暴力遍历所有 ”的误区(如第一段代码),导致 find() 返回 None——根本原因在于:未限定搜索范围,目标元素被大量无关 干扰,且 tar.find(...) 在错误上下文中执行。
正确做法是先定位语义容器,再精准提取。观察目标页面(如 https://rpmgf.pt/.../13494),作者区块实际包裹在
from bs4 import BeautifulSoup, SoupStrainer
import requests
# 仅解析作者区块,跳过整个 DOM 解析
STRAINER = SoupStrainer(name='section', class_='item authors')
def get_author_data(article_id: int) -> list[tuple[str, str | None]]:
url = f"https://rpmgf.pt/ojs/index.php/rpmgf/article/view/{article_id}"
with requests.get(url) as r:
r.raise_for_status()
# 使用 parse_only 显著加速解析
soup = BeautifulSoup(r.text, 'lxml', parse_only=STRAINER)
authors = []
for name_tag in soup.find_all('span', class_='name'):
name = name_tag.get_text(strip=True)
# 在 name_tag 后续兄弟节点中查找最近的 affiliation
affiliation = None
for sibling in name_tag.next_siblings:
if sibling.name == 'span' and 'affiliation' in (sibling.get('class') or []):
affiliation = sibling.get_text(strip=True)
break
elif sibling.name == 'span' and 'name' in (sibling.get('class') or []):
# 遇到下一个作者,说明当前作者无 affiliation
break
authors.append((name, affiliation))
return authors
# 使用示例
for name, aff in get_author_data(13494):
print(f"{name} → {aff or '[无单位]'}")✅ 关键优化点说明:SoupStrainer 过滤无效 HTML,避免内存浪费与误匹配;next_siblings 替代全局 find_all('span', class_='affiliation'),确保 affiliation 与 author 的逻辑归属关系;对 class_ 属性使用 in (sibling.get('class') or []) 安全判断,兼容 class=None 或空列表;get_text(strip=True) 自动清理换行符与多余空格,无需额外 strip()。
对于“部分作者缺失 affiliation”的边界情况(如 article 13545),上述逻辑通过 break 提前终止搜索,并自然赋值 None,完全规避 zip() 导致的长度不匹配错误。若需导出 CSV,可安全写入:
import csv
with open("authors.csv", "w", newline="", encoding="utf-8") as f:
writer = csv.writer(f)
writer.writerow(["Author", "Affiliation"])
for name, aff in get_author_data(13494):
writer.writerow([name, aff or ""])总结:BeautifulSoup 抓取的核心不是“找所有标签”,而是“理解 DOM 结构层级”。始终遵循「容器定位 → 子元素遍历 → 邻近关系验证」三步法,配合 SoupStrainer 和 next_siblings 等精准 API,即可稳健应对复杂学术网页的作者信息提取任务。










