如何高效批量抓取圣经词典中希伯来人名的定义文本

心靈之曲

发布时间：2025-12-27 11:43:00

976人浏览过

来源于php中文网

原创

如何高效批量抓取圣经词典中希伯来人名的定义文本

本文介绍使用 python（requests + beautifulsoup）批量抓取 biblestudytools 网站《smith’s bible dictionary》中人名定义的完整方案，重点解决动态匹配 `` 标签内目标文本、异常处理与结果结构化存储问题。

在批量网络爬虫实践中，仅依赖 soup.find('i')（返回首个 标签）极易导致数据遗漏或错配——因为目标定义通常嵌套在多个 标签中，且并非总位于页面第一个。例如，Aaron 页面的定义 “a teacher, or lofty” 实际位于段落末尾的 标签内，而非开头。

正确做法是：先定位所有 标签，再逐个检查其文本内容是否语义相关。由于定义文本通常包含对人名的解释性短语（如 “means”, “signifies”, “denotes”, 或直接以逗号分隔的释义），而不仅仅是精确匹配人名字符串，原答案中 if name in i.text 的逻辑存在误判风险（例如 abednego 出现在链接 URL 中，但未必出现在 文本里）。更稳健的策略是：提取 标签中紧邻 <h1> 标题后的首段释义，或匹配含常见定义动词的 文本。

以下是优化后的完整实现：

import requests
from bs4 import BeautifulSoup
import time

# 假设 test 是已有的名字列表，如 ['aaron', 'abednego', ...]
test = ['aaron', 'abednego']  # 替换为你的实际列表
smiths_names = {}

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

for name in test:
    url = f"https://www.biblestudytools.com/dictionaries/smiths-bible-dictionary/{name.lower()}.html"
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()  # 抛出 HTTP 错误（如 404）

        soup = BeautifulSoup(response.content, 'html.parser')

        # 策略1：优先查找 <h1> 后紧跟的 <p> 内的 <i>（常见结构）
        h1 = soup.find('h1')
        if h1:
            next_p = h1.find_next('p')
            if next_p:
                itag_in_p = next_p.find('i')
                if itag_in_p:
                    meaning = itag_in_p.get_text(strip=True)
                    smiths_names[name] = meaning
                    print(f"✓ {name}: {meaning[:60]}...")
                    continue

        # 策略2：遍历所有 <i>，匹配含定义关键词的文本
        itags = soup.find_all('i')
        for i_tag in itags:
            text = i_tag.get_text(strip=True)
            if text and any(kw in text.lower() for kw in ['means', 'signifies', 'denotes', 'i.e.', 'that is']):
                smiths_names[name] = text
                print(f"✓ {name}: {text[:60]}...")
                break
        else:
            # 策略3：回退到第一个非空 <i>（兜底）
            first_i = soup.find('i')
            if first_i and first_i.get_text(strip=True):
                smiths_names[name] = first_i.get_text(strip=True)
                print(f"⚠ {name}: using first <i> as fallback")
            else:
                print(f"✗ {name}: no usable <i> tag found")

    except requests.exceptions.RequestException as e:
        print(f"❌ {name} request failed: {e}")
    except Exception as e:
        print(f"❌ {name} parsing error: {e}")

    time.sleep(1)  # 尊重网站，避免请求过频

print(f"\n✅ Completed. Scraped {len(smiths_names)} definitions.")

关键改进说明：

Winston AI

强大的AI内容检测解决方案

下载

✅ 三层容错机制：优先语义定位 → 关键词匹配 → 首标签兜底，显著提升成功率；
✅ 健壮异常处理：区分网络异常（超时/404）与解析异常，避免中断整个循环；
✅ 反爬友好：添加 User-Agent 头 + 请求间隔（time.sleep(1)），降低被封风险；
✅ 大小写安全：URL 构造时统一转小写（该网站路径为小写）；
✅ 结果可验证：每步输出清晰日志，便于调试。

注意事项：

请务必遵守 robots.txt（https://www.php.cn/link/659b7cf906b8fd348ff333c167d8386d）及网站条款，建议仅用于个人学习、非商业用途；
若需长期稳定运行，建议增加重试机制（如 tenacity 库）和代理池支持；
定义文本可能含 HTML 实体（如），可用 html.unescape() 清洗；

最终字典 smiths_names 可导出为 JSON/CSV：

import json
with open('smiths_definitions.json', 'w', encoding='utf-8') as f:
    json.dump(smiths_names, f, indent=2, ensure_ascii=False)

通过以上方法，你不仅能精准获取每个希伯来人名的权威释义，还能构建可复用、易维护的词典抓取流程。

VSCode运行HTML程序_vscode怎么运行html程序【操作】

html怎么打开txt文件内容_html怎么打开txt文件显示【教程】

html转docx格式网页文件怎么转word【文档】

html格式怎么转换成PDF_html转PDF工具与保存方法【推荐】

txt文本怎么改成html_txt转html文件方法【攻略】

相关标签:

python html js json go windows 网络爬虫 safari csv ai win json beautifulsoup if 字符串循环 https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：怎么打开html5播放_用video或audio标签加controls点击打开播放【打开】下一篇：如何使用 CSS :has() 实现子元素悬停时放大父容器

作者最新文章

如何在 MAMP 中正确访问本地 PHP 项目文件

2026-03-12 16:13

如何让 Flex 布局的双栏页脚在移动端自动堆叠显示

2026-03-12 16:17

Steam新主机配件短缺 V社在GDC上公开求购内存条

2026-03-12 16:26

Go 标准库中无函数体的导出函数是如何工作的？

2026-03-12 16:34

如何在 Reactor 非阻塞线程中安全获取并复用 API 认证 Token

2026-03-12 16:48

vscode安装包打开后怎么安装

2026-03-12 16:50

如何在 JavaScript 对象中为多个数组批量插入新元素（如新增关键帧）

2026-03-12 17:03

《零红蝶：重制版》Steam多半好评：移植出色玩法升级

2026-03-12 17:04

Spring Boot 服务层事务失效的典型原因与解决方案

2026-03-12 17:37

PHP中true == "expired"为何为真？深入理解松散比较与类型转换

2026-03-12 17:45

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章，帮助大家解决问题。

457

2023.08.07

json是什么

JSON是一种轻量级的数据交换格式，具有简洁、易读、跨平台和语言的特点，JSON数据是通过键值对的方式进行组织，其中键是字符串，值可以是字符串、数值、布尔值、数组、对象或者null，在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容，供大家免费下载体验。

549

2023.08.23