从PDF中精确提取文本并排除页面编号：PyPDF实践指南

聖光之護

发布时间：2025-12-04 12:18:07

286人浏览过

来源于php中文网

原创

从PDF中精确提取文本并排除页面编号：PyPDF实践指南

本教程详细介绍了如何使用python的`pypdf`库从pdf文档中提取文本，并重点解决`extract_text()`方法可能包含非内容性元素（如页码）的问题。文章提供了一种通过页面索引跳过特定页面的解决方案，并探讨了更通用的文本清洗策略，以确保提取内容的纯净性和准确性。

使用PyPDF进行文本提取

pypdf是一个功能强大的Python库，用于处理PDF文档，包括读取、合并、分割以及文本提取等操作。在许多场景下，我们需要从PDF中提取纯文本内容进行进一步分析或处理。

基本文本提取流程

使用pypdf进行文本提取的基本步骤是创建一个PdfReader对象，然后遍历其pages属性，对每一页调用extract_text()方法。

from pypdf import PdfReader

def extract_all_text(pdf_path: str) -> str:
    """
    从PDF文件中提取所有页面的文本内容。
    """
    reader = PdfReader(pdf_path)
    full_text = []
    for page in reader.pages:
        full_text.append(page.extract_text())
    return "\n".join(full_text)

# 示例用法
pdf_file = "pdf-examples/kurdish-sample-2.pdf" # 替换为你的PDF文件路径
extracted_content = extract_all_text(pdf_file)
print("--- 原始提取内容 ---")
print(extracted_content[:200]) # 打印前200个字符作为示例

挑战：文本中包含非内容性元素

尽管extract_text()方法在大多数情况下表现良好，但有时它会将页面上的非内容性元素（如页眉、页脚、水印，甚至直接印在页面内容区域的页码）作为文本的一部分提取出来。例如，如果一个PDF页面的开头是页码“5”，那么extract_text()可能会返回像"5 دوارۆژی ئەم منداڵه بکەنەوە..."这样的字符串，其中数字“5”是页码，而不是实际内容。

这种情况会干扰后续的文本处理，因此需要采取措施来清洗或排除这些不必要的元素。

解决方案一：通过页面索引跳过特定页面

如果已知某个页面的内容（包括其页码）是不需要的，或者该页面总是包含需要排除的特定模式，一种直接的方法是在迭代提取过程中跳过该页面。这可以通过维护一个页面计数器来实现。

实现逻辑

初始化一个计数器，通常从1开始，表示当前处理的页码。
遍历PdfReader的pages列表。
在每次迭代中，检查计数器是否等于需要跳过的页码。
如果匹配，则使用pass语句跳过当前页面的文本提取和添加操作。
如果不匹配，则正常提取文本并将其添加到结果中。
每次迭代结束时，递增计数器。

示例代码

以下代码演示了如何跳过PDF中的第五页：

from pypdf import PdfReader

def extract_text_excluding_page(pdf_path: str, page_to_exclude: int) -> str:
    """
    从PDF文件中提取文本，但跳过指定的页码。

    Args:
        pdf_path (str): PDF文件的路径。
        page_to_exclude (int): 需要跳过的页码（1-indexed）。

    Returns:
        str: 提取后的文本内容。
    """
    reader = PdfReader(pdf_path)
    full_text_parts = []
    current_page_number = 1 # 页面计数器，从1开始

    for page in reader.pages:
        if current_page_number == page_to_exclude:
            print(f"--- 跳过页面: {page_to_exclude} ---")
            pass # 跳过此页，不进行任何操作
        else:
            full_text_parts.append(page.extract_text())
        current_page_number += 1

    return "\n".join(full_text_parts)

# 示例用法：跳过第五页
pdf_file = "pdf-examples/kurdish-sample-2.pdf" # 替换为你的PDF文件路径
processed_content = extract_text_excluding_page(pdf_file, 5)
print("\n--- 排除第五页后的提取内容 ---")
print(processed_content[:200]) # 打印前200个字符作为示例

注意事项：

Programming Helper

AI代码自动生成器，在AI的帮助下更快地编程

下载

1-indexed计数： PDF的页码通常是从1开始的，因此在设置page_to_exclude和current_page_number时请注意这一点。
适用场景： 这种方法适用于整个页面都不需要的情况，或者当特定页面的页码或其他非内容性元素难以通过文本处理去除时。

解决方案二：提取后进行文本清洗

如果仅仅是页面中的某个特定模式（如页码、页眉、页脚文本）需要被移除，但页面的其余内容仍然重要，那么在提取文本后进行字符串处理是更灵活的方法。

常用文本清洗技术

字符串方法： 使用str.replace(), str.strip(), str.splitlines()等方法来移除或分割文本。
正则表达式（re模块）： 对于更复杂的模式匹配和替换，正则表达式是理想工具。例如，可以编写一个正则表达式来匹配行首的数字（潜在的页码）并将其移除。

示例（概念性）

假设我们知道页码总是出现在每一行的开头，并且是一个或多个数字：

import re
from pypdf import PdfReader

def clean_extracted_text(text: str) -> str:
    """
    从文本中移除行首的数字（潜在的页码）。
    """
    cleaned_lines = []
    for line in text.splitlines():
        # 匹配行首的一个或多个数字，后面可能跟着空格
        cleaned_line = re.sub(r"^\s*\d+\s*", "", line)
        if cleaned_line.strip(): # 避免添加空行
            cleaned_lines.append(cleaned_line)
    return "\n".join(cleaned_lines)

def extract_and_clean_all_text(pdf_path: str) -> str:
    """
    从PDF文件中提取所有文本，并进行清洗以移除行首的数字。
    """
    reader = PdfReader(pdf_path)
    full_raw_text = []
    for page in reader.pages:
        full_raw_text.append(page.extract_text())

    combined_raw_text = "\n".join(full_raw_text)
    return clean_extracted_text(combined_raw_text)

# 示例用法
pdf_file = "pdf-examples/kurdish-sample-2.pdf" # 替换为你的PDF文件路径
cleaned_content = extract_and_clean_all_text(pdf_file)
print("\n--- 清洗行首数字后的提取内容 ---")
print(cleaned_content[:200])

注意事项：

正则表达式的精确性： 设计正则表达式时需要非常小心，以避免意外删除有效内容。
性能： 对于非常大的PDF文件和复杂的正则表达式，文本清洗可能会消耗一定的计算资源。

总结与最佳实践

在从PDF中提取文本并排除页码或其它非内容性元素时，选择正确的方法至关重要：

跳过整个页面： 如果整个页面（或其大部分内容）都不需要，或者已知某个页码总是嵌入在特定页面且难以通过文本清洗去除，那么通过页面索引跳过该页是一个简单有效的策略。
提取后清洗： 如果页码或其它非内容性元素只是页面内容的一部分，并且页面的其余内容是必需的，那么在提取所有文本后使用字符串方法或正则表达式进行清洗是更灵活和精确的方法。
检查PDF结构： 有时，PDF的内部结构可能会影响extract_text()的输出。在复杂情况下，可能需要检查PDF的实际内容流来理解为什么某些元素会被提取。
迭代和测试： 针对特定的PDF文档，可能需要多次尝试不同的清洗策略，并仔细检查输出结果，以确保提取的准确性。

通过结合pypdf的强大功能和适当的文本处理技术，我们可以有效地从PDF文档中提取出干净、有用的文本数据。

如何验证字典中是否包含内嵌字典的列表

Python 中实现循环内条件重试：避免空数据导致的流程中断

GitHub Actions 中同时捕获多行脚本输出与保留退出码的完整方案

如何在 Linux/macOS 系统中全面查找所有 Python 解释器安装

Python asyncio.sleep怎么用_模拟异步非阻塞耗时操作切出控制权替代time.sleep()

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

531

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

258

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

766

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

219

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

357

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

245

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

547

2023.12.06

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板