Python怎么操作PDF文件_PyPDF2提取文本与合并PDF教程

P粉602998670

发布时间：2026-03-18 13:06:51

102人浏览过

来源于php中文网

原创

PyPDF2报“Not a PDF file”因文件非真实PDF，需用file命令验证；文本提取为空或乱码因无文本层或字体未嵌入，应改用pdfplumber或OCR；合并后体积暴增因未去重，建议用pikepdf优化；Python 3.12+应迁移到pypdf。

python怎么操作pdf文件_pypdf2提取文本与合并pdf教程

PyPDF2 读取 PDF 报 `PdfReadError: Not a PDF file` 怎么办

不是所有带 .pdf 后缀的文件都是合法 PDF，PyPDF2 对文件头和结构校验严格。常见于下载不完整、被重命名的文档、或用某些在线工具导出的“伪 PDF”（实际是 HTML 或图片打包）。

实操建议：

立即学习“Python免费学习笔记（深入）”；

先用系统命令确认文件类型：file document.pdf，输出应含 PDF document；若显示 data 或 HTML，说明不是真 PDF
用 pdfplumber 或 fitz（PyMuPDF）尝试打开——它们容错更强，但注意：后者需单独安装 pip install PyMuPDF
如果文件来自网页下载，检查是否被浏览器自动保存为 .pdf?xxx 形式，重命名时漏掉了查询参数，导致实际是 HTML 响应体

用 `PyPDF2.PdfReader` 提取文本为空或乱码

PyPDF2 不解析渲染逻辑，只读取 PDF 中的“文本对象流”，而很多 PDF（尤其扫描件、LaTeX 导出、或加了字体子集的文档）根本不存可提取的文本，或者用了未嵌入的字体。

实操建议：

立即学习“Python免费学习笔记（深入）”；

先运行 reader.pages[0].extract_text()，再检查返回值是否为 None 或空字符串；如果是，基本可判定该页无文本层
不要依赖 extract_text() 处理扫描 PDF——它完全无效；改用 pytesseract + pdf2image 做 OCR
中文乱码通常因字体未嵌入或编码映射缺失，PyPDF2 本身不处理字体解码；可换 pdfplumber，它对中文字体支持更稳，调用方式类似：pdfplumber.open("x.pdf").pages[0].extract_text()

`PyPDF2.PdfWriter` 合并 PDF 后体积暴增

PyPDF2 默认不做对象去重和压缩，每合并一次，就把所有原始 PDF 的资源（字体、图像、元数据）全拷一份进来，哪怕内容完全重复。

Buildt.ai

AI驱动的软件开发平台，可以自动生成代码片段、代码分析及其他自动化任务

下载

实操建议：

立即学习“Python免费学习笔记（深入）”；

合并前手动清理源文件：用 qpdf --optimize 预处理（需系统安装 qpdf），或用 pikepdf 替代：pip install pikepdf，它支持原地压缩与对象复用
避免多次 add_page() 后反复写入；一次性收集所有 PdfReader 实例，再统一添加到 PdfWriter，减少中间状态
写入时禁用默认元数据注入：writer.add_metadata({})，否则会把每个源 PDF 的作者/标题等信息都堆进去

PyPDF2 在 Python 3.12+ 上安装失败或运行报 `ImportError: cannot import name 'PDFObjectNotFound'`

PyPDF2 自 3.0.0 版起已停止维护，官方推荐迁移到 pypdf（注意包名变了）。旧版 PyPDF2 不兼容新 Python 的 AST 解析器变更，且部分异常类已被移除。

实操建议：

立即学习“Python免费学习笔记（深入）”；

立刻卸载：pip uninstall PyPDF2，安装替代品：pip install pypdf
代码只需微调：把 from PyPDF2 import PdfReader, PdfWriter 改成 from pypdf import PdfReader, PdfWriter；其余 API 几乎一致
别信“改源码注释掉 import 行”的方案——后续遇到加密 PDF 或数字签名时会崩得更彻底

PDF 操作真正麻烦的从来不是语法，而是格式本身的碎片化：同一份文档，在不同生成工具、不同 Acrobat 版本、甚至不同导出选项下，底层结构可能天差地别。选库只是第一步，验证输入、预处理、兜底策略，一样都不能少。

Python特征选择怎么做_过滤法方差分析/包装法/嵌入法树模型特征精准筛选

Python怎么求交集_Set对象intersection方法与列表推导提速比较

如何解决 Python keyboard 模块中按键检测延迟或需多次触发的问题

Python怎么处理乱码数据_Pandas读取特定系统编码与动态转码清洗

Python队列怎么用_queue模块与collections.deque性能对比

相关标签:

python pip 字符串堆对象 ocr

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 Discord 服务器中离线获取指定用户的历史消息计数下一篇：暂无

作者最新文章

Django怎么配置日志_settings中LOGGING字典配置与按天轮转

2026-03-18 10:37

如何分析AWR中的等待事件_Top 10 Foreground Events解读

2026-03-18 10:37

如何解决分区表数据导入时性能极差_直接路径加载Direct Path与禁用索引加载

2026-03-18 10:38

什么是Java 9新增的Flow API_响应式流(Reactive Streams)的发布订阅标准接口解析

2026-03-18 10:38

什么是Java中的守护线程(Daemon)_后台服务线程的特性与JVM退出条件

2026-03-18 10:38

如何重命名分区_ALTER TABLE RENAME PARTITION规范化分区命名机制

2026-03-18 10:38

CSS如何让进度条加载变得平滑而不再卡顿

2026-03-18 10:39

Python开发工具选哪个好_PyCharm与VSCode优缺点对比

2026-03-18 10:39

Python鼠标怎么录制轨迹_pynput记录并精确回放复杂系统键盘鼠标点击操作

2026-03-18 10:40

mysql权限如何迁移到新服务器_mysql授权迁移方法

2026-03-18 10:40

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

437

2024.12.20

pip设置清华源

设置方法：1、打开终端或命令提示符窗口；2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件；3、打开pip.conf文件，然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容，这将把pip的镜像源设置为清华大学的镜像源；4、保存并关闭文件即可。

806

2024.12.23

python升级pip

本专题整合了python升级pip相关教程，阅读下面的文章了解更多详细内容。

371

2025.07.23

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1571

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

652

2023.11.24

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2026.03.18

热门下载

网站特效

网站源码

网站素材

前端模板