Python怎么读取PDF_PyPDF2与pdfplumber提取结构化文本内容

P粉602998670

发布时间：2026-03-15 09:01:46

791人浏览过

来源于php中文网

原创

PyPDF2无法正确提取表格和换行，因其仅按操作符顺序拼接文本流，不还原视觉布局；适合纯文字PDF，不适用于表格、多栏、扫描件或复杂字体文档。

python怎么读取pdf_pypdf2与pdfplumber提取结构化文本内容

PyPDF2 读不到表格和换行，是因为它只解析文本流不还原布局

PyPDF2 的 extract_text() 本质是按 PDF 内部操作符顺序拼接字符串，不理解“段落”“列”“表格单元格”这些视觉结构。你看到的换行丢失、表格内容串行、中英文混排错位，都是这个原因。

适合场景：纯文字报告、无格式合同、页眉页脚简单的 PDF
不适合：带表格的财务报表、多栏排版的论文、扫描件（即使 OCR 过）、含复杂字体嵌入的文档
extract_text() 的 page_layout 参数对多数 PDF 无效，别指望靠它修复排版
如果 PDF 是扫描件（page.extract_text() == ""），PyPDF2 直接失效，必须先 OCR

pdfplumber 能保留坐标和框线，但默认不自动识别表格结构

pdfplumber 把每页当图像处理，返回字符级 x0/y0 坐标、字体大小、甚至检测到的线条（page.lines）。但它不会主动把几行文字+横线凑成“表格”——得你告诉它怎么切。

用 page.extract_tables() 前先看 page.to_image().draw_rects(page.chars) 可视化字符分布，确认文字没被拆成单字
表格识别失败常见于：合并单元格没边框、字体大小不一致、列间距过小（vertical_strategy="lines" 可能漏掉隐式分隔线）
想强制按列切，用 page.extract_text(x_tolerance=1, y_tolerance=3) 调宽容差，但太大会把不同段落粘一起
pdfplumber.open() 默认禁用图形对象解析，要提取图表标题得加 laparams={"all_texts": True}

中文 PDF 提取乱码？八成是字体映射没对上

PDF 里中文常以 CID 字体形式嵌入，PyPDF2 和 pdfplumber 都依赖底层 poppler 或 pdfminer 的字体解码逻辑。乱码不是编码问题，是字体名到 Unicode 的映射缺失。

Giiso写作机器人

Giiso写作机器人，让写作更简单

下载

先用 page.chars[0]["fontname"] 查字体名，再查该字体是否在系统字体缓存里（Linux 看 /usr/share/fonts，macOS 看 /Library/Fonts）
pdfplumber 中设置 pdfplumber.open("x.pdf", password="", laparams={"detect_vertical": True}) 可改善竖排中文识别
PyPDF2 对 CID 字体基本无解，遇到 UnicodeDecodeError 或一堆空格，直接换 pdfplumber
别信“用 codecs.open(..., encoding="gbk") 就能救”，PDF 文本流不是文件编码问题

混合内容（文字+表格+图片）该怎么选工具链

没有万能工具。真实 PDF 往往同时含标题、正文、三列表格、底部页码、右侧批注框——得按区域拆解处理。

立即学习“Python免费学习笔记（深入）”；

先用 pdfplumber 定位关键区域：page.crop((x0, y0, x1, y1)) 切出表格区，再 .extract_tables()；切出正文区，再 .extract_text()
纯文字部分用 PyPDF2 更快（尤其千页 PDF），但一旦发现 extract_text() 返回空或全是空格，立刻切到 pdfplumber
有图片水印或背景图干扰文字？pdfplumber 的 page.filter() 可按颜色/尺寸过滤掉干扰元素
批量处理时，先抽样 5–10 页人工检查结构一致性，再写规则——PDF 格式不统一，硬套一个参数跑全量必翻车

实际项目里最耗时间的从来不是写代码，是反复打开 PDF 在 Adobe Acrobat 里用“选择工具”拖选，看它怎么分词、哪条线被识别成表格边界、哪个汉字被拆成两个 glyph。这些细节决定了你该调哪个 tolerance、要不要手动 merge 表格行、甚至要不要放弃自动化去标注训练集。

Python Web开发用哪个框架_Django/Flask/FastAPI优缺点对比

Python如何打包环境_项目代码与运行环境一键迁移方案

Python Flask怎么用Celery_将耗时发信处理等后台异步任务分发给消息队列与结果查询

Python全局解释器锁是什么_GIL对多线程运行效率的影响解析

Python ASGI是什么_异步Web服务器协议与Uvicorn部署

WPS零基础入门到精通全套教程！

全网最新最细最实用WPS零基础入门到精通全套教程！带你真正掌握WPS办公！内含Excel基础操作、函数设计、数据透视表等

下载

相关标签:

python Filter 字符串堆 Chars 对象 macos ocr linux 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：FastAPI异步删除操作失败的常见原因及解决方案下一篇：暂无

作者最新文章

悟空浏览器怎么关闭启动时的加载动画闪屏_悟空浏览器秒开优化

2026-03-13 17:04

如何在Golang中通过反射创建并操作切片 Go语言reflect.MakeSlice实战

2026-03-13 17:05

如何避免PL/SQL中的SQL注入_绑定变量Bind Variables的最佳实践

2026-03-13 17:05

Safari浏览器如何关闭网页的安全证书警告_Safari浏览器继续访问

2026-03-13 17:06

宝塔面板下如何安装Node.js的特定版本镜像源？

2026-03-13 17:09

如何在Golang中实现优雅的请求超时控制 Go语言http.TimeoutHandler使用

2026-03-13 17:09

如何在Golang中利用Trace工具分析延迟 Go语言执行链路可视化追踪

2026-03-13 17:09

如何在Golang中利用SQLite进行本地存储 Go语言嵌入式数据库应用

2026-03-13 17:11

如何在Golang中利用Finalizer清理非内存资源 Go语言runtime.SetFinalizer使用

2026-03-13 17:11

如何为Oracle配置多监听器_不同端口的并发监听机制实现

2026-03-13 17:12

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1570

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

651

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1229

2024.03.22