如何抓取PDF内容_PHP提取在线PDF文字信息操作【详解】

看不見的法師

发布时间：2026-02-10 12:11:36

971人浏览过

来源于php中文网

原创

PHP直接读取在线PDF失败是因为PDF是含对象、交叉引用表等的二进制格式，非纯文本；用pdftotext（Poppler）提取文字最可靠，需服务器命令行权限并处理加密与扫描件。

如何抓取pdf内容_php提取在线pdf文字信息操作【详解】

PHP 直接读取在线 PDF 文件会失败，原因是什么？

PHP 的 file_get_contents() 或 curl 能拿到 PDF 的二进制流，但直接输出或 echo 只会看到乱码——PDF 不是纯文本格式，而是包含对象、交叉引用表、压缩流和字体映射的结构化二进制文档。试图用 strip_tags() 或正则硬匹配文字，基本无效，还可能触发解析错误或截断内容。

推荐方案：用 Poppler 工具链 + `exec()` 调用 `pdftotext`

比纯 PHP 库（如 TCPDF、FPDI）更可靠，也比 smalot/pdfparser 这类纯 PHP 解析器更能处理加密、图片内嵌文字、非标准编码的 PDF。前提是你有服务器命令行权限（Linux/Unix 环境）。

安装 Poppler：apt-get install poppler-utils（Ubuntu/Debian）或 yum install poppler-utils（CentOS）
确保 PHP 的 exec() 未被禁用（检查 disable_functions 配置）

下载远程 PDF 到临时文件再转换，避免直接管道传输导致编码识别失败：

$pdfUrl = 'https://example.com/doc.pdf';
$tempPdf = sys_get_temp_dir() . '/temp_' . uniqid() . '.pdf';
file_put_contents($tempPdf, file_get_contents($pdfUrl));
$txtPath = $tempPdf . '.txt';
exec("pdftotext -layout -enc UTF-8 {$tempPdf} {$txtPath} 2>&1", $output, $returnCode);
if ($returnCode === 0 && file_exists($txtPath)) {
    $text = file_get_contents($txtPath);
}

-layout 保留原始排版空格和换行，对表格/段落识别很关键；不加容易把“姓名：”和后面内容挤成“姓名：张三电话：138…”

遇到加密 PDF 怎么办？

很多在线 PDF 含所有者密码（即使能打开，也不代表可复制文字）。pdftotext 遇到加密会静默失败或报错 PDF password required。不能跳过，必须先解密。

用 qpdf 尝试无密码解密：qpdf --password='' --decrypt input.pdf output.pdf（部分弱加密有效）
若已知密码，传给 pdftotext -opw "xxx"（所有者密码）或 -upw "xxx"（用户密码）
PHP 中判断是否加密：exec("pdfinfo {$tempPdf} 2>&1", $info); 检查输出中是否含 Encrypted: yes

为什么不用 `smalot/pdfparser` 或 `setasign/fpdi`？

它们适合「已知结构简单、无加密、无图像OCR文字」的 PDF，比如自动生成的发票。但一旦 PDF 含扫描件（本质是图片）、使用自定义字体嵌入、或用了 JBIG2 压缩，这些库就只能返回空字符串或乱码字符（如 þÿ）。而 pdftotext 底层调用 Poppler 的文本提取引擎，对真实业务 PDF 兼容性高得多。

Product Hunt

Product Hunt每天都在寻找最好的新产品。

下载

立即学习“PHP免费学习笔记（深入）”；

真正难的不是“怎么写代码”，而是确认 PDF 是否真含可提取文字——打开它，Ctrl+A 全选，看能否复制出内容。如果不能，说明是扫描件，此时 PHP 层面已无解，必须上 OCR（如 Tesseract），那又是另一套流程了。

PHP如何连接Redis数据库_PHP操作Redis缓存指南【教程】

怎么查看php版本库状态_查看版本库状态命令【操作】

PHP如何操作XML数据_PHP解析与生成XML方法【教程】

DW中如何运行PHP插件_插件安装与使用指南【教程】

php返回json数据怎么带提示信息_成功失败消息json返回【方法】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php pdf echo cURL 字符串对象 input ocr linux ubuntu centos debian unix

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：批量下载文件、重命名并合并为单个文本文件的完整实现教程下一篇：暂无

作者最新文章

猿辅导权威访问入口猿辅导2026智能练习学习系统入口

2026-02-10 10:25

一起小学学生端快捷入口一起小学2026家长监控报告官网入口

2026-02-10 10:26

光遇1.6免费魔法是什么-光遇1月6日免费魔法2026

2026-02-10 10:28

插html图片到word想加边框咋设_改线条与样式属性法【详解】

2026-02-10 10:29

浪漫餐厅免费体验入口_在线小游戏畅玩平台推荐

2026-02-10 10:40

Steam注销账号会删游戏吗_注销后数据保留规则说明【解答】

2026-02-10 10:41

怎样关闭电脑蓝牙自动开启_蓝牙后台自动启用禁用方法

2026-02-10 10:44

初三有哪些传统习俗活动_2026春节初三有哪些讲究和风俗【介绍】

2026-02-10 10:44

PHP时区设置格式是什么_时区标识符的正确写法汇总【介绍】

2026-02-10 10:48

交互图表怎么添加播放轴_交互图表时间轴播放设置【方法】

2026-02-10 10:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

curl_exec

curl_exec函数是PHP cURL函数列表中的一种，它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例，这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE，或者在失败时返回FALSE。

450

2023.06.14

linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容，可以阅读本专题下面的文章。

179

2023.10.30

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

464

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

213

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1520

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

635

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

821

2024.03.22