如何使用 Apache PDFBox 提取 PDF 文档中的嵌入式缩略图

霞舞

发布时间：2026-03-18 16:18:20

571人浏览过

来源于php中文网

原创

如何使用 Apache PDFBox 提取 PDF 文档中的嵌入式缩略图

本文详解如何通过 apache pdfbox 检测并提取 pdf 页面中嵌入的缩略图（thumbnail），重点说明正确使用的 cosname 常量（cosname.thumb）、代码实现逻辑及常见误区。

本文详解如何通过 apache pdfbox 检测并提取 pdf 页面中嵌入的缩略图（thumbnail），重点说明正确使用的 cosname 常量（cosname.thumb）、代码实现逻辑及常见误区。

Apache PDFBox 支持解析 PDF 标准中定义的页面级缩略图（Thumbnail），这类缩略图作为可选的嵌入式图像，通常由 PDF 生成工具（如 Adobe Acrobat）预先为每页生成并存于 /Thumb 条目下，位于页面字典（Page Dictionary）中。需注意：缩略图并非 PDF 必需内容，且不等同于文档内普通图像资源（如 /XObject 中的 Image），因此不能通过 PDPage.getResources() 或 PDPage.getImages() 获取。

要可靠检测并提取缩略图，应直接访问页面底层 COS 对象，使用 COSName.THUMB（注意大小写为全大写 THUMB，而非 Thumb 或 thumb）查询对应 COSStream：

import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.cos.COSStream;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;

// 加载文档
try (PDDocument doc = PDDocument.load(new File("example.pdf"))) {
    for (int i = 0; i < doc.getNumberOfPages(); i++) {
        PDPage page = doc.getPage(i);
        // 从页面 COS 对象中获取 Thumb 流
        COSStream thumbStream = page.getCOSObject().getCOSStream(COSName.THUMB);

        if (thumbStream != null) {
            try {
                PDImageXObject thumbnail = PDImageXObject.createThumbnail(thumbStream);
                System.out.printf("✅ Page %d contains a valid thumbnail (%d×%d)\n",
                    i + 1, thumbnail.getWidth(), thumbnail.getHeight());
                // 此处可进一步导出：thumbnail.write2file("page_" + (i+1) + "_thumb.png");
            } catch (IOException e) {
                System.err.printf("⚠️  Failed to parse thumbnail on page %d: %s\n", i + 1, e.getMessage());
            }
        } else {
            System.out.printf("❌ Page %d has no embedded thumbnail\n", i + 1);
        }
    }
}

? 关键注意事项：

Riffo

Riffo是一个免费的文件智能命名和管理工具

下载

✅ 必须使用 COSName.THUMB（静态常量，值为 /Thumb），手动传入字符串 "/Thumb" 虽可行但不推荐，易引发拼写错误；
❌ CosName.Thumb 是错误写法（PDFBox 中无此字段，Java 编译即报错）；
⚠️ PDImageXObject.createThumbnail() 内部会校验流结构与图像类型（支持 JPEG、JPX、JBIG2、CCITT 等），若流损坏或格式不被支持，将抛出 IOException，务必捕获处理；
? 缩略图仅存在于页面字典层级，不会出现在文档目录（Catalog）、结构树（StructTreeRoot）或元数据中，全局搜索无意义；
? 部分 PDF 可能将缩略图以普通图像形式嵌入（如作为 /XObject 的子项），此类情况不属于 PDF 规范定义的“页面缩略图”，需用其他方式识别，不在本方案覆盖范围内。

综上，COSName.THUMB 是唯一标准且可靠的入口点。结合逐页 COS 层访问与健壮的异常处理，即可稳定识别并利用 PDF 中预置的缩略图资源，适用于文档预览生成、批量缩略图提取等专业场景。

相关标签:

apache PDF 文档

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：HK2 服务注入失败的常见原因与正确配置指南下一篇：暂无

作者最新文章

如何使用 Apache PDFBox 提取 PDF 页面内嵌缩略图

2026-03-18 14:07

SASS 中无法在编译时读取 CSS 自定义属性（:root 变量）的值

2026-03-18 14:10

Go 语言中实现 XML 混合节点有序解码的完整教程

2026-03-18 14:18

Spring Boot 中实现多级嵌套 @Value 属性引用的正确方式

2026-03-18 14:39

JavaScript 中 BigInt 与浮点数的精确乘法运算指南

2026-03-18 14:46

《战锤40K：暗潮》"巢都之外"更新上线新增搜打撤

2026-03-18 15:03

自动捕获网页摄像头图像并保存为文件的完整实现教程

2026-03-18 15:04

Ajax 表单提交仅触发一次的解决方案

2026-03-18 15:23

JavaScript 实现对象键名按最长公共前缀分组的高效方案

2026-03-18 15:28

Python中逻辑运算符and与位运算符&的本质区别

2026-03-18 15:40

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

apache是什么意思

Apache是Apache HTTP Server的简称，是一个开源的Web服务器软件。是目前全球使用最广泛的Web服务器软件之一，由Apache软件基金会开发和维护，Apache具有稳定、安全和高性能的特点，得益于其成熟的开发和广泛的应用实践，被广泛用于托管网站、搭建Web应用程序、构建Web服务和代理等场景。本专题为大家提供了Apache相关的各种文章、以及下载和课程，希望对各位有所帮助。

422

2023.08.23

apache启动失败

Apache启动失败可能有多种原因。需要检查日志文件、检查配置文件等等。想了解更多apache启动的相关内容，可以阅读本专题下面的文章。

939

2024.01.16

Java 流式处理与 Apache Kafka 实战

本专题专注讲解 Java 在流式数据处理与消息队列系统中的应用，系统讲解 Apache Kafka 的基础概念、生产者与消费者模型、Kafka Streams 与 KSQL 流式处理框架、实时数据分析与监控，结合实际业务场景，帮助开发者构建高吞吐量、低延迟的实时数据流管道，实现高效的数据流转与处理。

182

2026.02.04