C#读取PDF文本 C#如何提取PDF文件中的文字内容

月夜之吻

发布时间：2026-02-10 08:09:34

685人浏览过

来源于php中文网

原创

推荐使用 iTextSharp.LGPLv2.Core（Install-Package iTextSharp.LGPLv2.Core）提取文本型 PDF；对扫描件需用 Ghostscript 转图 + Tesseract OCR；中文乱码优先检查字体嵌入，严重时换 PDFiumSharp。

c#读取pdf文本 c#如何提取pdf文件中的文字内容

用 iTextSharp 提取 PDF 文字最直接，但 NuGet 包名已变

iTextSharp 5.x 是老项目常用方案，但现在官方已停止维护，iTextSharp.LGPLv2.Core 是社区维护的兼容版，支持 .NET Core/.NET 5+。直接安装 Install-Package iTextSharp.LGPLv2.Core 即可，别用原版 iTextSharp（不支持新框架，且含 GPL 风险）。

提取逻辑简单：加载 PDF → 遍历每页 → 用 LocationTextExtractionStrategy 获取文本（它按阅读顺序拼接，比 SimpleTextExtractionStrategy 更可靠）。

示例关键代码：

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

PdfReader reader = new PdfReader("sample.pdf");
StringBuilder text = new StringBuilder();
for (int i = 1; i <= reader.NumberOfPages; i++)
{
    string pageText = PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy());
    text.AppendLine(pageText);
}
reader.Close();
string fullText = text.ToString();

PDF 含扫描图或加密时，iTextSharp 会静默失败

iTextSharp 只能处理「文本型 PDF」——即内容本身是字符编码，不是图片。遇到扫描件（哪怕 OCR 过），它返回空字符串，也不报错。

判断方法：打开 PDF 用鼠标拖选文字，能复制就是文本型；不能复制、只能截图，就是图像型。

如果 PDF 被加密（即使没设密码，也可能有空密码或权限密码），PdfReader 构造时会抛 BadPasswordException 或 InvalidPdfException。需提前捕获并尝试用空字符串解密：

炉米Lumi

字节跳动推出的AI模型分享社区和模型训练平台

下载

new PdfReader("file.pdf", "".ToCharArray()) 可绕过常见空密码
若仍失败，说明有真实密码，必须提供才能继续

需要 OCR 时，得换 Tesseract + 图像预处理

对扫描 PDF，先用 Ghostscript 或 ImageMagick 将每页转为 PNG/JPEG，再喂给 Tesseract（OCR 引擎）。

关键点：

Tesseract 的 eng.traineddata 语言包必须放在 tessdata 目录下，且初始化时指定路径：new TesseractEngine(@"./tessdata", "eng", EngineMode.Default)
图像质量影响极大：PDF 转图建议 DPI ≥ 300，灰度化 + 二值化（去噪）后再识别，否则错字率飙升
Tesseract .NET 封装推荐用 IronOcr（商业但易用）或 Tesseract.NET（免费但需手动配环境）

中文 PDF 常见乱码，根源在字体嵌入和编码映射

iTextSharp 默认用系统编码解析文本，但中文 PDF 多用自定义字体编码（如 GB2312、UTF-16BE 或 CID 字体），导致提取出“”或乱码。

缓解方式有限：

确保 PDF 中文字体已完全嵌入（用 Adobe Acrobat 检查「属性 → 字体」）
改用 UnicodeTextExtractionStrategy（部分版本支持，非标准类，需自行实现）
更稳的路子是弃用 iTextSharp，换 PDFiumSharp（基于 Google PDFium）或 QuestPDF 生态中的解析模块，它们对 Unicode 支持更底层

真正难搞的是那些用图形指令画汉字（非文本对象）的 PDF，这种连 OCR 都救不了——本质就不是文本，只是看着像。

C#解析Shapefile C#如何读取.shp地理信息系统文件

c# 中的 lamda 表达式详解

C#获取程序集关联文件 C#如何找到与DLL或EXE在同一目录的文件

C# Minimal API文件下载 C#如何从最简API返回一个文件流

C#同步文件夹 C#如何实现两个文件夹之间的单向或双向同步

相关标签:

pdf c# 封装字符串对象 default ocr

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：C# FFmpeg封装库 C#如何调用FFmpeg处理视频文件（如截图、转码）下一篇：暂无

作者最新文章

20厘米是多少英寸 20cm等于几寸

2026-02-09 18:50

微信被删和被拉黑哪个更难加回？手把手教你找回误删好友

2026-02-09 18:54

三角洲行动高速下载入口三角洲官方唯一指定入口

2026-02-09 19:04

全国大学生就业服务平台手机版入口 24365就业招聘会入口

2026-02-09 19:07

邮政快递禁寄物品查询入口邮政包裹保价服务办理入口

2026-02-09 19:11

AI辅助教学：教师如何用豆包设计教案和出试卷？

2026-02-09 19:12

个人所得税申报系统官方入口自然人电子税务局扣缴端入口

2026-02-09 19:15

谷歌浏览器官方入口 64位正式版离线安装包

2026-02-09 19:21

漫蛙全网最全漫画入口_manwa2日漫免费读

2026-02-09 19:30

拷贝漫画最新镜像入口_copy漫画永久直连通道

2026-02-09 19:32

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

464

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

213

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1519

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

634

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

801

2024.03.22