PDF转Excel出现乱码主因是字体未识别或编码错误,解决方法包括:一、Adobe Acrobat中勾选“保留原始字体和编码”并设文本编码为UTF-8或GB18030;二、WPS中在高级设置里将文本识别编码改为GBK或UTF-8(BOM)并启用智能修复;三、用Python的pdfplumber提取文本后以UTF-8编码写入Excel;四、对已生成乱码文件,在Excel中用SUBSTITUTE公式及查找替换清洗乱码。
☞☞☞☞点击夸克ai手把手教你,操作像呼吸一样简单!☜☜☜☜☜

如果您将PDF文件转换为Excel格式后出现文字乱码,通常是由于PDF中嵌入的字体未被正确识别,或转换工具默认采用错误的字符编码(如ANSI而非UTF-8/GBK)所致。以下是针对该问题的多种编码调整与修复办法:
一、使用Adobe Acrobat Pro调整导出编码设置
Adobe Acrobat Pro在导出PDF为Excel时允许手动指定文本编码方案,可有效规避因默认编码不匹配导致的乱码。
1、打开PDF文件,点击右上角“导出PDF”工具。
2、在导出类型中选择“电子表格”→“Microsoft Excel工作簿”,点击“导出”。
3、导出前弹出“导出设置”窗口,在“常规”选项卡下勾选“保留原始字体和编码”。
4、切换至“高级”选项卡,将“文本编码”下拉菜单改为“UTF-8”(中文PDF优先选此项)或“GB18030”(兼容简体中文旧系统)。
5、点击“确定”执行导出,检查生成的Excel文件是否恢复正常显示。
二、通过WPS Office手动重设PDF导入编码
WPS Office内置PDF转Excel功能支持导入阶段强制指定编码,适用于OCR已识别但字符映射错误的场景。
1、启动WPS Office,点击“PDF”→“PDF转Excel”。
2、添加目标PDF文件后,不立即点击“开始转换”,先点击右下角“高级设置”按钮。
3、在弹出窗口中找到“文本识别编码”选项,将其修改为“GBK”(适用于大多数简体中文PDF)。
4、若仍乱码,尝试切换为“UTF-8(BOM)”并勾选“启用智能字符修复”。
5、确认设置后点击“开始转换”,保存结果并验证单元格内文字是否清晰可读。
三、用Python脚本强制指定编码解析PDF文本层
当PDF具备可复制文本层(非纯图像PDF)时,可通过PyPDF2或pdfplumber提取原始字符串,并以指定编码写入Excel,绕过GUI工具的自动编码判断缺陷。
1、安装必要库:pip install pdfplumber openpyxl。
2、新建Python脚本,输入以下核心代码段:
3、使用pdfplumber.open()打开PDF,逐页调用page.extract_text()获取文本。
4、将提取内容统一按encoding='utf-8'写入pandas DataFrame,再用openpyxl保存为xlsx文件。
5、运行脚本后检查输出Excel,重点确认含中文标题、数字与符号的列是否无乱码、无空格错位。
四、对OCR识别后的乱码执行Excel内编码清洗
若已生成乱码Excel且无法重新转换,可在Excel内部通过公式与替换手段批量修复常见编码错位现象(如“浣”还原为“我”)。
1、在空白列输入公式:=SUBSTITUTE(SUBSTITUTE(A1,"","我"),"","你"),覆盖典型UTF-8误解为GBK的双字节乱码组合。
2、复制该列,右键选择“选择性粘贴”→“数值”,固化修正结果。
3、打开“查找和替换”(Ctrl+H),在“查找内容”栏粘贴乱码片段(如“锟斤拷”),在“替换为”栏输入对应正确汉字。
4、点击“全部替换”,特别注意勾选“区分全/半角”与“匹配整个单元格内容”以避免误替换。
5、对剩余疑似乱码字段,重复执行查找替换,直至所有单元格显示符合原始PDF语义。











