0

0

如何使用Python实现OCR识别?Tesseract配置

雪夜

雪夜

发布时间:2025-07-14 14:33:02

|

655人浏览过

|

来源于php中文网

原创

ocr识别关键在于配置tesseract环境并调用python库。1. 安装tesseract并配置环境变量,windows用户下载安装包后需添加路径至系统变量;2. python中使用pytesseract和pillow进行识别,注意指定路径及语言参数;3. 提高识别准确率可通过图像预处理如二值化、调整分辨率、去噪等操作实现。整个流程重点在环境配置与图像优化。

如何使用Python实现OCR识别?Tesseract配置

OCR(光学字符识别)其实就是让电脑从图片里“读出”文字。Python搭配Tesseract,是一个很实用又不难上手的方案。关键点在于配置好环境,并调用合适的库。

如何使用Python实现OCR识别?Tesseract配置

安装Tesseract并配置环境变量

要使用Tesseract,首先得把它安装好,并且能被Python调用到。

  • Windows用户可以去GitHub下载Tesseract安装包,推荐安装带有图形界面的那个版本。
  • 安装时记得选语言包,中文、英文这些常用语言最好都勾上。
  • 安装完成后,把Tesseract的安装路径加到系统环境变量PATH里,比如:C:\Program Files\Tesseract-OCR
  • 打开命令行输入tesseract -v,如果出现版本号说明配置成功。

这一步最容易踩坑的地方是路径没设置对,或者没有管理员权限导致无法写入系统变量。

立即学习Python免费学习笔记(深入)”;

如何使用Python实现OCR识别?Tesseract配置

Python中使用pytesseract进行OCR识别

安装完Tesseract后,就可以在Python代码中调用了。主要依赖的是pytesseractPillow这两个库。

pip install pytesseract pillow

然后简单写个脚本就能识别了:

Digram
Digram

让Figma更好用的AI神器

下载
如何使用Python实现OCR识别?Tesseract配置
from PIL import Image
import pytesseract

# 如果你没把tesseract加入环境变量,需要手动指定路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

image = Image.open('example.png')
text = pytesseract.image_to_string(image, lang='chi_sim')  # 中文简体
print(text)

几个需要注意的点:

  • 图片尽量清晰,背景干净,识别效果会更好
  • lang参数用来指定语言,多个语言可以用+连接,例如chi_sim+eng
  • 支持多种输出格式,比如PDF、字幕等,可以用image_to_pdf_or_hocr这类函数

提高OCR识别准确率的小技巧

有时候识别出来的文字乱七八糟,其实可以通过预处理来提升效果。

  • 图像二值化:将彩色图转成黑白,减少干扰
  • 调整分辨率:太小的文字建议放大,但不要过度
  • 去噪处理:可以用OpenCV做一些简单的滤波操作
  • 字体统一:如果是特定字体的截图,训练自定义模型会更准

举个例子,你可以先用PIL做灰度处理:

image = image.convert('L')  # 灰度图

或者用OpenCV降噪:

import cv2
import numpy as np

img = cv2.imread('example.png', 0)
img = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]

这些步骤虽然看起来麻烦,但对提高识别质量非常有帮助。


基本上就这些。整个流程不算复杂,但容易卡在配置环节。只要确保Tesseract装对、路径配好、Python库装全,剩下的就是调用和优化问题了。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

798

2026.01.21

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

760

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1128

2023.07.27

windows照片无法显示
windows照片无法显示

当我们尝试打开一张图片时,可能会出现一个错误提示,提示说"Windows照片查看器无法显示此图片,因为计算机上的可用内存不足",本专题为大家提供windows照片无法显示相关的文章,帮助大家解决该问题。

799

2023.08.01

windows查看端口被占用的情况
windows查看端口被占用的情况

windows查看端口被占用的情况的方法:1、使用Windows自带的资源监视器;2、使用命令提示符查看端口信息;3、使用任务管理器查看占用端口的进程。本专题为大家提供windows查看端口被占用的情况的相关的文章、下载、课程内容,供大家免费下载体验。

454

2023.08.02

windows无法访问共享电脑
windows无法访问共享电脑

在现代社会中,共享电脑是办公室和家庭的重要组成部分。然而,有时我们可能会遇到Windows无法访问共享电脑的问题。这个问题可能会导致数据无法共享,影响工作和生活的正常进行。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

2354

2023.08.08

windows自动更新
windows自动更新

Windows操作系统的自动更新功能可以确保系统及时获取最新的补丁和安全更新,以提高系统的稳定性和安全性。然而,有时候我们可能希望暂时或永久地关闭Windows的自动更新功能。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

823

2023.08.10

windows boot manager
windows boot manager

windows boot manager无法开机的解决方法:1、系统文件损坏,使用Windows安装光盘或USB启动盘进入恢复环境,选择修复计算机,然后选择自动修复;2、引导顺序错误,进入恢复环境,选择命令提示符,输入命令"bootrec /fixboot"和"bootrec /fixmbr",然后重新启动计算机;3、硬件问题,使用硬盘检测工具进行扫描和修复;4、重装操作系统。本专题还提供其他解决

1626

2023.08.28

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

17

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号