0

0

如何使用Python进行OCR?Tesseract识别

絕刀狂花

絕刀狂花

发布时间:2025-07-10 17:30:03

|

1068人浏览过

|

来源于php中文网

原创

使用python和tesseract进行ocr的核心步骤包括:1. 安装tesseract ocr引擎;2. 安装pytesseract库和pillow;3. 编写代码调用tesseract识别图片中的文字。安装tesseract时,windows用户需将其路径添加到环境变量或在代码中指定路径;macos可通过homebrew安装;linux可用包管理器安装。接着通过pip install pytesseract pillow安装依赖库。代码示例中包含错误处理,确保tesseract未找到或图片路径错误时能提示相关信息。常见参数如lang(指定语言)、config(设置psm和oem模式)可提升识别精度,而image_to_data()可用于获取文本位置和置信度。为优化低质量图片的识别效果,建议进行图像预处理,包括灰度化、二值化、去噪、倾斜校正、调整对比度/亮度以及适当缩放,这些操作通常结合opencv和pil库实现。

如何使用Python进行OCR?Tesseract识别

在Python里想做OCR(光学字符识别),Tesseract无疑是那个经常被提及的名字。它是个非常强大的开源OCR引擎,而我们通常会通过pytesseract这个Python库来与它进行交互,从而让Python程序能够调用Tesseract的识别能力,把图片上的文字“读”出来。简单来说,就是用pytesseract做桥梁,让Python能指挥Tesseract干活。

如何使用Python进行OCR?Tesseract识别

解决方案

要使用Python和Tesseract进行OCR,核心步骤包括安装Tesseract引擎本身、安装pytesseract库,然后编写几行代码来调用它。我个人觉得,最开始上手时,最大的“坑”可能就是Tesseract引擎的安装路径问题,尤其是Windows用户。

如何使用Python进行OCR?Tesseract识别

首先,确保你的系统里已经安装了Tesseract OCR引擎。这不是Python库,而是一个独立的应用程序。你可以去Tesseract的GitHub页面或者通过包管理器来安装它。比如在Debian/Ubuntu上是sudo apt install tesseract-ocr,在macOS上可以用Homebrew:brew install tesseract。Windows用户则需要下载安装包,安装时记得勾选“Add to PATH”或者手动添加到环境变量里,这步挺关键的。

立即学习Python免费学习笔记(深入)”;

接着,安装Python的pytesseract库:

如何使用Python进行OCR?Tesseract识别
pip install pytesseract pillow

Pillow是处理图像的库,pytesseract依赖它。

然后,就可以开始写代码了。一个最简单的例子就是识别一张图片中的文字:

import pytesseract
from PIL import Image

# 如果Tesseract没有添加到系统环境变量,你需要在这里指定它的安装路径
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' 
# 或者 '/usr/local/bin/tesseract' (macOS/Linux)

try:
    # 加载图片
    img = Image.open('example.png') 

    # 使用Tesseract进行OCR识别
    text = pytesseract.image_to_string(img)

    print("识别出的文字:")
    print(text)

except pytesseract.TesseractNotFoundError:
    print("错误:Tesseract OCR引擎未找到。请确保已安装Tesseract并将其路径添加到系统环境变量,或在代码中指定pytesseract.pytesseract.tesseract_cmd。")
except FileNotFoundError:
    print("错误:图片文件未找到。请检查图片路径是否正确。")
except Exception as e:
    print(f"发生了一个意外错误:{e}")

这里我特意加了错误处理,因为实际开发中,Tesseract找不到或者图片路径不对是常事。你得知道问题可能出在哪。

如何安装和配置Tesseract OCR引擎?

安装Tesseract OCR引擎是使用pytesseract的前提,这步有时候比写Python代码本身还让人头疼。Tesseract是个命令行工具pytesseract只是个包装器,所以它得能找到那个命令行工具。

Windows上,通常需要从Tesseract的GitHub发布页下载对应的安装程序(比如tesseract-ocr-w64-setup-v5.x.x.exe)。安装过程中,务必留意勾选“Add Tesseract to PATH”选项。如果忘记了,或者想手动设置,你需要把Tesseract的安装目录(比如C:\Program Files\Tesseract-OCR)添加到系统的环境变量Path里。或者,就像上面代码里展示的,直接在Python脚本中用pytesseract.pytesseract.tesseract_cmd = r'你的Tesseract安装路径\tesseract.exe'来指定。我个人倾向于添加到环境变量,这样全局可用,不用每个脚本都写一遍。

对于macOS用户,Homebrew是首选。打开终端,输入brew install tesseract,它会自动帮你处理好依赖和路径。这真的是Mac用户的一大福利,省心不少。

Linux发行版,比如Ubuntu或Debian,直接用包管理器安装:sudo apt update && sudo apt install tesseract-ocr。CentOS/RHEL则可能是sudo yum install tesseractsudo dnf install tesseract。安装完成后,Tesseract通常会自动添加到系统路径中。

安装完成后,你可以在命令行里输入tesseract --version来验证是否安装成功并能被系统识别。如果能显示版本信息,那就说明Tesseract已经准备就绪了。

pytesseract库的基本用法和常见参数有哪些?

pytesseract库本身用起来很直观,它提供了一些核心函数来满足不同的OCR需求。最常用的当然是image_to_string(),它直接返回识别出来的文本字符串。

除了最基础的识别,pytesseract还允许你传递一些参数给Tesseract,来控制识别过程,这对于提升识别精度非常重要。

JTBC网站内容管理系统5.0.3.1
JTBC网站内容管理系统5.0.3.1

JTBC CMS(5.0) 是一款基于PHP和MySQL的内容管理系统原生全栈开发框架,开源协议为AGPLv3,没有任何附加条款。系统可以通过命令行一键安装,源码方面不基于任何第三方框架,不使用任何脚手架,仅依赖一些常见的第三方类库如图表组件等,您只需要了解最基本的前端知识就能很敏捷的进行二次开发,同时我们对于常见的前端功能做了Web Component方式的封装,即便是您仅了解HTML/CSS也

下载
  • lang 参数: 这是最常用的一个。Tesseract支持多种语言识别,你需要告诉它识别什么语言。比如,识别中文就用lang='chi_sim'(简体中文),识别英文是lang='eng'。如果你需要识别多种语言混合的文本,可以用lang='eng+chi_sim'。不过,前提是你安装Tesseract时,也下载了对应的语言包。

    text_chinese = pytesseract.image_to_string(img, lang='chi_sim')
    print("中文识别:", text_chinese)
  • config 参数: 这个参数非常强大,你可以通过它传递任何Tesseract的命令行参数。比如,--psm(Page Segmentation Mode,页面分割模式)和--oem(OCR Engine Mode,OCR引擎模式)是两个非常关键的参数。

    • --psm 告诉Tesseract图片上的文字排布是怎样的。比如,--psm 6表示假设图片是单行文本(默认是3,自动页面分割)。如果你的图片就是一行字,用psm 7psm 10可能会更准。

      • 0: Orientation and script detection (OSD) only.
      • 3: Fully automatic page segmentation (default).
      • 6: Assume a single uniform block of text.
      • 7: Treat the image as a single text line.
      • 10: Treat the image as a single character. 选择合适的PSM能显著提高识别率。
    • --oem 决定使用哪个Tesseract引擎模式。

      • 0: Original Tesseract only.
      • 1: Neural nets LSTM only.
      • 2: Tesseract + LSTM.
      • 3: Default, based on what is available. 通常,LSTM(--oem 1)在很多情况下表现更好,尤其是在识别手写体或一些复杂字体时。
    # 假设图片是单行文本,并使用LSTM引擎
    config_str = r'--psm 7 --oem 1' 
    text_optimized = pytesseract.image_to_string(img, lang='eng', config=config_str)
    print("优化后识别:", text_optimized)
  • image_to_data() 如果你不仅想获取文本,还想知道每个识别出来的字符或者单词在图片中的位置(边界框)、置信度等信息,这个函数就派上用场了。它返回一个DataFrame格式的数据,非常适合后续的数据处理和可视化。

    import pandas as pd # 通常需要配合pandas来处理
    
    data = pytesseract.image_to_data(img, output_type=pytesseract.Output.DATAFRAME)
    print("\n详细识别数据:")
    print(data.head()) # 查看前几行

    这个函数对于开发更复杂的OCR应用,比如文本定位、信息抽取,非常有价值。

面对低质量图片,如何优化OCR识别效果?

说实话,Tesseract的识别效果好不好,很大程度上取决于你给它的图片质量。如果图片模糊、有噪声、倾斜或者光照不均,再强大的OCR引擎也可能“懵圈”。所以,对图片进行预处理,是提升OCR识别率的关键一步,甚至可以说,比调整Tesseract参数更重要。

常见的图像预处理技术包括:

  • 灰度化与二值化: 大多数情况下,OCR引擎只需要黑白信息。

    • 灰度化: 将彩色图片转换为灰度图,消除颜色信息,简化处理。
    • 二值化: 将灰度图转换为纯黑白图,背景纯白,文字纯黑。常用的方法有大津算法(Otsu's Binarization)。这能有效分离前景文字和背景。
    import cv2 # 通常用OpenCV来处理图像
    import numpy as np
    
    # 假设img_path是图片路径
    img_cv = cv2.imread('low_quality.png')
    
    # 转换为灰度图
    gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)
    
    # 大津二值化
    # ret, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    # 也可以尝试自适应阈值,对光照不均的图片效果更好
    binary = cv2.adaptiveThreshold(gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, 
                                   cv2.THRESH_BINARY, 11, 2)
    
    # 将OpenCV图像转换为PIL Image对象,以便pytesseract使用
    pil_img_binary = Image.fromarray(binary)
    text_processed = pytesseract.image_to_string(pil_img_binary, lang='eng')
    print("二值化后识别:", text_processed)
  • 去噪: 图片中的噪点会干扰识别。中值滤波、高斯滤波等方法可以有效去除椒盐噪声或高斯噪声。

    denoised = cv2.medianBlur(gray, 3) # 中值滤波,核大小为3x3
    # ... 然后再进行二值化和OCR
  • 倾斜校正(Deskewing): 如果图片是倾斜的,Tesseract识别效果会大打折扣。通过计算文本的倾斜角度并旋转图片,可以显著提升识别率。Tesseract自身有OSD(Orientation and Script Detection)功能,可以通过--psm 0来获取倾斜信息,然后手动旋转。

    # 获取图片倾斜信息(需要安装tessdata_fast/osd.traineddata)
    osd_data = pytesseract.image_to_osd(img)
    # print(osd_data) # 解析osd_data获取旋转角度
    
    # 假设解析出角度为angle
    # rotated = img.rotate(-angle, expand=True) # 使用PIL进行旋转
    # ... 然后进行OCR
  • 调整对比度和亮度: 有些图片可能太暗或太亮,导致文字难以辨认。适当调整对比度和亮度可以改善。

  • 缩放: 对于过小或过大的图片,有时进行适当的缩放(比如放大到300 DPI)也能帮助Tesseract更好地识别。

实际应用中,你可能需要结合多种预处理方法,并根据图片特性进行参数调优。这通常是一个迭代和实验的过程,没有一劳永逸的解决方案。我个人的经验是,多尝试不同的二值化方法和去噪算法,往往能带来意想不到的提升。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

339

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

416

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

761

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

349

2025.07.23

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

320

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1502

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

625

2023.11.24

C++ 设计模式与软件架构
C++ 设计模式与软件架构

本专题深入讲解 C++ 中的常见设计模式与架构优化,包括单例模式、工厂模式、观察者模式、策略模式、命令模式等,结合实际案例展示如何在 C++ 项目中应用这些模式提升代码可维护性与扩展性。通过案例分析,帮助开发者掌握 如何运用设计模式构建高质量的软件架构,提升系统的灵活性与可扩展性。

14

2026.01.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.1万人学习

Git 教程
Git 教程

共21课时 | 3.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号