爬虫还担心验证码问题吗？这你给你解决方案！

看不見的法師

发布时间：2025-09-02 08:12:38

722人浏览过

来源于php中文网

原创

概述简介坑！安装 tesseract-ocr使用 pytesseract 识别验证码高级玩法 - 除线简介

首先呢，简单的验证码是这样的：

不是这样的：

这里使用了 pytesseract 来进行验证码识别，它是基于 Google 的 Tesseract-OCR ，所以在使用之前需要先安装 Tesseract-OCR。使用 PIL 来进行图像处理。pytesseract 默认支持 tiff、bmp 图片格式，使用 PIL 库之后，能够支持 jpeg、gif、png 等其他图片格式；

坑！

PIL(Python Imaging Library) 库只支持 32 位的系统，如果要在 64 位系统中使用，请安装 pillow。嗯，这个真是坑死我了，为了安装这个倒腾了很久。希望能帮到你。

32 位系统

代码语言：javascript代码运行次数：0运行复制

pip install PIL

64 位系统

代码语言：javascript代码运行次数：0运行复制

pip install pillow

安装 Tesseract-OCR

在使用 pytesseract 之前，必须安装 tesseract-ocr ，因为 pytesserat 依赖于 tesseract-ocr ，否则无法使用

Mac代码语言：javascript代码运行次数：0运行复制

brew install tesseract

centos7代码语言：javascript代码运行次数：0运行复制

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/yum updateyum install tesseract yum install tesseract-langpack-deu

windows

download-address（https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows）

使用 pytesseract 识别验证码

星月写作

专为网络小说、剧本创作者打造的AI增效工具

下载

首先将图像灰度化

代码语言：javascript代码运行次数：0运行复制

    #使用路径导入图片    im = Image.open(imgimgName)    #使用 byte 流导入图片    # im = Image.open(io.BytesIO(b))    # 转化到灰度图    imgry = im.convert('L')    # 保存图像    imgry.save('gray-' + imgName)

灰度化的图像是这个样子的：

然后将图像二值化

代码语言：javascript代码运行次数：0运行复制

    # 二值化，采用阈值分割法，threshold为分割点    threshold = 140    table = []    for j in range(256):        if j <p>二值化的图像是这个样子的：</p><figure class="">@@##@@</figure><p>最后进行识别</p>代码语言：javascript<i class="icon-code"></i>代码运行次数：<!-- -->0<svg xmlns="http://www.w3.org/2000/svg" width="16" height="16" viewbox="0 0 16 16" fill="none"><path d="M6.66666 10.9999L10.6667 7.99992L6.66666 4.99992V10.9999ZM7.99999 1.33325C4.31999 1.33325 1.33333 4.31992 1.33333 7.99992C1.33333 11.6799 4.31999 14.6666 7.99999 14.6666C11.68 14.6666 14.6667 11.6799 14.6667 7.99992C14.6667 4.31992 11.68 1.33325 7.99999 1.33325ZM7.99999 13.3333C5.05999 13.3333 2.66666 10.9399 2.66666 7.99992C2.66666 5.05992 5.05999 2.66659 7.99999 2.66659C10.94 2.66659 13.3333 5.05992 13.3333 7.99992C13.3333 10.9399 10.94 13.3333 7.99999 13.3333Z" fill="currentcolor"></path></svg>运行<svg width="16" height="16" viewbox="0 0 16 16" fill="none" xmlns="http://www.w3.org/2000/svg"><path fill-rule="evenodd" clip-rule="evenodd" d="M4.5 15.5V3.5H14.5V15.5H4.5ZM12.5 5.5H6.5V13.5H12.5V5.5ZM9.5 2.5H3.5V12.5H1.5V0.5H11.5V2.5H9.5Z" fill="currentcolor"></path></svg>复制<pre class="brush:php;toolbar:false;"> #  识别    text = pytesseract.image_to_string(out)    print("识别结果："+text)

识别结果是这样的：

高级玩法 - 除线

上面的知识简单的处理，在日常网络冲浪中，我们还会遇到这样的验证码：

这个给我们的识别增加了难度，我们要做的就是将这条线去掉。详细代码如下：

代码语言：javascript代码运行次数：0运行复制

def removeLine(imgName):    (img, pixdata) = open_img(imgName)    for x in range(img.size[0]):  # x坐标        for y in range(img.size[1]):  # y坐标            if pixdata[x, y][0]  0:                    if pixdata[x, y - 1][0] > 120 or pixdata[x, y - 1][1] > 136 or pixdata[x, y - 1][2] > 120:                        pixdata[x, y] = (255, 255, 255)  # ?    # 二值化处理    for y in range(img.size[1]):  # 二值化处理，这个阈值为R=95，G=95，B=95        for x in range(img.size[0]):            if pixdata[x, y][0] <p>那么我们的运行结果是这样的：</p><figure class="">@@##@@</figure>总结<p>经过这么一些折腾，我们总算是看到了我们想要的结果，但是我很遗憾地告诉你，pytesseract 还是无法识别处理过的图片，他的识别结果是这样的：</p><figure class="">@@##@@</figure><p>结果有点令人痛心，不过我们也算是为我们的目标踏进了一小步。你以为这篇文章就这样完了吗？嗯，是的，这篇文章就这样完了。不过好在 pytesseract 提供了自定义训练功能，来提高识别能力（也可以自建神经网络进行识别），这个暂且放到下一篇文章来写吧，因为今天是七夕耶。</p><p>参考文档：Verification-code-crack</p><p>后台【验证码源码】获取源码</p>

办公必学：如何根据Excel表格内容批量重命名对应的文件？

批量修改文件名并保留原名序号？小白也能看懂的高效教程

文件夹里几千个文件怎么按顺序重命名？详细步骤教学

Win11代码格式化一键咋用_Win11代码快捷格式化法【快捷】

Win11写Python代码卡吗 Win11配轻量环境运行畅【说明】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4066

2026.01.21

windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口等等。怎么查看windows端口占用情况呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

1476

2023.07.26

查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口，端口占用问题是计算机系统编程领域的一个常见问题，端口占用的根本原因可能是操作系统的一些错误，服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

1169

2023.07.27

windows照片无法显示

当我们尝试打开一张图片时，可能会出现一个错误提示，提示说"Windows照片查看器无法显示此图片，因为计算机上的可用内存不足"，本专题为大家提供windows照片无法显示相关的文章，帮助大家解决该问题。

835

2023.08.01

windows查看端口被占用的情况

windows查看端口被占用的情况的方法：1、使用Windows自带的资源监视器；2、使用命令提示符查看端口信息；3、使用任务管理器查看占用端口的进程。本专题为大家提供windows查看端口被占用的情况的相关的文章、下载、课程内容，供大家免费下载体验。

462

2023.08.02

windows无法访问共享电脑

在现代社会中，共享电脑是办公室和家庭的重要组成部分。然而，有时我们可能会遇到Windows无法访问共享电脑的问题。这个问题可能会导致数据无法共享，影响工作和生活的正常进行。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

2361

2023.08.08

windows自动更新

Windows操作系统的自动更新功能可以确保系统及时获取最新的补丁和安全更新，以提高系统的稳定性和安全性。然而，有时候我们可能希望暂时或永久地关闭Windows的自动更新功能。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

874

2023.08.10

windows boot manager

windows boot manager无法开机的解决方法：1、系统文件损坏，使用Windows安装光盘或USB启动盘进入恢复环境，选择修复计算机，然后选择自动修复；2、引导顺序错误，进入恢复环境，选择命令提示符，输入命令"bootrec /fixboot"和"bootrec /fixmbr"，然后重新启动计算机；3、硬件问题，使用硬盘检测工具进行扫描和修复；4、重装操作系统。本专题还提供其他解决

1974

2023.08.28

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板