百度OCR文字提取需六步:一、注册认证获API密钥;二、用密钥获取Access Token;三、图像转Base64或提供可访问URL;四、调用general_basic接口传参识别;五、用SDK简化Token与请求管理;六、解析结果及坐标实现标注。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望从图片中快速提取可编辑的文字内容,但尚未掌握百度AI文字识别的具体调用方式,则可能是由于未完成认证配置、未构造有效请求或未正确处理图像数据。以下是实现百度OCR文字提取的完整操作步骤:
一、注册账号并获取API密钥
使用百度AI文字识别服务前,必须通过百度智能云平台完成开发者身份认证,并获得合法调用凭证。该步骤确保接口访问具备权限与计费依据。
1、访问百度智能云官网,注册账号并完成实名认证。
2、登录后进入「控制台」→「人工智能」→「文字识别」服务页面。
3、点击「创建应用」,填写应用名称(如“OCR测试”),选择服务类型为「通用文字识别」。
4、创建成功后,系统自动生成API Key与Secret Key,请立即复制并安全保存。
二、获取Access Token鉴权令牌
所有OCR接口调用均需携带有效的Access Token,该令牌由API Key和Secret Key动态生成,有效期为30天,用于验证请求合法性。
1、构造鉴权请求URL:https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=YOUR_API_KEY&client_secret=YOUR_SECRET_KEY。
2、使用curl或Python requests发起GET请求,例如:
3、解析返回JSON,提取字段access_token的值,后续所有OCR请求均需在URL中拼接该参数。
三、准备待识别图像并编码
百度OCR接口支持Base64编码的本地图片或公网可访问的图片URL。本地图片需转换为标准Base64字符串,且不得包含头部声明(如data:image/jpeg;base64,)。
1、确保图片格式为JPG、PNG或BMP,单图大小不超过5MB。
2、使用Python读取并编码:
3、对二进制数据调用base64.b64encode(),再解码为UTF-8字符串,得到纯Base64编码结果。
4、若使用URL方式,须确保该URL可被百度服务器直接访问(非内网或需登录的链接)。
四、调用通用文字识别接口
通用文字识别接口适用于大多数印刷体场景,响应快、兼容性强,是入门首选。其核心是向指定URL发送POST请求并解析返回的JSON结构化文本。
1、接口地址:https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic。
2、设置请求头:Content-Type为application/x-www-form-urlencoded。
3、构造表单参数:将Base64字符串赋给字段image,并将上一步获取的access_token作为URL参数传入。
4、发送请求后,检查响应中是否存在words_result字段;若存在,遍历其中每个item的words键即可获得识别出的文字行。
五、使用SDK简化调用流程
百度官方提供多语言SDK,封装了Token管理、HTTP请求、错误重试等逻辑,显著降低集成复杂度,尤其适合中大型项目或需要长期维护的系统。
1、执行命令安装Python SDK:pip install baidu-aip。
2、初始化AipOcr客户端,传入App ID、API Key与Secret Key。
3、调用client.basicGeneral(image)方法,传入已读取的二进制图片数据。
4、SDK自动完成Token获取、刷新及请求封装,无需手动拼接URL或处理鉴权过期问题。
六、处理识别结果与位置信息
除纯文本外,部分OCR接口还返回文字区域坐标(x,y,width,height),可用于高亮标注、版面还原或结构化抽取,提升下游业务适配能力。
1、在请求参数中添加recognize_granularity=big,可启用单词级识别粒度。
2、响应JSON中words_result数组内每个元素将包含location字段,记录该行文字在原图中的矩形框位置。
3、结合OpenCV或PIL库,可基于location坐标在原图上绘制文字边界框,实现可视化验证。










