需开通百度OCR服务、获取密钥、调用接口并解析结果:先实名认证并创建表格识别应用获取App ID/API Key/Secret Key;再准备高清图像、配置Python环境;接着用Base64编码调用同步接口,传access_token获取JSON或Excel格式结构化数据;最后解析table_result重建表格并导出Excel,或使用AIP SDK简化流程。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望在百度AI平台中使用OCR技术提取图片中的表格内容并获得结构化结果,则需完成服务开通、密钥获取、接口调用与结果解析等关键环节。以下是实现该目标的具体步骤:
一、开通百度智能云OCR服务并获取凭证
该步骤是调用百度OCR表格识别接口的前提,需在百度智能云控制台完成实名认证、创建应用并启用对应服务,以获得合法调用权限。
1、访问百度智能云官网,使用手机号注册并完成企业或个人实名认证。
2、进入【产品服务】→【人工智能】→【文字识别(OCR)】,点击【立即使用】开通服务。
3、在【管理控制台】→【应用列表】中点击【创建应用】,选择服务类型为“表格识别”,填写应用名称后提交。
4、创建成功后,在应用详情页记录下App ID、API Key 和 Secret Key,后续代码调用必需使用这三项凭证。
二、准备待识别图像与开发环境
确保输入图像符合百度OCR识别要求,并配置支持HTTP请求与Base64编码的Python运行环境,以便发起标准API调用。
1、将待识别的表格截图或扫描件保存为JPG、PNG 或 PDF 格式,推荐分辨率不低于300dpi,且表格区域清晰、无严重倾斜或遮挡。
2、安装必要依赖库:执行命令 pip install requests baidu-aip openpyxl(若仅需JSON输出可省略openpyxl)。
3、确认Python版本为3.7及以上,避免因SDK兼容性导致调用失败。
三、调用表格识别同步接口获取结构化数据
百度OCR提供同步接口直接返回识别结果,适用于中小尺寸图像;返回数据含单元格坐标、文本内容及行列关系,便于程序进一步解析。
1、编写Python脚本,导入requests与base64模块,读取本地图像文件并进行Base64 编码。
2、调用OAuth 2.0鉴权接口,传入API Key与Secret Key,获取有效期为30天的access_token。
3、向URL https://aip.baidubce.com/rest/2.0/ocr/v1/table_recognition 发起POST请求,携带access_token、image(Base64字符串)、is_pdf(false)、result_type(excel或json)参数。
4、检查响应状态码是否为200,若返回error_msg字段非空,则根据提示修正图像质量或参数配置。
四、解析JSON响应并导出为Excel文件
当result_type设为json时,响应体包含table_result字段,其中以二维数组形式组织单元格内容,每个元素含row、col、content、rowspan、colspan等属性,可用于重建原始表格结构。
1、使用json.loads()解析响应文本,提取table_result列表。
2、初始化pandas DataFrame,依据row与col索引填充单元格内容;对rowspan>1或colspan>1的单元格,按规则合并对应行列范围。
3、调用DataFrame.to_excel()方法,指定引擎为openpyxl,生成格式规范的Excel文件,保留原始表格布局逻辑。
4、若需保留原始坐标信息,可额外将request_id与识别时间写入Excel工作表首行作为元数据。
五、使用AIP SDK简化调用流程
百度官方提供aip Python SDK,封装了鉴权、请求构造与异常处理逻辑,可减少手动编码量并提升稳定性。
1、初始化AipOcr客户端实例,传入已获取的App ID、API Key和Secret Key。
2、调用client.tableRecognitionAsync()方法上传图像,获得request_id;随后使用client.getTableRecognitionResult()轮询结果,适用于大图或高精度场景。
3、若采用同步方式,直接调用client.tablerecognition()方法,传入图像二进制数据,返回结构化JSON对象。
4、注意SDK默认超时时间为60秒,如遇网络延迟或大图识别,建议显式设置timeout参数为120。










