clawdbot vision api 提供四种 ocr 实现方式:一、直接调用 api 发送图片获取结构化文本及坐标信息;二、先上传图片获 image_id 再异步识别;三、集成 sdk 本地轻量 ocr;四、配置自定义模板提升固定版式文档字段提取精度。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您希望从图片中自动提取文字和结构化数据,Clawdbot Vision API 提供了基于 OCR 技术的图像文本识别能力。以下是实现该功能的具体操作路径:
一、使用 API 直接发送图片进行 OCR 识别
该方法适用于已有图片文件或图片 URL 的场景,通过 HTTP POST 请求将图像内容提交至 Clawdbot Vision API 端点,服务端完成图像预处理、文本检测与识别,并返回 JSON 格式的结构化结果。
1、准备一张清晰的 JPG 或 PNG 格式图片,确保文字区域无严重倾斜、遮挡或低对比度问题。
2、构造 HTTP POST 请求,设置请求头 Content-Type 为 multipart/form-data,并在表单字段中添加 image 字段,值为图片二进制流。
3、向 https://api.clawdbot.com/v1/ocr 发起请求,携带有效的 API Key(需在请求头中添加 Authorization: Bearer
4、接收响应体,解析 JSON 中的 text 字段获取完整识别文本,同时读取 blocks、lines、words 数组以获得坐标、置信度及层级结构信息。
二、上传图片至临时存储后调用 OCR 接口
当图片体积较大或需复用同一张图多次识别时,可先上传至 Clawdbot 提供的临时对象存储空间,获得唯一 image_id,再以此 ID 异步触发 OCR 任务,避免长连接阻塞。
1、向 https://api.clawdbot.com/v1/upload 发起 POST 请求,上传图片并获取返回的 image_id 和 expires_at 时间戳。
2、使用上一步获得的 image_id,向 https://api.clawdbot.com/v1/ocr/by-id 发起 GET 请求,附带 Authorization 头。
3、检查响应状态码:若为 202,表示任务已入队;等待数秒后重试,直至返回 200 并包含 results 字段。
4、从 results.text 获取纯文本输出,从 results.entities 提取识别出的电话、日期、金额等预定义实体类型。
三、集成 SDK 在本地环境执行轻量 OCR
Clawdbot 提供 Python 和 JavaScript 官方 SDK,内置离线 OCR 模型(仅支持英文与简体中文),适用于对延迟敏感或网络受限的终端设备,无需上传原始图片至云端。
1、执行 pip install clawdbot-vision(Python)或 npm install clawdbot-vision(Node.js)完成 SDK 安装。
2、初始化客户端实例,传入本地模型路径(SDK 自动下载默认模型至 ~/.clawdbot/models/)。
3、调用 client.ocr_from_file("invoice.jpg") 方法,输入本地图片路径,返回包含 bounding_box、text、confidence 的字典列表。
4、遍历结果列表,筛选 confidence 值大于 0.85 的条目以保障识别可靠性。
四、配置自定义模板提升结构化字段提取精度
针对发票、身份证、营业执照等固定版式的文档,可通过上传样例图片与标注字段位置的方式创建专属 OCR 模板,使 API 在识别时优先匹配该布局,显著提升关键字段如“纳税人识别号”、“有效期至”的定位与抽取准确率。
1、登录 Clawdbot 控制台,进入 Vision → Templates 页面,点击“新建模板”。
2、上传三张以上同类型文档图片,在界面中手动框选“姓名”“地址”“金额”等目标区域,并为每个框指定字段名称和数据类型。
3、保存模板后获取 template_id,后续调用 OCR 接口时在请求体中加入 template_id 字段。
4、响应中将新增 fields 对象,其中每个键对应所标注的字段名,值为识别出的标准化文本,例如 "tax_id": "91110000MA00123456"。










