骡子快跑提供五种OCR文字识别方式:一、上传图像自动识别;二、截图粘贴快捷识别;三、Agent工作流嵌入OCR节点;四、命令行指令触发识别;五、实时摄像头文字捕捉。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果您在使用骡子快跑时需要将图片、截图或扫描件中的文字提取为可编辑文本,但系统未自动识别或识别结果不准确,则可能是OCR模块未正确调用或输入格式不符合要求。以下是实现文字识别的多种操作路径:
一、通过上传图像触发OCR识别
该方式适用于本地图片文件(如JPG、PNG、PDF扫描页),系统在上传后自动启动内置OCR引擎进行端到端文字提取。
1、在骡子快跑主界面点击“+”按钮或选择“新建任务”;
2、在任务类型中选择“文字识别”或“图像转文本”;
3、点击“上传文件”,从本地选取含文字的图像或PDF页面;
4、等待进度条完成,识别结果将在下方区域实时显示为可复制文本。
二、使用截图粘贴快捷识别
该方式利用骡子快跑的剪贴板监听能力,绕过文件上传步骤,直接对已复制的图像内容进行OCR解析,适合快速处理网页截图、聊天窗口截图等场景。
1、对目标区域执行截图操作(如Windows使用Win+Shift+S,Mac使用Cmd+Shift+4);
2、确保截图已成功复制至系统剪贴板;
3、切换至骡子快跑网页界面,将光标置于任意可输入框内;
4、按Ctrl+V(Windows/Linux)或 Cmd+V(Mac)粘贴,系统自动检测图像并启动OCR;
5、识别完成后,原始图像与提取文本将并列展示,支持一键全选复制。
三、在Agent工作流中嵌入OCR节点
该方式面向复杂任务场景,允许用户将OCR作为多步自动化流程中的一个环节,例如“截图→识别→翻译→保存为笔记”,由Agent网络自动调度OCR服务并传递上下文。
1、进入“Agent工作室”,点击“新建流程”;
2、在节点库中搜索并拖入“OCR识别”模块;
3、连接上游数据源(如“截图捕获”或“文件读取”节点);
4、双击OCR节点,在参数面板中选择语言模型(默认为中英文混合);
5、点击“运行流程”,系统调用云端OCR服务并返回结构化文本输出。
四、调用命令行式指令触发识别
该方式适用于熟悉快捷指令的用户,无需进入图形界面,直接在骡子快跑的命令输入栏中发送结构化指令,由后台虚拟机即时解析并返回OCR结果。
1、在任意页面底部找到命令输入框(显示“/ 输入指令…”提示);
2、键入指令:/ocr from clipboard(识别剪贴板图像)或/ocr from url https://example.com/image.png(识别远程图片);
3、按回车执行,系统立即返回纯文本结果及置信度评分;
4、结果默认保留于当前会话上下文中,可被后续指令直接引用。
五、启用实时摄像头文字捕捉
该方式支持通过设备摄像头对纸质文档、屏幕显示、标牌等现实场景中的文字进行即时识别,适用于会议记录、资料速录等移动办公场景。
1、点击界面右上角“相机图标”启动实时捕获模式;
2、对准含文字区域,画面中央出现绿色识别框;
3、当框内文字稳定显示高亮边框时,点击快门按钮;
4、系统截取当前帧并调用OCR引擎,3秒内返回识别文本;
5、识别结果附带原文定位坐标,支持点击跳转至图像对应位置。









