DeepSeek-OCR 2 是什么
deepseek-ocr 2 是由 deepseek 研发团队发布的全新一代光学字符识别模型,依托升级版 deepencoder v2 架构,推动 ocr 技术从静态图像扫描向语义驱动理解跃迁。该模型创新性地融合因果流查询(causal flow queries)与双流注意力机制,支持视觉 token 的动态重排序,从而更真实地模拟人类阅读过程,精准复现复杂文档的逻辑结构。在权威基准 omnidocbench v1.5 上,其综合性能达 91.09%,相较上一代大幅提升;同时显著抑制识别结果中的冗余重复现象,为构建统一多模态编码框架奠定了关键技术基础。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

DeepSeek-OCR 2 的核心能力
- 复杂版面深度解析:可高保真处理含表格、数学公式、多栏排版及嵌套结构的文档,准确还原语义连贯的阅读路径。
- 轻量级视觉表征:单页复杂文档仅需 256 至 1120 个视觉 Token 即可完成高效编码,大幅压缩计算资源消耗。
- 语义感知动态排序:借助因果流查询机制,依据图像内容实时调整视觉 Token 序列,突破传统自左至右、自上而下的固定扫描范式。
- 卓越识别精度:在 OmniDocBench v1.5 全面评测中斩获 91.09% 的综合得分,尤其在阅读顺序建模任务中表现突出,刷新行业指标。
DeepSeek-OCR 2 的技术架构
- DeepEncoder V2 编码器:视觉分词模块基于 SAM-base 主干与两级卷积层设计,输出特征维度为 896;引入因果流查询机制,其中视觉 Token 采用双向注意力,而因果流查询则使用单向因果注意力,协同实现语义引导下的 Token 重排。
- 因果驱动重排机制:通过因果流查询建模视觉元素间的依赖关系,使编码器具备根据上下文语义动态调整 Token 排序的能力,其注意力模式与大语言模型(LLM)高度对齐,强化连续视觉语义的理解一致性。
- 解码器设计:沿用 DeepSeek-OCR 系列的 DeepSeek-MoE Decoder,总参数量约 30 亿,推理时激活参数约为 5 亿,兼顾表达力与效率。
- 分阶段训练策略:涵盖编码器预训练、查询增强微调与解码器专项优化三个阶段,逐层提升模型在结构理解与文本生成上的协同能力。
DeepSeek-OCR 2 的开源资源
- GitHub 项目主页:https://www.php.cn/link/da8b34330eccde3a97217aa87af21155
- Hugging Face 模型中心:https://www.php.cn/link/b018c185922d15892813095e6205283a
- 论文原文链接:https://www.php.cn/link/da8b34330eccde3a97217aa87af21155/blob/main/DeepSeek\_OCR2\_paper.pdf
DeepSeek-OCR 2 的典型应用方向
- 文档数字化与归档管理:支持高精度转换纸质材料为结构化电子文档,兼容多语言与复杂排版,广泛适用于图书馆、档案馆及政务机构的长期保存与智能检索场景。
- 科研文献智能处理:可快速解析学术论文中的公式推导、图表说明与多栏正文,助力研究人员高效提取实验数据、定理结论等关键要素,加速知识挖掘与综述撰写。
- 企业智能办公提效:自动识别合同条款、财务报表、发票等业务文档中的核心字段,赋能自动化审核、合规校验与智能归档,全面提升组织运营效率。
- 教育信息化支撑:实现教材、习题册、试卷等教学资料的秒级数字化,无缝对接在线学习平台与AI助教系统,促进个性化教学与学情分析。
- 出版与新媒体内容生产:精准还原报刊杂志等高密度排版内容,加速数字报刊制作、版权保护与跨平台分发流程,推动传媒行业智能化升级。











