全面评估多模态模型视频 OCR 能力，Gemini 准确率仅 73.7%

心靈之曲

发布时间：2025-06-02 11:29:27

585人浏览过

来源于php中文网

原创

多模态大模型（mllm）在静态图像上已展现出强大的光学字符识别（ocr）能力，可以精准识别和理解图像中的文字内容。

不过，当应用范围扩展到动态视频时，即使是当下最先进的模型也遇到了巨大的难题。

MME-VideoOCR 致力于全面评估并促进 MLLM 在视频 OCR 方面的感知、理解和推理能力。

全面评估多模态模型视频 OCR 能力，Gemini 准确率仅 73.7%

主要贡献包括：

构建细致的任务体系：

精心规划了10 大任务类型，并进一步细分出25 个独立任务。

评价维度超越基础识别，深入考察时序理解、信息整合及复杂推理等高级能力。

高质量、大规模的数据集：

包含1,464 个精选视频片段，涵盖了不同分辨率、时长与场景。

构建了2,000 条高质量、经人工标注的问答对，保证评测的准确性。

揭示当前 MLLM 的能力边界与限制：

对包括闭源与领先开源模型在内的18 个主流 MLLM 进行了深入评测。

系统分析了各模型在不同视频 OCR 任务中的表现，明确了它们的优势和亟需改进的地方。

即便像 Gemini-2.5 Pro 这样的顶级模型，整体准确率也只有 73.7%，显示出当前 MLLM 在视频 OCR 领域的巨大挑战。

研究背景

视频作为一种信息密度更高、场景更复杂的媒介形式，其 OCR 任务的难度远远超过静态图像：

1 视频中的动态因素如运动模糊、光影变化、视角切换以及复杂的时序关联等，都对 MLLM 的视频文字识别构成显著障碍。

2 视频里的文字信息形式多样，可能出现在画面主体、背景场景，也可能以屏幕注释、水印或弹幕的形式存在。这要求模型能够建立稳定的时空视觉 - 文本关联，以便准确识别、整合与理解分布在不同位置与时间段的文字信息。

3 MLLM 不仅需要对视频中的文字进行精确识别，还需要在视觉、时序上下文中完成语义解析与推理判断，以实现对视频整体内容的深层理解。

目前，MLLM 在视频 OCR 领域的实际表现如何？其核心局限性体现在哪些方面？我们应如何系统地评估并推动其发展？这些问题急需一个明确的答案。

全面评估多模态模型视频 OCR 能力，Gemini 准确率仅 73.7%

MME-VideoOCR 评测框架详解

MME-VideoOCR 的设计核心在于其全面性和深度，旨在评估模型从 " 看到 " 到 " 理解 " 视频文字信息的全方位能力。

数据构建

MME-VideoOCR 的数据集来源于部分高质量数据集和人工采集与构造，经过精心筛选与处理，确保其：

多样性：

涵盖生活记录、影视娱乐、教育科普、体育赛事、游戏直播等多元化场景。

挑战性：

融入运动模糊、低分辨率、复杂背景、艺术字体、文字遮挡、多语言混合等真实世界的复杂因素。

时序性：

特别设计了需要跨帧理解、追踪文字动态、整合时序信息的复杂任务，考验模型的动态处理能力。

考虑到短视频、弹幕视频及 AIGC 视频的逐渐普及，MME-VideoOCR 额外引入了这些特殊类型的视频，增加了数据的全面性。

共收集1,464 个视频和2000条样本。

全面评估多模态模型视频 OCR 能力，Gemini 准确率仅 73.7%

任务设计

10 大任务类别与25 个子任务紧密围绕视频 OCR 的核心挑战，重点评估模型在以下方面的能力：

基础识别：

在各种视频条件下准确识别文字及其属性。

时空定位：

识别文字在视频中的时间、空间位置。

Imagine By Magic Studio

AI图片生成器，用文字制作图片

下载

时序追踪：

理解文字内容随时间的演变。

特殊文本解析：

对表格、图表、文档、公式、手写体等特殊文本进行有效解析。

信息整合：

结合视频上下文与文字进行综合理解。

场景理解：

在特定视频情境下解读文字的深层含义。

复杂推理：

基于视频中的文字信息进行逻辑判断与问答。

模型鲁棒性：

对于 AIGC、对抗样本和超长视频的有效理解。

全面评估多模态模型视频 OCR 能力，Gemini 准确率仅 73.7%

评估策略

针对不同任务的特点和标准答案可能存在的灵活性，设计了字符串匹配、多选题以及 GPT 辅助评分三种评测方式。

实验发现总结

全面评估多模态模型视频 OCR 能力，Gemini 准确率仅 73.7%

通过对 18 个主流 MLLM 的深度评测，MME-VideoOCR 揭示了以下关键发现：

整体性能：提升空间巨大

顶尖模型面临挑战：

Gemini-2.5 Pro 虽然表现最佳，但73.7%的准确率表明，即便是 SOTA 模型在应对复杂视频 OCR 任务时也远未达到理想状态。

开源模型差距显著：

当前多数开源 MLLM 在视频 OCR 任务上的表现与顶尖闭源模型相比，存在较大差距，大多数开源模型准确率甚至不足 60%。

能力短板：时序与推理是关键瓶颈

静态易，动态难：

模型处理单帧或短时序的文字信息相对较好，但在需要整合长时序信息、理解文字动态变化时，性能显著下降。

时空推理能力薄弱：

要求结合文字内容及其时空信息进行推理的任务，是当前 MLLM 的普遍弱点。

全面评估多模态模型视频 OCR 能力，Gemini 准确率仅 73.7%

语言先验依赖问题：模型在进行视频文字理解时，有时会过度依赖其语言模型的先验知识，而未能充分利用视觉信息进行判断。

优化关键：高分辨率与时序信息

全面评估多模态模型视频 OCR 能力，Gemini 准确率仅 73.7%

实验指出，提供更高分辨率的视觉输入和更完整的时序帧覆盖，对于提升 MLLM 在动态视频场景下的 OCR 性能至关重要。

同时需要注意的是，更多的视觉输入可能会使模型难以专注于目标信息，从而导致准确率的下降，这也对模型的信息提取与处理能力提出了更高的要求。

论文地址：https://www.php.cn/link/21b6529de735e29783012ab4f9ce604d

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

vivo X300 Ultra 即将首秀，MWC 见

荣耀新款折叠屏或再创轻薄世界记录：8.5mm+215 克

智驾感知迈入“超清”时代：解码鸿蒙智行全新激光雷达的技术颠覆力

最懂 iPhone 相机的人，回到苹果了

马斯克真没吹牛！世界模型 Genie 3 一键打造 GTA6 不是梦

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

760

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1567

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1228

2024.03.22

php中定义字符串的方式

php中定义字符串的方式：单引号；双引号；heredoc语法等等。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

1204

2024.04.29

go语言字符串相关教程

本专题整合了go语言字符串相关教程，阅读专题下面的文章了解更多详细内容。

193

2025.07.29

c++字符串相关教程

本专题整合了c++字符串相关教程，阅读专题下面的文章了解更多详细内容。

131

2025.08.07

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板