0

0

Andrej Karpathy 评 DeepSeek-OCR 论文:图像输入可能成为大语言模型新方向

花韻仙語

花韻仙語

发布时间:2025-10-21 18:41:00

|

982人浏览过

|

来源于php中文网

原创

andrej karpathy 评 deepseek-ocr 论文:图像输入可能成为大语言模型新方向

特斯拉前自动驾驶负责人、OpenAI联合创始人Andrej Karpathy近日在社交媒体上对开源项目DeepSeek-OCR的论文发表评论,提出了一项引人深思的观点:未来大语言模型(LLM)可能应更多依赖图像而非传统文本token作为输入方式。这一见解迅速在AI研究圈引发热议,推动人们重新思考模型输入范式的演进路径。

Karpathy指出,当前主流的文本分词机制存在效率瓶颈,而以图像形式输入信息或能带来显著提升。他从多个角度分析了图像输入相较于标准token序列的潜在优势。

首先是更高的信息密度。当文字被渲染为图像后,单个视觉patch可承载多个字符内容,相比之下,传统tokenization方案中每个子词或字符往往需独立编码。这意味着,在处理超长上下文时,图像表示有望大幅减少所需的token数量,从而降低计算开销并提升整体效率。

其次是表达能力的增强。图像天然具备对字体样式、颜色、排版结构等视觉特征的承载能力,这些在纯文本系统中通常需要借助额外标记语言(如HTML或Markdown)来描述,而这本身又会增加token负担。若直接输入图像,模型便能更直观地感知文档的格式意图和重点信息。

第三点涉及注意力机制的设计优化。图像输入支持双向注意力结构,允许模型在整个上下文中自由聚焦任意位置,而不像自回归文本生成那样受限于因果顺序。这种非因果性有助于提升语义理解的完整性和准确性。

Karpathy还特别批评了tokenizer本身的复杂与冗余。他认为分词器是一个历史遗留组件,并非端到端设计的理想选择。例如,视觉上完全相同的字符因Unicode来源不同可能被切分为不同token,导致模型误判输入差异。若跳过分词步骤,直接将文本作为图像进行处理,则整个流程将更加简洁一致。

从技术基础来看,这一设想并非空中楼阁。近年来Vision Transformer等视觉架构已展现出强大的图像理解能力,而DeepSeek-OCR等系统的高精度也证明,从图像中还原并理解文本内容已成为现实。这为将“所有文本处理视为视觉任务”提供了可行性支撑。

但他也坦承一个关键限制:尽管输入可用图像,输出仍需回归文本。由于高质量图像生成难度大、成本高,用户交互界面依然依赖可读、可复制的文本结果。因此,即便采用图像输入,系统仍须保留强大的文本生成能力,无法彻底脱离传统语言建模模块。

Remove.bg
Remove.bg

AI在线抠图软件,图片去除背景

下载

该观点激起了广泛讨论。从效率维度看,若图像输入确能压缩上下文长度,在处理法律文书、技术手册等长篇材料时将极具价值;从架构统一性出发,图像输入或将打通OCR、文档解析、多模态问答等多个任务边界,实现更一致的模型设计。

然而挑战同样明显。其一,图像编码本身计算量较大,可能抵消部分节省下来的token红利;其二,图像化的“文本”难以编辑、搜索或程序化操作,丧失了纯文本的灵活性;其三,现有NLP生态高度依赖token级处理工具链——包括训练数据、评估指标、推理引擎等——全面转向图像输入意味着重建整套基础设施。

从长远视角观察,Karpathy的看法揭示了一个深层趋势:随着视觉模型日益强大,“语言模型”或许正逐步演化为“通用信息处理器”,其中文本只是信息呈现的一种形态。在这种范式下,语言与视觉的界限将进一步模糊,催生更具包容性的智能系统。

DeepSeek-OCR之所以成为此次讨论的导火索,正是因为它标志着OCR已超越简单字符识别,迈向深层次文档语义理解的新阶段。如果模型能够精准解析复杂排版中的语义结构,那么将一切文本理解任务都归结为“视觉理解”在逻辑上是成立的。

Karpathy最后半开玩笑地表示:“得忍住别马上去做一个只接受图像输入的聊天机器人。”这句话既流露出他对该方向的热情,也折射出实际落地过程中的重重障碍。这种根本性架构变革需要大量实证验证,还需克服工程、性能与兼容性等多重难题。

在应用层面,即使图像输入最终被证实更具优势,过渡过程也将是渐进式的。更现实的发展路径或是混合模式:在重视格式保真的场景(如合同分析、网页理解)使用图像输入;而在强调可编程性和组合性的场合(如代码生成、指令编辑),继续沿用文本token。

总而言之,Karpathy的观点虽具颠覆性,却为AI输入表示的研究打开了新的思路。它质疑了“文本必须转为token”的默认设定,促使学界重新审视模型前端设计的根本原则。无论这一构想是否最终普及,它都可能成为推动下一代高效、统一AI架构的重要催化剂。

相关专题

更多
html版权符号
html版权符号

html版权符号是“©”,可以在html源文件中直接输入或者从word中复制粘贴过来,php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

616

2023.06.14

html在线编辑器
html在线编辑器

html在线编辑器是用于在线编辑的工具,编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方,是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容,供大家免费下载使用。

657

2023.06.21

html网页制作
html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程,html是一种标记语言,它使用标记来描述文档结构和语义,并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容,供大家免费下载体验。

470

2023.07.31

html空格
html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符,被用于在网页中插入额外的空间,以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容,供大家免费下载体验。

245

2023.08.01

html是什么
html是什么

HTML是一种标准标记语言,用于创建和呈现网页的结构和内容,是互联网发展的基石,为网页开发提供了丰富的功能和灵活性。本专题为大家提供html相关的各种文章、以及下载和课程。

2898

2023.08.11

html字体大小怎么设置
html字体大小怎么设置

在网页设计中,字体大小的选择是至关重要的。合理的字体大小不仅可以提升网页的可读性,还能够影响用户对网页整体布局的感知。php中文网将介绍一些常用的方法和技巧,帮助您在HTML中设置合适的字体大小。

507

2023.08.11

html转txt
html转txt

html转txt的方法有使用文本编辑器、使用在线转换工具和使用Python编程。本专题为大家提供html转txt相关的文章、下载、课程内容,供大家免费下载体验。

312

2023.08.31

html文本框代码怎么写
html文本框代码怎么写

html文本框代码:1、单行文本框【<input type="text" style="height:..;width:..;" />】;2、多行文本框【textarea style=";height:;"></textare】。

426

2023.09.01

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3万人学习

AngularJS教程
AngularJS教程

共24课时 | 2.8万人学习

CSS教程
CSS教程

共754课时 | 22.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号