后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

PHPz

发布时间：2024-02-19 09:57:02

1034人浏览过

来源于51CTO.COM

转载

ImageNet准确率曾是评估模型性能的主要指标，但在当今计算视觉领域，这一指标逐渐显得不够完善。

随着计算机视觉模型变得更加复杂，可用模型种类已显著增加，从ConvNets到Vision Transformers。训练方法也发展到自监督学习和像CLIP这样的图像-文本对训练，不再局限于ImageNet上的监督训练。

ImageNet的准确率虽然是一个重要指标，但并不足以全面评估模型的性能。不同的架构、训练方式和数据集可能会导致模型在不同任务上表现出差异，因此仅仅依靠ImageNet来评判模型可能存在局限性。当模型过度拟合ImageNet数据集并准确率达到饱和时，就可能忽略了模型在其他任务上的泛化能力。因此，需要综合考虑多方面因素来评估模型的性能和适用性。

虽然 CLIP 的 ImageNet 准确率与 ResNet 相似，但其视觉编码器的稳健性和可迁移性较优。这促使研究人员探索 CLIP 的独特优势，而这些优势在仅考虑 ImageNet 指标时并不明显。这突显了分析其他属性有助于发现有用模型的重要性。

除此之外，传统的基准测试无法全面评估模型处理真实世界视觉挑战的能力，如各种相机角度、光线条件或遮挡情况。以ImageNet等数据集训练的模型，通常难以在实际应用中发挥其性能，因为现实世界的条件和场景更为多样化。

这些问题，为领域内的从业者带来了新的困惑：如何衡量一个视觉模型？又如何选择适合自己需求的视觉模型？

在最近的一篇论文中，MBZUAI 和 Meta 的研究者对这一问题开展了深入讨论。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

论文标题：ConvNet vs Transformer, Supervised vs CLIP:Beyond ImageNet Accuracy
论文链接：https://arxiv.org/pdf/2311.09215.pdf

研究集中于ImageNet准确性之外的模型行为，分析了计算机视觉领域中主要模型的表现，包括ConvNeXt和Vision Transformer (ViT)，这两个模型在监督和CLIP训练范式下的表现。

所选模型的参数数量相似，且在每种训练范式下对 ImageNet-1K 的准确率几乎相同，确保了比较的公平性。研究者深入探讨了一系列模型特性，如预测误差类型、泛化能力、习得表征的不变性、校准等，重点关注了模型在没有额外训练或微调的情况下表现出的特性，为希望直接使用预训练模型的从业人员提供了参考。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

在分析中，研究者发现不同架构和训练范式的模型行为存在很大差异。例如，模型在 CLIP 范式下训练的分类错误少于在 ImageNet 上训练。不过，监督模型的校准效果更好，在 ImageNet 稳健性基准测试中普遍更胜一筹。ConvNeXt 在合成数据上有优势，但比 ViT 更偏重纹理。同时，有监督的 ConvNeXt 在许多基准测试中表现出色，其可迁移性表现与 CLIP 模型相当。

可以看出，各种模型以独特的方式展现了自己的优势，而这些优势是单一指标无法捕捉到的。研究者强调，需要更详细的评估指标来准确选择特定情境下的模型，并创建与 ImageNet 无关的新基准。

基于这些观察，Meta AI 首席科学家 Yann LeCun 转发了这项研究并点赞：

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

模型选择

对于监督模型，研究者使用了 ViT 的预训练 DeiT3- Base/16，它与 ViT-Base/16 架构相同，但训练方法有所改进；此外还使用了 ConvNeXt-Base。对于 CLIP 模型，研究者使用了 OpenCLIP 中 ViT-Base/16 和 ConvNeXt-Base 的视觉编码器。

请注意，这些模型的性能与最初的 OpenAI 模型略有不同。所有模型检查点都可以在 GitHub 项目主页中找到。详细的模型比较见表 1：

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

对于模型的选择过程，研究者做出了详细解释：

1、由于研究者使用的是预训练模型，因此无法控制训练期间所见数据样本的数量和质量。

2、为了分析 ConvNets 和 Transformers，之前的许多研究都对 ResNet 和 ViT 进行了比较。这种比较通常对 ConvNet 不利，因为 ViT 通常采用更先进的配方进行训练，能达到更高的 ImageNet 准确率。ViT 还有一些架构设计元素，例如 LayerNorm，这些元素在多年前 ResNet 被发明时并没有纳入其中。因此，为了进行更平衡的评估，研究者将 ViT 与 ConvNeXt 进行了比较，后者是 ConvNet 的现代代表，其性能与 Transformers 相当，并共享了许多设计。

3、在训练模式方面，研究者对比了监督模式和 CLIP 模式。监督模型在计算机视觉领域一直保持着最先进的性能。另一方面，CLIP 模型在泛化和可迁移性方面表现出色，并提供了连接视觉和语言表征的特性。

4、由于自监督模型在初步测试中表现出与监督模型类似的行为，因此未被纳入结果中。这可能是由于它们最终在 ImageNet-1K 上进行了有监督的微调，而这会影响到许多特性的研究。

接下来，我们看下研究者如何对不同的属性进行了分析。

分析

模型错误

ImageNet-X 是一个对 ImageNet-1K 进行扩展的数据集，其中包含对 16 个变化因素的详细人工注释，可对图像分类中的模型错误进行深入分析。它采用错误比例度量（越低越好）来量化模型在特定因素上相对于整体准确性的表现，从而对模型错误进行细致入微的分析。ImageNet-X 的结果表明：

1. 相对于监督模型，CLIP 模型在 ImageNet 准确性方面犯的错误更少。

2. 所有模型都主要受到遮挡等复杂因素的影响。

3. 纹理是所有模型中最具挑战性的因素。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

形状 / 纹理偏差

形状 - 纹理偏差会检测模型是否依赖于脆弱的纹理捷径，而不是高级形状线索。这种偏差可以通过结合不同类别的形状和纹理的线索冲突图像来研究。这种方法有助于了解，与纹理相比，模型的决策在多大程度上是基于形状的。研究者对线索冲突数据集上的形状 - 纹理偏差进行了评估，发现 CLIP 模型的纹理偏差小于监督模型，而 ViT 模型的形状偏差高于 ConvNets。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

模型校准

校准可量化模型的预测置信度与其实际准确度是否一致，可以通过预期校准误差 (ECE) 等指标以及可靠性图和置信度直方图等可视化工具进行评估。研究者在 ImageNet-1K 和 ImageNet-R 上对校准进行了评估，将预测分为 15 个等级。在实验中，研究者观察到以下几点：

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

1. CLIP 模型过于自信，而监督模型则略显不足。

2. 有监督的 ConvNeXt 比有监督的 ViT 校准效果更好。

稳健性和可迁移性

模型的稳健性和可迁移性对于适应数据分布变化和新任务至关重要。研究者使用各种 ImageNet 变体对稳健性进行了评估，结果发现，虽然 ViT 和 ConvNeXt 模型的平均性能相当，但除 ImageNet-R 和 ImageNet-Sketch 外，有监督模型在稳健性方面普遍优于 CLIP。在可迁移性方面，通过使用 19 个数据集的 VTAB 基准进行评估，有监督的 ConvNeXt 优于 ViT，几乎与 CLIP 模型的性能相当。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

合成数据

PUG-ImageNet 等合成数据集可以精确控制摄像机角度和纹理等因素，是一种很有前景的研究路径，因此研究者分析了模型在合成数据上的性能。PUG-ImageNet 包含逼真的 ImageNet 图像，姿态和光照等因素存在系统性变化，性能以绝对 top-1 准确率为衡量标准。研究者提供了 PUG-ImageNet 中不同因素的结果，发现 ConvNeXt 在几乎所有因素上都优于 ViT。这表明 ConvNeXt 在合成数据上优于 ViT，而 CLIP 模型的差距较小，因为 CLIP 模型的准确率低于监督模型，这可能与原始 ImageNet 的准确率较低有关。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

变换不变性

变换不变性是指模型能够产生一致的表征，不受输入变换的影响从而保留语义，如缩放或移动。这一特性使模型能够在不同但语义相似的输入中很好地泛化。研究者使用的方法包括调整图像大小以实现比例不变性，移动 crops 以实现位置不变性，以及使用插值位置嵌入调整 ViT 模型的分辨率。

他们在 ImageNet-1K 上通过改变 crop 比例 / 位置和图像分辨率来评估比例、移动和分辨率的不变性。在有监督的训练中，ConvNeXt 的表现优于 ViT。总体而言，模型对规模 / 分辨率变换的稳健性高于对移动的稳健性。对于需要对缩放、位移和分辨率具有较高稳健性的应用，结果表明有监督的 ConvNeXt 可能是最佳选择。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监督学习还是CLIP范式

总结

总体来说，每种模型都有自己独特的优势。这表明模型的选择应取决于目标用例，因为标准性能指标可能会忽略特定任务的关键细微差别。此外，许多现有的基准都来自于 ImageNet，这也会使评估产生偏差。开发具有不同数据分布的新基准对于在更具现实世界代表性的环境中评估模型至关重要。

以下是本文结论的概括：

ConvNet 与 Transformer

1. 在许多基准上，有监督 ConvNeXt 的性能都优于有监督 ViT：它的校准效果更好，对数据转换的不变性更高，并表现出更好的可迁移性和稳健性。

2. ConvNeXt 在合成数据上的表现优于 ViT。

3. ViT 的形状偏差更大。

监督与 CLIP

1. 尽管 CLIP 模型在可转移性方面更胜一筹，但有监督的 ConvNeXt 在这项任务中表现出了竞争力。这展示了有监督模型的潜力。

2. 有监督模型在稳健性基准方面表现更好，这可能是因为这些模型都是 ImageNet 变体。

3. CLIP 模型的形状偏差更大，与 ImageNet 的准确性相比，分类错误更少。

WorkBuddy如何通过语音指令控制电脑端的WorkBuddy_WorkBuddy语音交互教程【指南】

workbuddy部署常见坑点_workbuddy坑点避免指南【指南】

WorkBuddy如何进行多维度成本核算_WorkBuddy财务数据建模与分析指南【专业】

Perplexity移动端APP使用_Perplexity安卓与iOS版同步教程【入门】

QClaw2.0版本新增了什么功能_QClaw新版本特性与升级体验【介绍】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4449

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2933

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

105

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

236

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板