0

0

CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院

WBOY

WBOY

发布时间:2024-06-06 09:10:31

|

1140人浏览过

|

来源于51CTO.COM

转载

循环调用clip,无需额外训练就有效分割无数概念。

包括电影动漫人物,地标,品牌,和普通类别在内的任意短语。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院

牛津大学与谷歌研究院联合团队的这项新成果,已被CVPR 2024接收,并开源了代码。

CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院

团队提出名为CLIP as RNN(简称CaR)的新技术,解决了开放词汇量图像分割领域中的几个关键问题:

  • 无需训练数据:传统方法需要大量的掩膜注释或图像-文本数据集进行微调,CaR技术则无需任何额外的训练数据即可工作。
  • 开放词汇量的限制:预训练的视觉-语言模型(VLMs)在经过微调后,其处理开放词汇量的能力受到限制。CaR技术保留了VLMs的广泛词汇空间。
  • 对非图像中概念的文本查询处理:在没有微调的情况下,VLMs难以对图像中不存在的概念进行准确分割,CaR通过迭代过程逐步优化,提高了分割质量。

受RNN启发,循环调用CLIP

要理解CaR的原理,需要先回顾一下循环神经网络RNN。

RNN引入了隐藏状态(hidden state)的概念,就像是一个“记忆体”,存储了过去时间步的信息。而每个时间步共享同一组权重,可以很好地建模序列数据。

受RNN启发,CaR也设计成循环的框架,由两部分组成:

  • 掩膜提议生成器:借助CLIP为每个文本查询生成一个mask。
  • 掩膜分类器:再用一个CLIP模型,评估生成的每个mask和对应的文本查询的匹配度。如果匹配度低,就把那个文本查询剔除掉。

就这样反复迭代下去,文本查询会越来越精准,mask的质量也会越来越高。

最后当查询集合不再变化,就可以输出最终的分割结果了。

CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院

之所以要设计这个递归框架,是为了最大限度地保留CLIP预训练的”知识”。

CLIP预训练中见过的概念可是海量,涵盖了从名人、地标到动漫角色等方方面面。如果在分割数据集上微调,词汇量势必会大幅缩水。

例如“分割一切”SAM模型就只能认出一瓶可口可乐,百事可乐是一瓶也不认了。

Convai Technologies Inc.
Convai Technologies Inc.

对话式 AI API,用于设计游戏和支持端到端的语音交互

下载

CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院

但是直接拿CLIP做分割,效果又不尽如人意。

这是因为CLIP的预训练目标本来就不是为密集预测设计的。尤其是当图像中不存在某些文本查询时,CLIP很容易生成一些错误的mask。

CaR巧妙地通过RNN式的迭代来解决这个问题。通过反复评估、筛选查询,同时完善mask,最终实现了高质量的开放词汇分割。

最后再来跟随团队的解读,了解一下CaR框架的细节。

CaR技术细节

CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院

  • 循环神经网络框架:CaR采用了一个新颖的循环框架,通过迭代过程不断优化文本查询与图像之间的对应关系。
  • 两阶段分割器:由掩膜提议生成器和掩膜分类器组成,均基于预训练的CLIP模型构建,且权重在迭代过程中保持不变。
  • 掩膜提议生成:使用gradCAM技术,基于图像和文本特征的相似度得分来生成掩膜提议。
  • 视觉提示:应用如红圈、背景模糊等视觉提示,以增强模型对图像特定区域的关注。
  • 阈值函数:通过设置相似度阈值,筛选出与文本查询对齐程度高的掩膜提议。
  • 后处理:使用密集条件随机场(CRF)和可选的SAM模型进行掩膜细化。

通过这些技术手段,CaR技术在多个标准数据集上实现了显著的性能提升,超越了传统的零样本学习方法,并在与进行了大量数据微调的模型相比时也展现出了竞争力。如下表所示,尽管完全无需额外训练及微调,CaR在零样本语义分割的8个不同指标上表现出比之前在额外数据上进行微调过的方法更强的性能。

CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院

作者还测试了CaR在零样本Refering segmentation的效果,CaR也表现出了相较之前零样本的方法表现出更强的性能。

CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院

综上所述,CaR(CLIP as RNN)是一种创新的循环神经网络框架,能够在无需额外训练数据的情况下,有效地进行零样本语义和指代图像分割任务。它通过保留预训练视觉-语言模型的广泛词汇空间,并利用迭代过程不断优化文本查询与掩膜提议的对齐度,显著提升了分割质量。

CaR的优势在于其无需微调、处理复杂文本查询的能力和对视频领域的扩展性,为开放词汇量图像分割领域带来了突破性进展。

论文链接:https://arxiv.org/abs/2312.07661。
项目主页:https://torrvision.com/clip_as_rnn/。

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1969

2024.08.16

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

61

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

31

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

71

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

20

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

21

2026.01.13

PHP缓存策略教程大全
PHP缓存策略教程大全

本专题整合了PHP缓存相关教程,阅读专题下面的文章了解更多详细内容。

7

2026.01.13

jQuery 正则表达式相关教程
jQuery 正则表达式相关教程

本专题整合了jQuery正则表达式相关教程大全,阅读专题下面的文章了解更多详细内容。

4

2026.01.13

交互式图表和动态图表教程汇总
交互式图表和动态图表教程汇总

本专题整合了交互式图表和动态图表的相关内容,阅读专题下面的文章了解更多详细内容。

49

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

微信小程序开发之API篇
微信小程序开发之API篇

共15课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号