讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

WBOY

发布时间：2024-03-08 15:46:02

|

858人浏览过

|

来源于51CTO.COM

转载

md2card

md2card

Markdown转知识卡片

下载

遮挡是计算机视觉很基础但依旧未解决的问题之一，因为遮挡意味着视觉信息的缺失，而机器视觉系统却依靠着视觉信息进行感知和理解，并且在现实世界中，物体之间的相互遮挡无处不在。牛津大学 vgg 实验室 andrew zisserman 团队最新工作系统性解决了任意物体的遮挡补全问题，并且为这一问题提出了一个新的更加精确的评估数据集。该工作受到了 mpi 大佬 michael black、cvpr 官方账号、南加州大学计算机系官方账号等在 x 平台的点赞。以下为论文「amodal ground truth and completion in the wild」的主要内容。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

论文链接：https://arxiv.org/pdf/2312.17247.pdf
项目主页：https://www.robots.ox.ac.uk/~vgg/research/amodal/
代码地址：https://github.com/Championchess/Amodal-Completion-in-the-Wild

非模态分割（Amodal Segmentation）旨在补全物体被遮挡的部分，即给出物体可见部分和不可见部分的形状掩码。这个任务可以使得诸多下游任务受益：物体识别、目标检测、实例分割、图像编辑、三维重建、视频物体分割、物体间支撑关系推理、机器人的操纵和导航，因为在这些任务中知道被遮挡物体完整的形状会有所帮助。

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

然而，如何去评估一个模型在真实世界做非模态分割的性能却是一个难题：虽然很多图片中都有大量的被遮挡物体，可是如何得到这些物体完整形状的参考标准或是非模态掩码呢？前人的工作有通过人手动标注非模态掩码的，可是这样标注的参考标准难以避免引入人类误差；也有工作通过制造合成数据集，比如在一个完整的物体上贴直接另一个物体，来得到被遮挡物体的完整形状，但这样得到的图片都不是真实图片场景。因此，这个工作提出了通过 3D 模型投影的方法，构造了一个大规模的涵盖多物体种类并且提供非模态掩码的真实图片数据集（MP3D-Amodal）来精确评估非模态分割的性能。各不同数据集的对比如下图：

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

具体而言，以 MatterPort3D 数据集为例，对于任意的有真实照片并且有场景三维结构的数据集，我们可以将场景中所有物体的三维形状同时投影到相机上以得到每个物体的模态掩码（可见形状，因为物体相互之间有遮挡），然后将场景中每个物体的三维形状分别投影到相机以得到这个物体的非模态掩码，即完整的形状。通过对比模态掩码和非模态掩码，即可以挑选出被遮挡的物体。

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

数据集的统计数据如下：

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

数据集的样例如下：

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

此外，为解决任意物体的完整形状重建任务，作者提取出 Stable Diffusion 模型的特征中关于物体完整形状的先验知识，来对任意被遮挡物体做非模态分割，具体的架构如下（SDAmodal）：

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

提出使用 Stable Diffusion Feature 的动机在于，Stable Diffusion 具有图片补全的能力，所以可能一定程度上包含了有关物体的全部信息；而且由于 Stable Diffusion 经过大量图片的训练，所以可以期待其特征在任意环境下有对任意物体的处理能力。和前人 two-stage 的框架不同，SDAmodal 不需要已经标注好的遮挡物掩码作为输入；SDAmodal 架构简单，却体现出很强的零样本泛化能力（比较下表 Setting F 和 H，仅在 COCOA 上训练，却能在另一个不同域、不同类别的数据集上有所提升）；即使没有关于遮挡物的标注，SDAmodal 在目前已有的涵盖多种类被遮挡物体的数据集 COCOA 以及新提出的 MP3D-Amodal 数据集上，都取得了SOTA表现（Setting H）。

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

除了定量实验，定性的比较也体现出了 SDAmodal 模型的优势：从下图可以观察到（所有模型都只在 COCOA 上训练），对于不同种类的被遮挡物体，无论是来自于 COCOA，还是来自于另一个MP3D-Amodal，SDAmodal 都能大大提升非模态分割的效果，所预测的非模态掩码更加接近真实的。

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

更多细节，请阅读论文原文。

相关文章

千问AI写SQL语句_千问AI数据库查询语句编写【高效】

可灵AI摇晃运镜如何模拟醉酒_可灵AI醉酒视角运镜技巧

如何零基础利用AI辅助通过专业资格考试利用Kimi整理全套考点与模拟题库

豆包AI怎么做股票K线图_豆包AI金融数据可视化法【专业】

如何提高短视频剪辑效率利用剪映AI剪辑功能快速成片

相关标签:

ai 架构 github cocoa stable diffusion https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三下一篇：田渊栋等人新作：突破内存瓶颈，让一块4090预训练7B大模型

作者最新文章

微信朋友圈怎么定时发送微信朋友圈定时发布设置方法【教程】

2026-01-06 09:59

苹果手机怎么定时发朋友圈 iPhone微信朋友圈自动发布方法【步骤】

2026-01-08 11:11

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

github中文官网入口 github中文版官网网页进入

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

3316

2026.01.21

github中文官网入口 github中文版官网网页进入

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

3316

2026.01.21

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2749

2024.08.16

Golang 测试体系与代码质量保障：工程级可靠性建设

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

48

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

43

2026.02.28

Golang 性能分析与运行时机制：构建高性能程序

Golang 性能分析与运行时机制：构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面，深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略，并结合实际案例剖析 Go 程序的运行时行为，帮助开发者掌握构建高性能应用的关键技能。

37

2026.02.28

Golang 并发编程模型与工程实践：从语言特性到系统性能

Golang 并发编程模型与工程实践：从语言特性到系统性能

本专题系统讲解 Golang 并发编程模型，从语言级特性出发，深入理解 goroutine、channel 与调度机制。结合工程实践，分析并发设计模式、性能瓶颈与资源控制策略，帮助将并发能力有效转化为稳定、可扩展的系统性能优势。

22

2026.02.27

Golang 高级特性与最佳实践：提升代码艺术

Golang 高级特性与最佳实践：提升代码艺术

本专题深入剖析 Golang 的高级特性与工程级最佳实践，涵盖并发模型、内存管理、接口设计与错误处理策略。通过真实场景与代码对比，引导从“可运行”走向“高质量”，帮助构建高性能、可扩展、易维护的优雅 Go 代码体系。

19

2026.02.27

Golang 测试与调试专题：确保代码可靠性

Golang 测试与调试专题：确保代码可靠性

本专题聚焦 Golang 的测试与调试体系，系统讲解单元测试、表驱动测试、基准测试与覆盖率分析方法，并深入剖析调试工具与常见问题定位思路。通过实践示例，引导建立可验证、可回归的工程习惯，从而持续提升代码可靠性与可维护性。

3

2026.02.27

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

10分钟--Midjourney创作自己的漫画

10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合

Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程

AI绘画教程

共2课时 | 0.2万人学习

最新文章

更多

如何写出高情商的职场拒绝文案利用文心一言模拟多场景得体回复

如何快速翻译并总结外网最新的AI论文利用DeepSeek实现技术逻辑的极速拆解

如何写出让爱人感到惊喜的情人节专属情书利用文心一言定制蕴含彼此细节的文案

如何提升代码安全性并修复漏洞利用DeepSeek进行静态安全扫描分析

猫箱官方入口网页版猫箱在线试玩免登录

DeepSeek怎么批量生成自媒体标题_DeepSeek爆款文案创作技巧【干货】

海螺AI航拍视角运镜怎么生成_海螺AI模拟无人机航拍方法

人工智能如何使用AutoGPT自主代理_人工智能实现任务自动分解执行

千问AI写SQL语句_千问AI数据库查询语句编写【高效】

可灵AI摇晃运镜如何模拟醉酒_可灵AI醉酒视角运镜技巧

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部