0

0

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

WBOY

WBOY

发布时间:2024-04-16 19:55:24

|

845人浏览过

|

来源于51CTO.COM

转载

原标题:roadbev: road surface reconstruction in bird’s eye view

论文链接:https://arxiv.org/pdf/2404.06605.pdf

代码链接:https://github.com/ztsrxh/RoadBEV

作者单位:清华大学 加州大学伯克利分校

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

论文思路:

道路表面状况,尤其是几何轮廓,极大地影响自动驾驶车辆辆行驶的驾驶能力。基于视觉的在线道路重建有望提前捕获道路信 息。现有的解决方案如单目深度估计和立体视觉估计都有其局限性。最近的鸟瞰视角(BEV)感知技术为更可靠和精确的重建提供了巨大 动力。本文统一提出了两种有效的BEV道路高程重建模型,分别命名为RoadBEV-mono和RoadBEV-stereo,它们区别于使用单目和双目图像 进行道路高程估计。前者直接从单幅图像中估计道路高程,而后者利用左右体视图估计道路高程。深入的分析揭示了它们与透视图的一致性和差异。 在实际世界数据集上的实验证明了模型的有效性和优越性。RoadBEV-mono和RoadBEV-stereo的高程误差分别为1.83米和0.56米。基于 单目图像的BEV估计性能提高了50%。本文的模型有望在基于视觉的自动驾驶技术中提供宝贵的参考。

主要贡献:

本文首次从理论和实验两个方面展示了鸟瞰视角下道路表面重建的必要性和优越性。

本文介绍了两种模型,分别命名为RoadBEV-mono和RoadBEV-stereo。对于单目和立体基础方案,本文详细解释了它们的机制。

本文全面测试和分析了所提出模型的性能,为未来的研究提供了宝贵的见解和展望。

网络设计:

近年来,无人地面车辆(UGVs)的快速发展对车载感知系统提出了更高的要求。实时理解驾驶环境和条件对于准确的运动规划和控制至关重要[1]-[3]。对于车辆来说,道路是与物理世界接触的唯一媒介。道路表面状况决定了许多车辆特性和驾驶性能[4]。如图1(a)所示,道路的不平整性,如颠簸和坑洼,会加剧乘坐车辆的乘坐体验,这是直观可感知的。实时道路表面状况感知,特别是几何高程,极大地助于提升乘坐舒适度[5],[6]。

与无人地面车辆(UGVs)中的其他感知任务如分割和检测相比,道路表面重建(road surface reconstruction)(RSR)是一种新兴技术,最近越来越受到关注。与现有的感知流程类似,RSR通常利用车载激光雷达(LiDAR)和摄像头传感器来保留道路表面信息。激光雷达直接扫描道路轮廓并派生出点云[7],[8]。车辆轨迹上的道路高程可以直接提取,无需复杂算法。然而,激光雷达传感器成本较高,限制了它们在经济型量产车辆上的应用。与车辆和行人等体积较大的交通物体不同,道路的不平整性通常幅度较小,因此点云的准确性至关重要。实时道路扫描上的运动补偿和过滤是必需的,这进一步要求在厘米级别的高精度定位。

基于图像的道路表面重建(RSR),作为一个三维视觉任务,在精度和分辨率方面比激光雷达(LiDAR)更有前景。它还保留了道路表面纹理,使得道路感知更加全面。基于视觉的道路高程重建实际上是一个深度估计问题。对于单目相机,可以基于单张图片实施单目深度估计,或者基于序列实施多视角立体(MVS)来直接估计深度[9]。对于双目相机,双目匹配回归视差图,这可以转换为深度[10],[11]。给定相机参数,就可以恢复相机坐标系中的道路点云。通过初步的后处理流程,最终获得道路结构和高程信息。在真值(GT)标签的指导下,可以实现高精度和可靠的RSR。

然而,图像视角下的道路表面重建(RSR)存在固有的缺点。对于特定像素的深度估计实际上是沿着垂直于图像平面方向寻找最优箱体(optimal bins)(如图1(b)中的橙色点所示)。深度方向与道路表面存在一定的角度偏差。道路轮廓特征的变化和趋势与搜索方向上的变化和趋势不一致。在深度视图中关于道路高程变化的信息线索是稀疏的。此外,每个像素的深度搜索范围是相同的,导致模型捕捉到的是全局几何层次结构而不是局部表面结构。由于全局但粗糙的深度搜索,精细的道路高程信息被破坏。由于本文关注的是垂直方向上的高程,因此在深度方向上所做的努力被浪费了。在透视视图中,远距离的纹理细节丢失,这进一步为有效的深度回归带来了挑战,除非进一步引入先验约束[12]。

从俯视图(即鸟瞰图,BEV)估计道路高程是一个自然的想法,因为高程本质上描述了垂直方向的振动。鸟瞰图是一种有效的范式,用于以统一坐标表示多模态和多视图数据[13],[14]。最近在三维目标检测和分割任务上取得的 SOTA 性能是通过基于鸟瞰图的方法实现的[15],这与透视视图不同,后者通过在视图转换的图像特征上引入估计头部来进行。图1展示了本文的动机。与在图像视图中关注全局结构不同,鸟瞰图中的重建直接在垂直方向上的一个特定小范围内识别道路特征。在鸟瞰图中投影的道路特征密集地反映了结构和轮廓变化,有助于进行有效和精细化的搜索。透视效应的影响也被抑制,因为道路在垂直于观察角度的平面上被统一表示。基于鸟瞰图特征的道路重建有望实现更高的性能。

本文重建了BEV下的道路表面,以解决上述识别出的问题。特别地,本文关注道路几何,即高程(elevation)。为了利用单目和双目图像,并展示鸟瞰图感知的广泛可行性,本文提出了两个子模型,分别命名为RoadBEV-mono和RoadBEV-stereo。遵循鸟瞰图的范例,本文定义了覆盖潜在道路起伏的感兴趣体素。这些体素通过3D-2D投影查询像素特征。对于RoadBEV-mono,本文在重塑的体素特征上引入了高程估计头。RoadBEV-stereo的结构与图像视图中的双目匹配保持一致。基于左右体素特征,在鸟瞰图中构建了一个4D代价体积,该体积通过3D卷积进行聚合。高程回归被视为对预定义箱体的分类,以实现更高效的模型学习。本文在本文作者之前发布的真实世界数据集上验证了这些模型,显示出它们比传统的单目深度估计和双目匹配方法有着巨大的优势。

a0.dev
a0.dev

专为移动端应用开发设计的AI编程平台

下载

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图1. 本文的动机。(a)无论是单目还是双目配置,本文在鸟瞰图(BEV)中的重建方法都优于图像视图中的方法。(b)在图像视图中进行深度估计时,搜索方向与道路高程方向存在偏差。在深度视图中,道路轮廓特征是稀疏的。坑洼不容易被识别。(c)在鸟瞰图中,能够精确捕捉到轮廓振动,例如坑洼、路边台阶乃至车辙。垂直方向上的道路高程特征更加密集,也更容易识别。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图2. 坐标示意及真值(GT)高程标签的生成。(a)坐标(b)图像视图中的感兴趣区域(ROI)(c)鸟瞰图中的感兴趣区域(ROI)(d)在网格中生成真值(GT)标签

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图3. 道路图像及真值(GT)高程图的示例。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图4. 图像视图中感兴趣的特征体素。位于相同水平位置的堆叠体素的中心被投影到红色线段上的像素点。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图5. RoadBEV-mono的架构。本文利用3D到2D的投影来查询像素特征。高程估计头部使用2D卷积在重塑后的鸟瞰图(BEV)特征上提取特征。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图6. RoadBEV-mono的机制。体素以侧视图展示。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图7. RoadBEV-stereo的架构。定义在左相机坐标系下的体素查询左右特征图的像素特征。本文通过左右体素特征之间的相减,在鸟瞰图(BEV)中构建差异体积。然后,3D卷积对鸟瞰图中的4D体积进行聚合。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图8. RoadBEV-stereo的机制。

实验结果:

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图9. (a) RoadBEV-mono和 (b) RoadBEV-stereo的训练损失。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图10. 在单目和双目基础上,与SOTA模型的距离方向上的高程误差比较。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图11. 由RoadBEV-mono重建的道路表面可视化。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

图12. 由RoadBEV-stereo重建的道路表面可视化。

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

清华最新!RoadBEV:BEV下的道路表面重建如何实现?

总结:

本文首次在鸟瞰图中重建了道路表面的高程。本文分别提出并分析了基于单目和双目图像的两种模型,分别命名为RoadBEV-mono和RoadBEV-stereo。本文发现,BEV中的单目估计和双目匹配与透视视图中的机制相同,通过缩小搜索范围和直接在高程方向挖掘特征而得到改进。在真实世界数据集上的全面实验验证了所提出的BEV体积、估计头和参数设置的可行性和优越性。对于单目相机,在BEV中的重建性能比透视视图提高了50%。同时,在BEV中,使用双目相机的性能是单目的三倍。本文提供了关于模型的深入分析和指导。本文的开创性探索也为与BEV感知、3D重建和3D检测相关的进一步研究和应用提供了宝贵的参考。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

389

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

571

2023.08.10

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

400

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1969

2024.08.16

传感器故障解决方法
传感器故障解决方法

传感器故障排除指南:识别故障症状(如误读或错误代码)。检查电源和连接(确保连接牢固,无损坏)。校准传感器(遵循制造商说明)。诊断内部故障(目视检查、信号测试、环境影响评估)。更换传感器(选择相同规格,遵循安装说明)。验证修复(检查信号准确性,监测异常行为)。

464

2024.06.04

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

61

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

31

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

72

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

20

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.1万人学习

Go 教程
Go 教程

共32课时 | 3.7万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号