轨迹预测的视觉方法综述

PHPz

发布时间：2023-05-22 23:54:16

1806人浏览过

来源于51CTO.COM

转载

最近一个综述论文 “trajectory-prediction with vision: a survey ”，来自现代和安波福的公司motional；不过它参考了牛津大学的综述文章“vision-based intention and trajectory prediction in autonomous vehicles: a survey ”。

预测任务基本分为两部分：1）意图，这是一项分类任务，为智体预先设计一组意图类；通常将其视为一个监督学习问题，需要标注智体可能的分类意图；2）轨迹，需要预测智体在后面未来帧中的一组可能位置，称为路点；这构成了智体之间以及智体和道路之间的交互。

先前的行为预测模型可以分为三类：基于物理、基于机动和交互-感知模型。该句话可以重写为：利用物理模型的动力学方程，为各种不同类型的智能体设计了可人工控制的运动。该方法不能对整个情境的潜在状态进行建模，而通常只关注一个特定的智能体。然而，在深度学习之前的时代，这种趋势曾经是SOTA。基于机动的模型是基于智体预期运动类型的模型。交互-觉察的模型通常是一种基于机器学习的系统，对场景中的每个智体进行逐对推理，并为所有动态智体生成交互-觉察的预测。在场景中附近不同智体目标之间存在高度相关性。对复杂的智体轨迹注意模块进行建模，可以更好泛化。

预测未来的行动或事件可以表现为隐含的形式，其未来轨迹也可以是显式的。智体的意图可能受到以下因素的影响：a）智体自己的信念或意愿（通常不会被观察到，因此难以建模）；b）社会交互，可以用不同的方法进行建模，如社交池化、图神经网络、注意力等；c）环境约束，如道路布局，可通过高清（HD）地图进行编码；d）背景信息，形式为RGB图像帧、激光雷达点云、光流、分割图等。在另一方面，轨迹预测是一种更具挑战性的问题，因为它涉及到回归（连续）而不是分类问题，与识别意图不同。

轨迹和意图需要从交互-觉察入手。一个合理的假设是，当试图激进地驶入交通拥堵的高速公路时，一辆经过的车辆可能会紧急制动。建模。最好在BEV空间进行建模，这样可以进行轨迹预测，而且可以在图像视角（也称为透视图）中建模。这句话可以重写为：“这是因为可以将感兴趣区域（RoI）以网格的形式分配到一个专用的距离范围内。”。然而，由于透视图中的消失线，图像视角理论上可以无限地拓展RoI。BEV空间更适合对遮挡进行建模，因为它能更线性地建立运动模型。通过进行姿态估计（自车的平移和旋转），可以简单地进行自身运动的补偿。此外，这个空间保留了智体的运动和尺度，即不管离自车有多远，周围车辆将占据相同数量的BEV像素；但图像视角的情况并非如此。为了预测未来，需要对过去有一个了解。这通常可以通过跟踪来完成，也可以用历史聚合BEV特征来完成。

下图是预测模型的一些组件和数据流框图：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

下表是预测模型的总结：

轨迹预测的视觉方法综述

以下基本从输入/输出入手讨论预测模型：

1）Tracklets：感知模块预测所有动态智体的当前状态。这种状态包括3-D中心、维度、速度、加速度等属性。跟踪器可以利用这些数据并建立临时的关联，这样每个跟踪器都能够保存所有智体的状态历史。现在，每个tracklet都表示该智体过去的运动。由于其输入仅包括稀疏的轨迹，因此这种预测模型形式是最简单的。一个好的跟踪器能够跟踪一个智体，即使在当前帧中被遮挡。由于传统的跟踪器是基于非机器学习的网络，因此实现端到端模型变得十分困难。

2）原始传感器数据：这是一种端到端方法，模型获取原始传感器数据信息，并直接预测场景中每个智体的轨迹预测。这种方法可能有也可能没有辅助输出及其损失来监督复杂的训练。这一类方法的缺点是，用于输入的信息密集，计算上昂贵。这是由于将感知、跟踪和预测三个问题合并在一起，使得模型在开发时变得困难，甚至更难以达到收敛。

腾讯交互翻译

腾讯AI Lab发布的一款AI辅助翻译产品

下载

3）摄像头-vs- BEV：BEV方法处理来自顶视类似地图的数据，摄像头预测算法从自车角度感知世界，由于多种原因，后者通常比前者更具挑战性；首先，从BEV感知可以获得更广阔的视野和更丰富的预测信息，相比之下摄像头的视野较短，这限制了预测范围，因为汽车无法做视野以外规划；此外，摄像头更容易被遮挡，因此与基于相机的方法相比，BEV方法受到的“部分可观察性”挑战更少；其次，除非激光雷达数据可用，否则单目视觉使算法难以推断关注智体的深度，这是预测其行为的重要线索；最后，摄像头正在移动，这需要处理关注智体的运动和自车的运动，这与静态BEV不同；提一句：作为一种缺点，BEV表征方法仍然存在累积错误的问题；尽管在处理相机视图方面存在固有的挑战，但它仍然比BEV更实用，其实汽车很少能访问显示道路上BEV和关注智体位置的摄像头。结论是，预测系统应该能够从自车的角度看待世界，包括激光雷达和/或立体相机，其数据以3D方式感知世界可能是有利的；另一个重要的相关点是，每次若必须包括关注智体的位置以进行预测时，最好使用边框位置，而不是纯粹的中心点，因为前者的坐标隐含自车和行人之间的相对距离变化以及相机自运动；换句话说，随着智体接近自车，边框变得更大，提供了对深度的附加（尽管是初步的）估计。

4）自运动预测：自车运动进行建模生成更准确的轨迹。另外一些方法使用深度网络或动力学模型对关注智体的运动进行建模，利用从数据集输入计算的额外量，如姿势、光流、语义图和热图。

5）时域编码：由于驾驶环境是动态的，有许多活动智体，因此有必要在智体时间维度进行编码可建立一个更好的预测系统，将过去发生的事情与未来通过现在发生的事情联系起来；了解智体的来源有助于猜测智体下一步可能会去哪里，大多数基于摄像头的模型处理较短的时间范围，而对于较长的时间范围处理，预测模型需要一个更复杂的结构。

6）社交编码：为了应对“多智体”的挑战，大多数性能最好的算法使用不同类型的图神经网络（GNN）来编码智体之间的社会交互；大多数方法分别对时间和社会维度进行编码——要么从时间层面开始，然后考虑社会层面，要么相反顺序；有一种基于Transformer的模型，可以同时对两个维度进行编码。

7）基于预期目标的预测：行为意图预测与场景上下文一样，通常会受到不同预期目标的影响，并且应该通过解释来推断；对于以预期目标为条件的未来预测，这个目标会被建模为未来状态（定义为目的地坐标）或智体期望的运动类型；神经科学和计算机视觉的研究表明，人通常是目标-导向的智体；此外在做出决策的同时，人遵循一系列连续级的推理，最终制定出短期或长期计划；基于此，这个问题可分为两类：第一类是认知性的，回答智体要去哪里的问题；第二个是任意性的，回答这个智体如何实现其预期目标的问题。

8）多模态预测：由于道路环境是随机的，一个先前的轨迹可以展开不同的未来轨迹；因此，解决“随机弹性（stocasticity）”挑战的实用预测系统会对问题的不确定性进行建模；尽管存在离散变量的潜空间建模的方法，但多模态仅应用于轨迹，完全显示其在意图预测方面的潜力；采用注意力机制，可用于计算加权。

Cleanvoice AI自动删除口头禅怎么开启_功能使用方法是什么【说明】

WorkBuddy是什么怎么快速上手_WorkBuddy基础功能快速入门说明

InVideoAI如何生成社交视频_InVideoAI社交内容制作流程【介绍】

WorkBuddy是什么软件企业高效协作办公神器深度介绍【科普】

WorkBuddy是什么 WorkBuddy核心优势有哪些适合哪些应用场景

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：人手AutoGPT！让ChatGPT自选10万+AI模型，HuggingFace官方出品下一篇：有证据了，MIT表明：大型语言模型≠随机鹦鹉，确实能学到语义

作者最新文章

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

微信朋友圈能不能定时发微信朋友圈定时发送辅助工具使用

2026-01-11 08:41

企业微信朋友圈怎么定时发送企业微信定时发布朋友圈教程

2026-01-19 01:11

微信朋友圈怎么预约发送微信朋友圈定时发布最新解决方案

2026-02-09 10:52

mysql如何进行逻辑运算_mysql and/or/not组合

2026-03-06 10:26

mysql如何使用位运算符_mysql二进制数据处理

2026-03-07 02:17

微信怎么隐藏好友如何单独隐藏一个人不删除不拉黑

2026-03-10 10:02

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

169

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

热门下载

网站特效

网站源码

网站素材

前端模板