VectorFlow：结合图像和向量做交通占用和流预测

WBOY

发布时间：2023-04-09 14:41:10

1710人浏览过

来源于51CTO.COM

转载

arXiv论文“VectorFlow: Combining Images and Vectors for Traffic Occupancy and Flow Prediction“，2022年8月9日，清华大学工作。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

预测道路智体的未来行为是自主驾驶中的一项关键任务。虽然现有模型在预测智体未来行为方面取得了巨大成功，但有效预测多智体联合一致的行为仍然是一个挑战。最近，有人提出了occupancy flow fields（OFF）表示法，通过占用网格和流的组合来表示道路智体的联合未来状态，支持联合一致的预测。

这项工作提出一种新的occupancy flow fields预测器，从光栅化交通图像中学习特征的图像编码器，和捕获连续智体轨迹和地图状态信息的向量编码器，二者结合起来，生成准确的占用和流预测。在生成最终预测之前，两个编码特征由多个注意模块融合。该模型在Waymo开放数据集占用和流预测挑战（Occupancy and Flow Prediction Challenge）中排名第三，在遮挡占用率和预测任务（occluded occupancy and flow prediction task）中实现了最佳性能。

OFF表示（“Occupancy Flow Fields for Motion Forecasting in Autonomous Driving“，arXiv 2203.03875，3，2022）是一种时空网格，其中每个网格单元包括 i）任何智体占用单元的概率和 ii）表示占用该单元智体运动的流。其提供了更好的效率和可扩展性，因为预测occupancy flow fields的计算复杂性与场景中道路智体的数量无关。

如图是OFF框架图。编码器结构如下。第一级接收所有三种类型的输入点，并用PointPillars启发的编码器进行处理。交通灯和道路点直接放置在网格中。智体在每个输入时间步t的状态编码是，从每个智体BEV框内均匀采样固定大小的点网格，并把这些点与相关智体状态属性（包括时间t的one-hot编码）放置在网格。每个pillar为其包含的所有点输出一个嵌入。解码器结构如下。第二级接收每个pillar嵌入作为输入，并生成每个网格单元占用和流预测。解码器网络基于EfficientNet，用EfficientNet作为主干来处理每个pillar嵌入得到特征映射（P2，…P7），其中Pi从输入中下采样2^i。然后用BiFPN网络以双向方式融合这些多尺度特征。然后，用最高分辨率特征映射P2在所有时间步回归所有智体类K的占用和流预测。具体地，解码器为每个网格单元输出一个向量，同时预测占用和流。

VectorFlow：结合图像和向量做交通占用和流预测

针对本文，做以下问题设置：给定场景中交通智体1秒的历史和场景上下文，如地图坐标，目标是预测 i）未来观察到的占用率，ii）未来遮挡的占用率，以及 iii）在一个场景中未来8个路点上所有车辆的未来流，其中每个路点覆盖1秒的间隔。

将输入处理为光栅化图像和一组向量。为了获得图像，在给定观察智体轨迹和地图数据的情况下，相对于自动驾驶汽车（SDC）的局部坐标，在过去的每个时间步创建一个光栅化网格。为了获得与光栅化图像一致的向量化输入，遵循相同的变换，相对于SDC的局部视图，旋转和移动输入智体和地图坐标。

编码器包括两部分：编码光栅化表示的VGG-16模型，和编码向量化表示的VectorNe模型。通过交叉注意模块将向量化特征与VGG-16最后两步的特征进行融合。通过FPN-式样网络，融合后的特征上采样到原始分辨率，作为输入的光栅化特征。

解码器是单个2D卷积层，将编码器输出映射到occupancy flow fields预测，该预测包括一系列8网格图，表示未来8秒内每个时间步的占用和流预测。

MusicLM

谷歌平台的AI作曲工具，用文字生成音乐

下载

如图所示：

VectorFlow：结合图像和向量做交通占用和流预测

用torchvision的标准VGG-16模型，作为光栅化编码器，并遵循VectorNet（代码https://github.com/Tsinghua-MARS-Lab/DenseTNT）的实现。VectorNet的输入包括 i）一组形状为B×Nr×9的道路元素向量，其中B是批处理大小，Nr=10000是道路元素向量的最大数，最后一个维度9表示每个向量和向量ID中两个端点的位置（x，y）和方向（cosθ，sinθ）；ii）一组形状为B×1280×9的智体向量，包括场景中最多128个智体的向量，其中每个智体具有来自观察位置的10个向量。

遵循VectorNet，首先根据每个交通元素的ID运行局部图，然后在所有局部特征上运行全局图，获得形状为B×128×N的向量化特征，其中N是交通元素的总数，包括道路元素和智体。通过MLP层将特征的大小进一步增加四倍，获得最终的向量化特征V，其形状为B×512×N，其特征大小与图像特征的通道大小一致。

VGG每个级的输出特征表示为｛C1、C2、C3、C4、C5｝，相对于输入图像和512隐藏维，跨步长（strides）为｛1、2、4、8、16｝像素。通过交叉注意模块将向量化特征V与形状为B×512×16×16的光栅化图像特征C5融合，获得相同形状的F5。交叉注意的query项是图像特征C5，扁平为有256个令牌（tokens）的B×512×256形状，Key和Value项是具有N个令牌的向量化特征V。

然后在通道维上连接F5和C5，通过两个3×3卷积层，获得形状为B×512×16×16的P5。P5通过FPN风格的2×2上采样模块做上采样并与C4（B×512×32x32）连接，生成和C4一样形状的U4。之后在V和U4之间执行另一轮融合，遵循相同的程序，包括交叉注意，获得P4（B×512×32×32）。最后，P4由FPN式样网络逐渐上采样，并与｛C3，C2，C1｝连接，生成形状为B×512×256×256的EP1。将P1通过两个3×3 卷积层，获得形状为B×128×256的最终输出特征。

解码器是单个2D卷积层，输入通道大小为128，输出通道大小为32（8个路点×4个输出维度）。

结果如下：

VectorFlow：结合图像和向量做交通占用和流预测

WorkBuddy如何配置多个Agent协作完成任务_WorkBuddy多智能体流程控制【进阶】

CrewAI如何创建多智能体系统_CrewAI智能体配置方法【指南】

Workbuddy是什么怎么用_Workbuddy新手快速入门使用方式【教程】

WorkBuddy怎么制作年度活动策划案_WorkBuddy快速生成创意方案攻略【实战】

iZotope RXAI修复杂音如何设置_降噪操作方法是什么【详解】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：边缘人工智能的梦想与挑战下一篇：AI写小说、绘画、剪视频，生成式AI更火了！

作者最新文章

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

mysql如何进行右连接_mysql right join应用场景

2026-03-14 09:48

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

minimax入口地址汇总

本专题整合了minimax相关入口合集，阅读专题下面的文章了解更多详细地址。

2026.03.16

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

114

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

141

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

396

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

111

2026.03.09

热门下载

网站特效

网站源码

网站素材

前端模板