0

0

全球十亿级轨迹点驱动,首个轨迹基础大模型来了

碧海醫心

碧海醫心

发布时间:2024-11-22 17:43:06

|

1074人浏览过

|

来源于机器之心

转载

在智慧城市和大数据时代背景下,人类轨迹数据的分析对于交通优化、城市管理、物流配送等关键领域具有重要意义。然而,现有的轨迹相关模型往往受限于特定任务、区域依赖、轨迹数据规模和多样性困乏等问题,限制了模型的泛化能力和实际应用范围。近日,来自于香港科技大学(广州)、南方科技大学、香港城市大学的联合研究团队整理了首个全球大规模轨迹数据集 WorldTrace,并基于该数据集训练了首个世界轨迹基础大模型 UniTraj,为交通领域内构建通用时空智能提供了一种全新的思路。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

全球十亿级轨迹点驱动,首个轨迹基础大模型来了
研究团队提出了轨迹基础模型的构建范式,旨在通过其模型架构设计和数据集支撑的流程,克服现有方法的局限性,实现跨任务、跨区域的泛化能力,并在不同数据质量下保持鲁棒性。具体来说,研究团队首先收集了一个全球范围的 WorldTrace 轨迹数据集,涵盖 70 个国家和地区,包括 245 万条轨迹和十亿级别的轨迹数据点。这为构建轨迹基础模型提供了充足且丰富的数据支持。进一步,研究团队设计并预训练了 UniTraj 这样一个通用的轨迹基础模型结构,并集成了多种重采样和掩码策略,能够有效支撑不同区域、任务和数据质量的需要。
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
论文地址:https://arxiv.org/pdf/2411.03859

主要解决的问题

  • 任务特异性:现有方法通常为特定任务设计,缺乏跨任务的灵活性。UniTraj 能够适应不同的应用,无需大量修改。
  • 区域依赖性:许多模型在特定地理区域之外效果不佳。UniTraj 通过全球数据训练,减少了对特定区域数据的依赖。
  • 数据质量敏感性:现实世界中的轨迹数据质量参差不齐,现有模型对这些不一致性很敏感。UniTraj 能够有效处理不同质量的轨迹。

主要研究内容及贡献

为了解决上述问题,这项研究开创了构建轨迹基础模型的新范式,分别从数据准备模型设计两个方面进行展开。

WorldTrace 数据集

该研究最显著的贡献是构建了首个大规模、高质量、全球范围分布的轨迹数据集,名为 WorldTrace,并首次实现了全球范围的轨迹数据收集与整合。
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
上图展示了 WorldTrace 数据集的地理分布,该数据集在北美、东亚和欧洲部分地区有较为密集分布,涵盖了发达和新兴经济地区,其中美国、中国提供了较多的轨迹数据。从地理分布上来说,这突显了数据集中的轨迹模式的多样性,能够反应不同交通基础设施和地理环境。此外,通过美国本土的数据密度也进一步展示了主要公路网络和城市中心的高分辨率覆盖。进一步说明了该数据在开发独立于区域和通用轨迹基础模型的潜力。
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
通过作者进一步对原始数据进行规范和校正处理,表中统计了这项研究使用的数据的主要特征。在轨迹规模上,可以看到 WorldTrace 主要包含 245 万条轨迹,8.8 亿个采样轨迹点 (采样频率规范到 1 秒后),并覆盖 70 了个国家和地区。在数据质量上,WorldTrace 数据集的时间跨度从 2021 年 8 月开始,一直持续到 2023 年 12 月,提供了长时间范围和及时的数据样本,能够进一步增强该数据集的应用价值。

构建轨迹基础模型 UniTraj

在模型的架构设计上,UniTraj 采用了灵活的编码器 - 解码器架构,为了提升模型的计算效率、鲁棒性和对各种数据质量的适应能力,作者在模型训练过程中进一步集成了一系列的重采样策略和掩码策略。
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
重采样策略

这项研究主要设计了两种重采样策略:

  1. 第一种是基于对数采样率衰减的随机动态重采样策略,根据轨迹长度动态调整采样率。动态重采样策略主要应用于解决两个问题,第一是控制数据冗余、减少模型的计算成本;第二是对轨迹数据进行随机重采样,可以得到不同时间间隔的轨迹点,这对增加轨迹数据的多样性至关重要。
  2. 第二种采样策略是基于轨迹采样频率的间隔一致性重采样策略,其核心思想是将原始轨迹调整为一个随机的固定采样率,以适应不同的设备和场景需要,同时也能够显著降低轨迹点的数量。

掩码策略

由于 UniTraj 使用重构式预训练的方法来提升模型对轨迹局部和全局模式建模能力。在预训练过程中,作者设计了 4 种掩码策略,而模型的目标是恢复这些被掩蔽的轨迹点,从而帮助模型更好地理解和捕捉轨迹序列的时空关系。

  1. 随机掩码:按照一定的比率,随机掩盖一定数量的轨迹点。随机掩码训练模型捕获一般时空模式,增强其对缺失数据点的鲁棒性。
  2. 块状掩码:掩盖轨迹内的连续数量点,模拟连续数据段可能缺失的场景。这对于训练模型处理长期依赖或者长距离关系较为有效,使模型重建可能由于传感器故障、低采样率、或暂时通信丢失而发生的缺失段。
  3. 关键点掩码:关键点掩码关注轨迹中重要的轨迹点(例如转弯或速度或方向明显变化)。这里,作者使用 RDP 算法来识别这些关键点,从而加强了模型对轨迹内关键结构模式的理解。
  4. 最后点掩码:此策略会屏蔽轨迹的最后 N 个点,模拟未来点不可用且必须从观察到的数据推断的场景。

模型架构

在模型架构设计方面,UniTraj 首先将重采样和掩码处理后的轨迹转换为结构化的嵌入,并利用 Transformer 块和旋转位置编码(RoPE)来捕捉轨迹中的时空关系。编码器负责学习可见点的压缩表示,而解码器则基于这些表示来重建被掩码的点,实现轨迹的精确重建和预测。对于训练过程,模型使用重建目标进行训练,旨在最小化预测点和原始点之间的差异。在推理和下游任务应用中,预训练的 UniTraj 编码器可以作为通用特征提取器,通过简单的适配器训练,即可支持多种轨迹相关的分析任务,如分类、预测和异常检测等。
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
实验验证

为了测试 UniTraj 模型的性能,研究团队设计了一系列实验,旨在评估模型在处理真实世界轨迹数据时的准确性和泛化能力。研究团队选择了多个具有不同地理覆盖、数据质量和采样率的真实世界轨迹数据集进行实验。这些数据集包括但不限于 WorldTrace 数据集,以及其他公开可用的数据集,如成都、西安、GeoLife 等。实验设计考虑了零样本和少样本学习场景,以评估模型在未见过的数据上的适应性。实验主要围绕以下几个方面进行:

1. 任务适用性分析:评估 UniTraj 在轨迹恢复、预测、分类和生成等不同任务上的表现,以及其在零样本和少样本学习场景中的适应性。
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
2. 数据集研究:比较 UniTraj 在 WorldTrace 数据集和其他公开数据集上的训练效果,分析数据规模和质量对模型性能的影响。

3. 模型研究:探讨 UniTraj 模型中不同组件和参数设置对性能的影响,包括编码器块的数量、掩码比例等。
全球十亿级轨迹点驱动,首个轨迹基础大模型来了
总结

UniTraj 这项研究提出了数据 + 模型的基础模型构建范式。在数据准备方面,其首次构建了一个全球范围的轨迹数据集,并且提供了大规模和高质量的轨迹数据用于训练。在模型设计方面,其通过重采样和掩码策略,集成轨迹处理模块和灵活的编码器 - 解码器架构,有效地捕捉了轨迹数据中的复杂时空依赖性以应对各种不同的数据质量。这一模型的提出,为处理大规模、多样化的轨迹数据提供了新的工具,带来了新的思路。

相关文章

驱动精灵
驱动精灵

驱动精灵基于驱动之家十余年的专业数据积累,驱动支持度高,已经为数亿用户解决了各种电脑驱动问题、系统故障,是目前有效的驱动软件,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

409

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2083

2024.08.16

传感器故障解决方法
传感器故障解决方法

传感器故障排除指南:识别故障症状(如误读或错误代码)。检查电源和连接(确保连接牢固,无损坏)。校准传感器(遵循制造商说明)。诊断内部故障(目视检查、信号测试、环境影响评估)。更换传感器(选择相同规格,遵循安装说明)。验证修复(检查信号准确性,监测异常行为)。

473

2024.06.04

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

2

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

0

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

5

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

513

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

180

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

309

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号