巧解「数据稀缺」问题！清华开源GPD：用扩散模型生成神经网络参数

WBOY

发布时间：2024-03-18 21:31:22

1162人浏览过

来源于51CTO.COM

转载

传统的时空预测模型通常需要大量数据支持才能取得良好效果。

然而，由于不同城市发展水平的差异和数据收集政策的不一致，许多地区的时空数据（例如交通和人群流动数据）受到了限制。因此，在数据稀缺的情况下，模型的可迁移性变得尤为重要。

目前的研究主要依靠源城市的数据来训练模型，并将其应用于目标城市的数据，但这种方法通常需要复杂的匹配设计。如何实现源城市和目标城市之间更广泛的知识迁移仍然是一个具有挑战性的问题。

最近，预训练模型在自然语言处理和计算机视觉领域取得了重大进展。引入prompt（提示）技术缩小了微调和预训练之间的差距，使得先进的预训练模型能够更快速地适应新的任务。这种方法的优势在于减少了对繁琐微调的依赖，提高了模型的效率和灵活性。通过prompt技术，模型可以更好地理解用户的需求，并产生更准确的输出，从而为人们提供更好的体验和服务。这种创新性的方法正在推动人工智能技术的发展，为各行业带来了更多可能性和机遇。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文链接：https://openreview.net/forum?id=QyFm3D3Tzi

开源代码及数据：https://www.php.cn/link/6644cb08d30b2ca55c284344a9750c2e

最新发表在ICLR2024的清华大学电子工程系城市科学与计算研究中心的成果《Spatio-Temporal Few-Shot Learning via Diffusive Neural Network Generation》引入了GPD（Generative Pre-Trained Diffusion）模型，成功实现了在数据稀疏场景下的时空学习。

这种方法利用生成神经网络的参数，将时空稀疏数据学习转化为扩散模型的生成式预训练问题。与传统方法不同，该方法不再需要提取可迁移特征或设计复杂的模式匹配策略，也无需为少样本场景学习一个良好的模型初始化。

相反，该方法通过在源城市的数据上进行预训练来学习有关神经网络参数优化的知识，然后根据提示生成适用于目标城市的神经网络模型。

这一方法的创新之处在于能够根据「prompt（提示）」生成定制的神经网络，有效地适应不同城市之间的数据分布和特征差异，实现巧妙的时空知识迁移。

该研究为解决城市计算中数据稀缺性问题提供了新的思路。该论文的数据和代码均已开源。

从数据分布到神经网络参数分布

巧解「数据稀缺」问题！清华开源GPD：用扩散模型生成神经网络参数图 1：数据模式层面知识迁移 vs. 神经网络层面知识迁移

如图1（a）所示，传统的知识迁移方法通常是在源城市的数据上训练模型，然后将其应用于目标城市。然而，不同城市之间的数据分布可能存在显著差异，这导致直接迁移源城市模型可能无法很好地适应目标城市的数据分布。

因此，我们需要摆脱对杂乱数据分布的依赖，寻求一种更本质、更可迁移的知识共享方式。与数据分布相比，神经网络参数的分布更具有“高阶”的特性。

图 1 展示了从数据模式层面到神经网络层面知识迁移的转变过程。通过在源城市的数据上训练神经网络，并将其转化为生成适应目标城市的神经网络参数的过程，可以更好地适应目标城市的数据分布和特征。

预训练+提示微调：实现时空少样本学习

巧解「数据稀缺」问题！清华开源GPD：用扩散模型生成神经网络参数图2 GPD模型概览

如图2所示，该研究提出的GPD是一种条件生成框架，旨在直接从源城市的模型参数中学习，并为目标城市生成新的模型参数，该方法包括三个关键阶段：

1. 神经网络准备阶段：首先，针对每个源城市区域，该研究训练单独的时空预测模型，并保存其优化后的网络参数。每个区域的模型参数都经过独立优化，没有参数共享，以确保模型能够最大程度地适应各自区域的特征。

2. 扩散模型预训练：该框架使用收集到的预训练模型参数作为训练数据，训练扩散模型来学习生成模型参数的过程。扩散模型通过逐步去噪来生成参数，这个过程类似于从随机初始化开始的参数优化过程，因此能够更好地适应目标城市的数据分布。

3. 神经网络参数生成：在预训练后，可以通过使用目标城市的区域提示来生成参数。这种方法利用提示促进了知识转移和精确参数匹配，充分利用了城市间区域之间的相似性。

值得注意的是，在预训练-提示微调的框架中，提示的选择具有很高的灵活性，只要能够捕捉特定区域的特征即可。例如可以利用各种静态特征，如人口、区域面积、功能和兴趣点（POI）的分布等来实现这一目的。

Cutout.Pro

AI驱动的视觉设计平台

下载

这项工作从空间和时间两个方面利用区域提示：空间提示来自于城市知识图谱[1,2]中节点表征，它仅利用区域邻接性和功能相似性等关系，这些关系在所有城市中都很容易获取；时间提示来自于自监督学习模型的编码器。更多关于提示设计的细节请参见原文。

此外，该研究还探索了不同的提示引入方法，实验验证了基于先验知识的提示引入具有最优性能：用空间提示引导建模空间关联的神经网络参数生成，用时间提示引导时序神经网络参数生成。

实验结果

团队在论文中详细描述了实验设置，以帮助其他研究者复现其结果。他们还提供了原论文和开源数据代码，我们在这里关注其实验结果。

为了评估所提框架的有效性，该研究在两类经典的时空预测任务上进行了实验：人群流动预测和交通速度预测，覆盖了多个城市的数据集。

巧解「数据稀缺」问题！清华开源GPD：用扩散模型生成神经网络参数图片

表1展示了在四个数据集上相对于最先进基线方法的比较结果。根据这些结果，可以得出以下观察：

1）GPD相对于基线模型表现出显著的性能优势，在不同数据场景下一致表现优越，这表明GPD实现了有效的神经网络参数层面的知识迁移。

2）GPD在长期预测场景中表现出色，这一显著趋势可以归因于该框架对于更本质知识的挖掘，有助于将长期时空模式知识迁移到目标城市。

巧解「数据稀缺」问题！清华开源GPD：用扩散模型生成神经网络参数图3 不同时空预测模型的性能对比

此外，该研究还验证了GPD框架对于不同时空预测模型适配的灵活性。除了经典的时空图方法STGCN外，该研究还引入了GWN和STID作为时空预测模型，并使用扩散模型生成其网络参数。

实验结果表明，框架的优越性不会受到模型选择的影响，因此可以适配各种先进的模型。

进一步地，该研究通过在两个合成数据集上操纵模式相似性进行案例分析。

图4展示了区域A和B具有高度相似的时间序列模式，而区域C展示了明显不同的模式。同时，图5显示节点A和B具有对称的空间位置。

因此，我们可以推断区域A和B具有非常相似的时空模式，而与C有着明显的差异。模型生成的神经网络参数分布结果显示，A和B的参数分布相似，而与C的参数分布有显著差异。这进一步验证了GPD框架在有效生成具有多样化时空模式的神经网络参数的能力。

巧解「数据稀缺」问题！清华开源GPD：用扩散模型生成神经网络参数

图 4 不同区域的时间序列及神经网络参数分布可视化

巧解「数据稀缺」问题！清华开源GPD：用扩散模型生成神经网络参数

图 5 仿真数据集区域空间连接关系

参考资料：

https://www.php.cn/link/6644cb08d30b2ca55c284344a9750c2e

[1] Liu, Yu, et al. "Urbankg: An urban knowledge graph system." ACM Transactions on Intelligent Systems and Technology 14.4 (2023): 1-25.

[2] Zhou, Zhilun, et al. "Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-based social network." Proceedings of the ACM Web Conference 2023. 2023.

Perplexity免费版和Pro版区别_Perplexity付费订阅价值分析教程【对比】

OpenClaw启动时卡在加载界面怎么办_OpenClaw加载卡死常见原因与对策【教程】

OpenClaw最新版与旧版有什么区别_OpenClaw主要版本功能差异对比【汇总】

Perplexity Chrome插件怎么用_Perplexity浏览器扩展一键搜索教程【指南】

WorkBuddy技能包有哪些类型_常见Skills技能包分类与用途介绍

相关专题

location.assign

在前端开发中，我们经常需要使用JavaScript来控制页面的跳转和数据的传递。location.assign就是JavaScript中常用的一个跳转方法。通过location.assign，我们可以在当前窗口或者iframe中加载一个新的URL地址，并且可以保存旧页面的历史记录。php中文网为大家带来了location.assign的相关知识、以及相关文章等内容，供大家免费下载使用。

232

2023.06.27

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4373

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2927

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

270

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板