解决VAE表示学习问题，北海道大学提出新型生成模型GWAE

王林

发布时间：2023-04-07 17:47:33

1912人浏览过

来源于51CTO.COM

转载

学习高维数据的低维表示是无监督学习中的基本任务，因为这种表示简明地捕捉了数据的本质，并且使得执行以低维输入为基础的下游任务成为可能。变分自编码器（VAE）是一种重要的表示学习方法，然而由于其目标控制表示学习仍然是一个具有挑战性的任务。虽然 VAE 的证据下界（ELBO）目标进行了生成建模，但学习表示并不是直接针对该目标的，这需要对表示学习任务进行特定的修改，如解纠缠。这些修改有时会导致模型的隐式和不可取的变化，使得控制表示学习成为一个具有挑战性的任务。

为了解决变分自编码器中的表示学习问题，本文提出了一种称为 Gromov-Wasserstein Autoencoders（GWAE）的新型生成模型。GWAE 提供了一种基于变分自编码器（VAE）模型架构的表示学习新框架。与传统基于 VAE 的表示学习方法针对数据变量的生成建模不同，GWAE 通过数据和潜在变量之间的最优传输获得有益的表示。Gromov-Wasserstein（GW）度量使得在不可比变量之间（例如具有不同维度的变量）进行这种最优传输成为可能，其侧重于所考虑的变量的距离结构。通过用 GW 度量替换 ELBO 目标，GWAE 在数据和潜在空间之间执行比较，直接针对变分自编码器中的表示学习（如图 1）。这种表示学习的表述允许学习到的表示具有特定的被认为有益的属性（例如分解性），这些属性被称为元先验。

图 1 VAE 与 GWAE 的区别

本研究目前已被 ICLR 2023 接受。

论文链接：https://arxiv.org/abs/2209.07007
代码链接：https://github.com/ganmodokix/gwae

方法介绍

数据分布和潜在先验分布之间的GW目标定义如下：

这种最优传输代价的公式可以衡量不可比空间中分布的不一致性；然而对于连续分布，由于需要对所有耦合进行下确界，计算精确的 GW 值是不切实际的。为了解决这个问题，GWAE 解决了一个松弛的优化问题，以此来估计和最小化 GW 估计量，其梯度可以通过自动微分进行计算。松弛目标是估计的 GW 度量和三个正则化损失的总和，可以在可微编程框架（如 PyTorch）中全部实现。该松弛目标由一个主要损失和三个正则化损失组成，即主要估计的 GW 损失，基于 WAE 的重构损失，合并的充分条件损失以及熵正则化损失。

这个方案还可以灵活地定制先验分布，以将有益的特征引入到低维表示中。具体而言，该论文引入了三种先验族群，分别是：

神经先验 (NP) 在具有 NP 的 GWAEs 中，使用全连接的神经网络构建先验采样器。该先验分布族群在潜在变量方面做出了更少的假设，适用于一般情况。

因子化神经先验 (FNP)在具有 FNP 的 GWAEs 中，使用本地连接的神经网络构建采样器，其中每个潜在变量的条目独立生成。这种采样器产生一个因子化的先验和一个逐项独立的表示，这是代表性元先验、解纠缠的一种突出方法。

高斯混合先验 (GMP) 在 GMP 中，定义为几个高斯分布的混合物，其采样器可以使用重参数化技巧和 Gumbel-Max 技巧来实现。GMP 允许在表示中假设簇，其中先验的每个高斯组件都预计捕捉一个簇。

实验及结果

该研究对 GWAE 进行了两种主要元先验的经验评估：解纠缠和聚类。

解纠缠 研究使用了 3D Shapes 数据集和 DCI 指标来衡量 GWAE 的解纠缠能力。结果表明，使用 FNP 的 GWAE 能够在单个轴上学习对象色调因素，这表明了 GWAE 的解纠缠能力。定量评估也展示了 GWAE 的解纠缠表现。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ChatDOC

ChatDOC是一款基于chatgpt的文件阅读助手，可以快速从pdf中提取、定位和总结信息

下载

聚类为了评估基于聚类元先验获得的表征，该研究进行了一项 Out-of-Distribution（OoD）检测。MNIST 数据集被用作 In-Distribution（ID）数据，Omniglot 数据集被用作 OoD 数据。虽然 MNIST 包含手写数字，但 Omniglot 包含不同字母的手写字母。在这个实验中，ID 和 OoD 数据集共享手写图像领域，但它们包含不同的字符。模型在 ID 数据上进行训练，然后使用它们学到的表征来检测 ID 或 OoD 数据。在 VAE 和 DAGMM 中，用于 OoD 检测的变量是先验的对数似然，而在 GWAE 中，它是 Kantorovich potential。GWAE 的先验是用 GMP 构建的，以捕捉 MNIST 的簇。ROC 曲线显示了模型的 OoD 检测性能，其中所有三个模型都实现了近乎完美的性能；然而，使用 GMP 构建的 GWAE 在曲线下面积（AUC）方面表现最佳。

此外该研究对 GWAE 进行了生成能力的评估。

作为基于自动编码器的生成模型的性能 为了评估 GWAE 在没有特定元先验的情况下对一般情况的处理能力，使用 CelebA 数据集进行了生成性能的评估。实验使用 FID 评估模型的生成性能，使用 PSNR 评估自编码性能。GWAE 使用 NP 获得了第二好的生成性能和最佳的自编码性能，这表明其能够在其模型中捕捉数据分布并在其表示中捕捉数据信息的能力。

总结

GWAE 是基于 Gromov-Wasserstein 度量构建的变分自编码器生成模型，旨在直接进行表示学习。
由于先验仅需要可微分样本，因此可以构建各种先验分布设置来假设元先验（表示的理想特性）。
在主要元先验上的实验以及作为变分自编码器的性能评估表明了 GWAE 公式的灵活性和 GWAE 的表示学习能力。
第一作者 Nao Nakagawa 个人主页：https://ganmodokix.com/note/cv
日本北海道大学多媒体实验室主页：https://www-lmd.ist.hokudai.ac.jp/

OpenClaw如何导入ROM文件_OpenClaw添加游戏ROM详细操作【教程】

aishort历史记录在哪里查看_aishort记录管理与恢复方式【指南】

WorkBuddy如何进行大规模数据脱敏处理_WorkBuddy保护客户隐私安全操作教程【指南】

NotionAI如何生成会议记录_NotionAI会议总结流程【介绍】

QClaw怎么让AI定时备份数据库_QClaw数据库操作与定时脚本【操作】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：ChatGPT之父成平衡大师：赚钱和AI技术安全我都要下一篇：这款编译器能让Python和C++一样快：最高提速百倍，MIT出品

作者最新文章

微信朋友圈定时发送神器微信自动发朋友圈软件推荐与使用

2026-01-04 12:22

抖音火山版免费下载电脑版抖音火山版电脑版免费下载入口

2026-01-04 14:33

必应搜索怎样结合演员名找其主演电视剧_必应搜索用演员搜剧技巧【精要】

2026-01-07 17:31

微信自动发朋友圈怎么设置微信朋友圈一键定时发送方法

2026-01-16 12:58

微信小程序怎么定时发朋友圈免费微信朋友圈定时发送工具

2026-02-01 08:25

mysql如何进行子查询_mysql嵌套查询实现方法

2026-03-03 10:56

mysql如何注释SQL语句_mysql单行与多行注释规范

2026-03-04 09:49

mysql如何插入或忽略_mysql insert ignore用法

2026-03-10 03:53

mysql如何查看字段信息_mysql desc与describe

2026-03-11 10:25

mysql如何获取最后插入ID_mysql last_insert_id函数

2026-03-13 11:33

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04