讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

WBOY

发布时间：2024-02-26 09:58:24

|

1248人浏览过

|

来源于51CTO.COM

转载

ai视频模型sora爆火之后，meta、谷歌等大厂纷纷下场做研究，追赶openai的步伐。

最近，来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。

它能够通过单一冻结模型，处理各种视频理解任务。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

图片

论文地址：https://arxiv.org/pdf/2402.13217.pdf

比如，VideoPrism能够将下面视频中吹蜡烛的人分类、定位出来。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

视频-文本检索，根据文本内容，可以检索出视频中相应的内容。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

再比如，描述下面视频——一个小女孩正在玩积木。

还可以进行QA问答。

- 她放在绿色积木块上方积木的是什么颜色？

- 紫色。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

研究人员在一个异构语料库对VideoPrism进行了预训练，包含3600万高质量视频字幕对和5.82亿个视频剪辑，并带有噪声并行文本（如ASR转录文本）。

值得一提的是，VideoPrism在33项视频理解基准测试中，刷新了30项SOTA。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

通用视觉编码器VideoPrism

当前，视频基础模型（ViFM）有巨大的潜力，可以在庞大的语料库中解锁新的能力。

虽然之前的研究在一般视频理解方面取得了很大进展，但构建真正的「基础视频模型」仍然是一个难以实现的目标。

对此，谷歌推出了一种通用视觉编码器——VideoPrism，旨在解决广泛的视频理解任务，包括分类、本地化、检索、字幕和问答（QA）。

VideoPrism对CV数据集，以及神经科学和生态学等科学领域的CV任务进行了广泛评估。

通过使用单一冻结模型，以最小的适应度实现了最先进的性能。

另外，谷歌研究人员称，这种冻结编码器设置同时遵循先前研究，并考虑了其实际实用性，以及高计算和微调视频模型的成本。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

设计架构，两阶段训练法

VideoPrism背后的设计理念如下。

预训练数据是基础模型（FM）的基础，ViFM的理想预训练数据，是世界上所有视频的代表性样本。

这个样本中，大多数视频都没有描述内容的并行文本。

然而，如果训在这样的文本，它就能提供有关视频空间的无价语义线索。

因此，谷歌的预训练策略应主要关注视频模式，同时充分利用任何可用的视频文本对。

在数据方面，谷歌研究人员通过汇集3600万高质量视频字幕对，以及5.82亿视频剪辑与噪声并行文本（如ASR转录、生成的字幕和检索到的文本）来近似建立所需的预训练语料库。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

在建模方面，作者首先从所有不同质量的视频-文本对中对比学习语义视频嵌入。

随后，利用广泛的纯视频数据，对语义嵌入进行全局和标记提炼，改进了下文所述的掩码视频建模。

尽管在自然语言方面取得了成功，但由于原始视觉信号缺乏语义，掩码数据建模对于CV来说仍然具有挑战性。

现有研究通过借用间接语义（如使用CLIP引导模型或分词器，或隐含语义来应对这一挑战）或隐性推广它们（比如标记视觉patches），将高掩码率和轻量级解码器结合。

在上述想法的基础上，谷歌团队根据预训练数据采用了两阶段方法。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

在第一阶段，进行对比学习，使用所有视频文本对，将视频编码器与文本编码器对齐。

根据先前的研究，谷歌团队最小化批中所有视频文本对的相似性得分，进行对称交叉熵损失最小化。

并使用 CoCa 的图像模型初始化空间编码模块，并将WebLI纳入到预训练中。

在计算损失之前，视频编码器的特征会通过多头注意力汇集池（MAP）进行聚合。

这一阶段允许视频编码器从语言监督中学习丰富的视觉语义，由此产生的模型为第二阶段训练提供语义视频嵌入。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

第二阶段，继续训练编码器，并进行了两项改进：

- 模型需要根据未掩码的输入视频patches，来预测第一阶段的视频级全局嵌入和token式嵌入

- 编码器的输出token在传给解码器之前，要进行随机洗牌，以避免学习捷径。

值得注意的是，研究人员的预训练利用了两个监督信号：视频的文本描述，以及上下文自监督，使VideoPrism能够在以外观和动作为中心的任务上表现出色。

事实上，之前的研究表明，视频字幕主要揭示外观线索，而上下文我监督有助于学习动作。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

实验结果

接下来，研究人员在广泛的以视频为中心的理解任务上评估VideoPrism，展现其能力和通用性。

主要分为以下四类：

(1) 一般仅视频理解，包括分类和时空定位

(2) 零样本视频文本检索

(3) 零样本视频字幕和质量检查

(4) 科学领域的CV任务

分类和时空定位

表2显示了VideoGLUE上的冻结骨干的结果。

在所有数据集上，VideoPrism都大幅优于基线。此外，将VideoPrism的底层模型大小从ViT-B增加到ViT-g可以显着提高性能。

值得注意的是，没有基线方法能在所有基准测试中取得第二好的成绩，这表明以前的方法可能是针对视频理解的某些方面而开发的。

而VideoPrism在这一广泛的任务上持续改进。

这一结果表明，VideoPrism将各种视频信号整合到了一个编码器中：多种粒度的语义、外观与运动线索、时空信息以及对不同视频源（如网络视频与脚本表演）的鲁棒性。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

零样本视频文本检索和分类

表3和表4分别总结了视频文本检索和视频分类的结果。

VideoPrism的性能刷新多项基准，而且在具有挑战性的数据集上，VideoPrism 与之前的技术相比取得了非常显著的进步。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

基础模型VideoPrism-B 的大多数结果，实际上优于现有的更大规模模型。

此外，VideoPrism与表4中使用域内数据和额外模态（例如音频）预训练的模型相当，甚至更好。这些在零样本检索和分类任务中的改进体现了VideoPrism强大的泛化能力。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

零样本视频字幕和质量检查

表5和表6分别显示了，零样本视频字幕和QA的结果。

尽管模型架构简单且适配器参数数量较少，但最新模型仍具有竞争力，除VATEX外，在冻结视觉和语言模型的方法中名列前茅。

结果表明，VideoPrism编码器能够很好地推广到视频到语言的生成任务。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

科学领域的CV任务

通用ViFM在所有评估中使用共享的冻结编码器，其性能与专门用于单个任务的特定领域模型相媲美。

尤其是，VideoPrism通常表现最好，并超越了具有基本规模模型的领域专家模型。

扩展到大规模模型可以进一步提高所有数据集的性能。这些结果表明ViFM有潜力显著加速不同领域的视频分析。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

消融研究

图4显示了消融结果。值得注意的是，VideoPrism在SSv2上的持续改进表明，数据管理和模型设计工作在促进视频中的运动理解方面的有效性。

尽管对比基线已经在K400上取得了有竞争力的结果，但所提出的全局蒸馏和token洗牌进一步提高了准确性。

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA 图片

参考资料：

https://arxiv.org/pdf/2402.13217.pdf

小艺

华为公司推出的AI智能助手

下载

https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

相关文章

EO3.1怎么生成电影感视频_EO3.1高清长镜头视频制作

lovemo怎么导出无损音频 lovemo音频参数设置教程【教学】

mufy怎么生成歌词_mufy创作流行歌曲词作教程

mufy怎么生成诗歌_mufy中文古风诗歌创作方法

Qwen3-ASR— 阿里通义开源的系列语音识别模型

相关标签:

谷歌 ai 架构 Token map https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：高性能 LLM 推理框架的设计与实现下一篇：打入AI底层！NUS尤洋团队用扩散模型构建神经网络参数，LeCun点赞

作者最新文章

微信朋友圈怎么定时发送微信朋友圈定时发布设置方法【教程】

2026-01-06 09:59

苹果手机怎么定时发朋友圈 iPhone微信朋友圈自动发布方法【步骤】

2026-01-08 11:11

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

登录token无效

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6538

2023.09.14

登录token无效怎么办

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

840

2023.09.14

token怎么获取

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1089

2023.12.21

token什么意思

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1858

2024.03.01

golang map内存释放

golang map内存释放

本专题整合了golang map内存相关教程，阅读专题下面的文章了解更多相关内容。

77

2025.09.05

golang map相关教程

golang map相关教程

本专题整合了golang map相关教程，阅读专题下面的文章了解更多详细内容。

39

2025.11.16

golang map原理

golang map原理

本专题整合了golang map相关内容，阅读专题下面的文章了解更多详细内容。

67

2025.11.17

java判断map相关教程

java判断map相关教程

本专题整合了java判断map相关教程，阅读专题下面的文章了解更多详细内容。

47

2025.11.27

JavaScript浏览器渲染机制与前端性能优化实践

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

1

2026.03.06

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

550W粉丝大佬手把手从零学JavaScript

550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.4万人学习

尚硅谷JavaScript高级视频教程

尚硅谷JavaScript高级视频教程

共48课时 | 14.9万人学习

尚硅谷自动化构建工具Maven视频教程

尚硅谷自动化构建工具Maven视频教程

共35课时 | 7.5万人学习

最新文章

更多

如何写出让用户产生强烈信任感的品牌文案利用文心一言注入专业背书与真实感

小米ai音响怎么用_小米ai音响使用教程【详解】

ai怎么填色_ai填色操作快速掌握【方法】

如何快速掌握复杂财务模型构建利用DeepSeek拆解Excel进阶公式

如何零基础制作一款简单的AI小程序利用Cursor实现低代码快速交付

ai文件全部转曲怎么弄_ai文件批量文字转曲操作方法【技巧】

如何提升简历中外企岗位的匹配度利用Claude进行中英文表达深度润色

如何快速从长视频中提取短视频素材利用剪映AI智能拆解精彩片段

如何生成极具个性的社交头像利用Midjourney关键词组合技巧

ai魔棒工具怎么用_ai魔棒工具使用技巧【指南】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部