0

0

UniPixel— 香港理工联合腾讯推出的像素级多模态大模型

聖光之護

聖光之護

发布时间:2025-10-17 15:08:01

|

520人浏览过

|

来源于php中文网

原创

UniPixel是什么

unipixel是香港理工大学和腾讯arc lab团队开发的首个统一像素级多模态大模型,专注于图像/视频的精细理解与交互。能在单个模型中完成对象指代、像素级分割和区域推理三大任务,通过创新设计的”对象记忆机制”和统一视觉编码方式,实现了对视频中目标的精准追踪与语义理解。模型基于qwen2.5-vl框架,支持点、框、掩码三种交互方式,在9项视觉任务基准测试中超越72b参数的传统模型,开源了代码和在线demo。核心突破在于将视觉分割与语言推理深度融合,解决了传统模型无法处理复杂指代和动态区域理解的问题。

MusicLM
MusicLM

谷歌平台的AI作曲工具,用文字生成音乐

下载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

UniPixel— 香港理工联合腾讯推出的像素级多模态大模型

UniPixel的主要功能

  • 像素级视觉语言理解:专注于像素级视觉语言理解,能实现视觉信号与语言语义之间的像素级对齐,支持多种细粒度任务,包括图像/视频分割、区域理解以及PixelQA任务。
  • 统一对象指代与分割:模型将对象指代和分割能力无缝集成,能根据视觉提示输入生成相关的掩码,并在推理过程中基于这些中间指针进行后续推理,实现细粒度的像素级推理。
  • 多任务支持:在多个基准测试中表现出色,包括ReVOS推理分割基准、MeViS、Ref-YouTube-VOS、RefCOCO/+/g等数据集,设计了新的PixelQA任务,要求模型联合进行对象指代、分割和问答。
  • 灵活的视觉提示处理:能灵活处理视觉提示输入,生成掩码并进行推理,支持单帧和多帧的视频区域理解,以及基于掩码的问答任务。

UniPixel的技术原理

  • 统一框架设计:UniPixel采用统一框架,将对象指代和分割能力整合到一个模型中,实现从粗粒度场景理解到细粒度像素推理的跨越,为复杂视觉推理提供基础。
  • 对象记忆库:模型包含对象记忆库,存储从指代任务中提取的对象特征,为后续的分割和推理任务提供上下文信息,增强模型在像素级任务上的性能。
  • 多阶段训练策略:采用预训练、指代任务微调和分割任务微调的多阶段训练策略,逐步提升模型在像素级任务上的性能,适应不同任务需求。
  • 端到端掩码生成:模型能根据语言描述直接生成像素级掩码,实现语言与视觉的深度融合,支持多种细粒度任务,如图像/视频分割和区域理解。
  • 灵活的视觉提示处理:能灵活处理视觉提示输入,生成掩码并进行推理,支持单帧和多帧的视频区域理解,以及基于掩码的问答任务,适应不同场景需求。
  • 强大的推理能力:在VideoRefer-Bench-Q问答任务中,UniPixel-7B模型取得了74.1%的准确率,超越了包括GPT-4o在内的多个强大基准模型,显示出其在复杂视觉推理任务中的强大能力。
  • 模型权重与数据集提供:提供了UniPixel-3B和UniPixel-7B两个版本的模型权重,以及23个指代/分割/QA数据集的原始图像/视频和预处理注释,为研究和应用提供丰富资源。
  • 训练与评估支持:代码库支持在23个数据集和基准测试上进行训练和评估,支持灵活的硬件设置、高效的训练技术、自定义基础LLM和对话模板,以及通过Tensorboard/Wandb监控训练过程,方便用户使用和优化。

UniPixel的项目地址

  • 项目官网:http://polyu-chenlab.github.io/unipixel/
  • Github仓库:http://github.com/PolyU-ChenLab/UniPixel
  • HuggingFace数据:http://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M
  • arXiv技术论文:http://arxiv.org/pdf/2509.18094
  • 在线体验Demo:http://huggingface.co/spaces/PolyU-ChenLab/UniPixel

UniPixel的应用场景

  • 图像分割:UniPixel能根据语言描述生成图像中特定对象的像素级掩码,适用于需要精确图像分割的场景,如医学图像分析、自动驾驶中的目标分割等。
  • 视频分割:在视频处理领域,UniPixel可以对视频中的对象进行实时分割,支持视频编辑、视频监控和增强现实等应用。
  • 区域理解:通过理解语言描述来识别和分割视频中的特定区域,可用于视频内容分析、智能监控系统和视频会议中的背景分割等。
  • 问答任务:UniPixel支持PixelQA任务,能够根据语言描述和视觉信息回答问题,适用于教育、智能客服和信息检索等场景。
  • 多模态交互:在需要结合视觉和语言信息进行交互的场景中,如智能助手、虚拟现实游戏开发等,UniPixel能够提供更自然和准确的交互体验。
  • 智能监控:在安防监控领域,UniPixel可以实时识别和分割监控视频中的特定对象或区域,提高监控系统的智能化水平。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

995

2026.01.21

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

427

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

418

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

2320

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2112

2024.08.16

好用的视频编辑软件推荐
好用的视频编辑软件推荐

好用的视频编辑软件:1. Final Cut Pro X:适合Mac用户,专业级,配置要求高。2. iMovie:苹果设备自带,适合初学者。3. Adobe Premiere Pro:跨平台,功能强大,适合专业用户。4. DaVinci Resolve:专业调色软件,配置要求高。5. 爱剪辑:适合Windows初学者,功能丰富。6. 威力导演:适合Windows中级用户,支持360度视频编辑。

202

2025.04.15

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

18

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

12

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.1万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号