0

0

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

WBOY

WBOY

发布时间:2024-07-12 18:10:01

|

913人浏览过

|

来源于机器之心

转载

7月5日,在世界人工智能大会组委会办公室、上海市徐汇区人民政府指导下,由上海人工智能实验室、本站、全球高校人工智能学术联盟主办的 2024 WAIC 云帆奖暨人工智能青年论坛成功举办。论坛汇聚来自斯坦福大学、牛津大学、UCLA、加州大学、苏黎世联邦理工学院、香港大学、清华大学、北京大学、上海交通大学等海内外高校、研究机构及企业的30余位往届及新晋云帆奖得主线下参会,凝聚国际青年AI科学家的智慧,积极探索AI能力边界,为中国AI发展蓝图贡献新生力量。蚂蚁集团遥感大模型负责人王剑作作为2024 WAIC 云帆奖代表之一在论坛上发表主题为「多模态遥感大模型的探索与实践」的主题演讲。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

王剑总结了遥感大模型发展的契机和当前业界的进展,并分享了蚂蚁集团基于蚂蚁百灵大模型平台研发的20亿参数多模态遥感模型SkySense,以及SkySense的开源计划。通过在数据、模型架构和无监督预训练算法等方面的技术创新,SkySense在土地利用监测、地物变化检测等7种常见遥感感知任务,17项测评中均名列第一。同时,王剑还介绍了SkySense在农村金融、蚂蚁森林林地保护等场景的应用。

以下是王剑的演讲实录:

大家下午好!我是来自蚂蚁集团的王剑。非常高兴能在云帆奖论坛上分享蚂蚁集团在多模态遥感大模型方向的探索和实践。 我的分享从以下三个方面展开:一是研究背景,二是蚂蚁集团研发的多模态遥感大模型SkySense,三是基于SkySense的应用。

大模型的出现带来生成式人工智能快速地发展,但现在在工业界,距离规模化应用还非常遥远。虽然大模型的出现打开了AI新世界的大门,但是我们认为只有将基于大模型的创新应用深入到千行百业中,实现生产力的变革,才能带来AI新技术范式内在价值的真正释放。这样的思考下,蚂蚁集团积极布局大模型的技术和应用。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

在基础能力方面,我们建设了一个万卡集群的算力系统,并重点关注大模型安全力和知识力。首先,安全力方面,蚂蚁集团自研蚁天鉴平台,为大模型的安全提供一体化解决方案,从而保证蚂蚁集团的大模型安全可信。在基础能力之上,我们建设了百灵语言大模型和百灵多模态大模型,并基于这两个基础的大模型,根据蚂蚁集团业务的特点,我们重点关注大模型在金融、医疗、民生、安全、遥感、代码等行业的应用,以此服务消费者和企业客户,从而推动可信智能,服务产业发展。整个体系还是非常庞大的,接下来我用大模型在遥感方面的应用作为切入点,跟大家分享我们在整个大模型领域的一些思考和实践。

语言以及视觉大模型的发展为遥感大模型的研发提供了很多重要参考。比如大语言模型,当它拓展到多模态领域之后,之前的一些视觉任务,比如OCR,VQA等任务都表现出很好的效果。在纯视觉大模型方面,类似SAM这样的算法,在分类、检测、分割的任务上表现出很强的性能。遥感领域主要解决的任务也是分类、检测、分割,自然而然的想法是把视觉大模型成功的经验应用在遥感领域。

另一方面,随着遥感技术的高速发展,遥感领域持续生产了海量的多时相的遥感数据,这些数据有跟自然影像比较像的可见光影像,光谱信息比较多的多光谱数据,还有雷达SAR影像,这些数据来自不同的卫星,不同的传感器,我们可以将他们视为不同模态的数据。这些数据都是没有经过标注的,而且标注这些数据不仅费时费力,而且很多情况下只有依赖于专家经验才能进行。只有借助无监督的算法,才能把这些数据的价值给充分发挥出来。近年来,业界出现了很多遥感影像数据获取的渠道,比如欧空局哥白尼平台,谷歌GEE平台,中国资源卫星中心的数据平台,这些平台都为我们获得遥感数据提供了便利。综上,遥感领域有很多易获得的数据,再结合视觉大模型的成功经验,这些因素为遥感大模型的研发提供很好的契机和动力。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

这张图展示了近年来发布的遥感大模型。大家可以看到,从2021年开始业界就有用无监督预训练的算法做遥感影像的识别,这里面有像SeCo这样的模型。随后越来越多的公司和机构参与进来,这里面有很多代表性的工作,比如2022年中国科学院空天院发布的RingMo模型,2023年Satlas模型,前不久复旦大学发布的GRAFT模型。这一幅图里面也可以看到几个明显趋势,模型的数据和参数的规模越来越大,性能越来越强。从最早的支持单模态的数据,到现在融合多模态的数据,从最早的只能覆盖单数据源的影像,到现在可以融合多数据源的影像,从早期的仅支持单张静态影像的解译,到融合整个时序影像的信息。整个趋势跟语言和视觉大模型的发展趋势是一致的,可以预见接下来肯定会出现性能更强,参数量更大的遥感大模型。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

回到蚂蚁,蚂蚁为什么会做遥感大模型?因为蚂蚁有很多的金融业务,其中一个是农村金融。大家在金融行业,如果问什么最难,我相信99%的人一定会说是农村金融最难。农村金融主体客户就是农民,农民不同于公司白领,有很好的信用数据。农民跟小微企业主相比,缺乏银行认可的抵押物。此外,银行在农村网点覆盖非常少,没办法规模化线下地调以确定农民的资产。这背后主要的痛点是,作为农民主要资产的土地价值,没法大规模数字化。

针对这个痛点,蚂蚁旗下网商银行在2019年做了一套利用卫星遥感和AI图像识别的资产评估系统,具体是通过卫星遥感影像结合人工智能的算法,识别农户田地种了什么庄稼,种的多大,种的好不好等信息,通过这些信息综合地分析农户种植情况,从而确定资产价值,给他提供信贷服务。早期以识别主粮作物为主,水稻、玉米、小麦等,服务了百万级农户。

当我们把这套系统推向苹果、柑橘等经济作物时,识别遇到一些难题。因为经济作物相比主粮作物,种植更加稀疏,种植方式更加多样,而且品类非常长尾,比如说主粮作物种类只有几类,经济作物可以达到几十类之多,所以在全国范围内识别如此多的农作物种类,在遥感领域都是难解的问题。从技术视角分析,我们可以使用少样本学习、多模态时序算法、通用表征提升模型泛化性能的方式来提升模型效果,而这些技术特点恰恰是基础模型具备的特点,所以在这样的情况下,我们决定研发遥感大模型。

下面总结一下蚂蚁集团做遥感大模型的契机和动力。

技术层面上,基础模型的技术快速发展,而且现在具备商业化的潜力。数据层面上,遥感领域有海量丰富的遥感数据,为遥感大模型研发奠定基础。业务层面上,可以满足蚂蚁多模态、多时序、多任务场景的需求。在这些因素的驱动下,蚂蚁集团联合武汉大学遥感学院研发了多模态遥感大数据SkySense。

为了训练这个模型,我们采集了分布于全球的2150万组样本,每一组样本都包含了高分光学、时序光学、雷达SAR影像。这些数据覆盖全球40多个国家和地区,覆盖土地达到878万平方公里,有300TB。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

在模型结构上,为了更好的融合不同模态的信息,我们设计了多粒度对比学习的方式,针对遥感影像的特点,提出了时空感知嵌入的算法。这些对提升遥感基础模型的性能都是非常有帮助的。

遥感领域还有另外一个特点,一整张遥感影像通常非常大,没有办法同时放到GPU里面做训练,所以业界通常的做法就是将整个遥感影像切成一个一个小块,以适配GPU的显存。这样做有一个明显的问题,对每一个小块训练来说都会丢掉上下文信息。针对这种情况,我们也发展了一个地理空间敏感的上下文学习算法,可以隐式生成时空敏感的地学知识。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

目前,SkySense的参数规模达到20.6亿,模型训练方式上,除了常用的无监督对比学习预训练方式外,我们还针对遥感影像的特点,提出了通过时空解耦来联合高分光学,时序光学,时序SAR等数据通路的互监督学习与生成式学习的方法,以灵活支持下游不同模态,不同时序组合的遥感解译任务。目前SkySense在土地监测利用、目标检测等17类评测数据集都达到好的效果,相关论文被CVPR2024(IEEE国际计算机视觉与模式识别会议)收录。

训练这个模型需要投入很多存储、算力以及人力资源,我们非常希望跟业界共享SkySense,以发挥它的价值,并促进整个遥感解译领域的发展。今年6月15日,我们已经开始定向地给一些科研机构试用遥感的大模型。在使用过程中,大家也有很多反馈,比如有的反馈说20亿参数太大,很多场景并不需要那么大参数的模型。针对这种情况,我们研发了一套算法,通过一次预训练,可以产生多个尺寸的小模型,而且对于每一个小模型而言,都比直接训练这个尺寸的模型效果会更好。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

在实际的产业应用中,仅仅有模型的权重参数远远不够,还必须要有与之相匹配的数据系统和产品系统,才能真正发挥大模型的价值。这是蚂蚁集团遥感技术的大图,在数据层面上我们研发了时空数据库,用来管理不同模态,不同来源的数据,以支持遥感大模型高效的训练和推理。此外,我们联合武汉大学遥感学院,研发了国产遥感数据预处理系统,通过摄影测量遥感一体化技术,来大幅提升国产数据的质量。在产品方面,我们研发了mEarth智能遥感工作台,这个工作台可以一站式进行数据资产管理,数据生产加工,模型的训练和业务应用能力的搭建,从而能够高效灵活地支持下游各种应用场景的接入。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

塔猫ChatPPT
塔猫ChatPPT

塔猫官网提供AI一键生成 PPT的智能工具,帮助您快速制作出专业的PPT。塔猫ChatPPT让您的PPT制作更加简单高效。

下载

接下来分享SkySense的应用实践。在前面提到的农村金融场景,通过卫星遥感以及遥感大模型识别的方式,我们能够精准地识别不同时期农作物的种类,以及是否受到病虫害等信息,还能分析出这个农作物正处在什么生长周期,根据不同的生长周期匹配多样化的金融服务,从而为农民提供更好信贷的支持。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

蚂蚁森林已经种了4.75亿棵树,守护4800平方公里的社会公益保护地,要保护这么多林地,必须借助科技手段。我们通过卫星遥感和无人机航拍,结合遥感大模型识别的方式,高效监测蚂蚁森林林地的状态,实现数字化的生态保护和修复。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

碳汇的计算测量是ESG领域非常重要的话题,现在的碳汇计算严重依赖人工,阻碍了碳汇交易的发展,我们试验通过卫星遥感和大模型技术,开发一套零人工干预或者降低人工干预的碳汇系统方案,尝试做出一个林区变化监控和生物量增量估算系统。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

这是在森林保护项目中,我们通过遥感大模型支持自然风化的变化检测和人为破坏的变化检测,从而实现大规模林地定期监测和保护。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

这是通过遥感大模型对吉林四平市主粮作物识别的结果,可以看到,在这种种植情况比较复杂的区域,遥感大模型也能够在像素级别做出精准识别。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

这是在陕西洛川,在这种地形结构复杂的区域,SkySense对苹果种植识别的准确率也可以达到95%以上。

多模态遥感大模型的探索与实践,蚂蚁集团遥感大模型负责人王剑带来深度解读

同时,我们还用SkySense对全球区域的夜光数据进行了分析,展示不同区域经济活跃度的情况,明显看到上海区域经济非常活跃。

以上就是我的分享,谢谢大家!

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

404

2023.08.14

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

352

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2076

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

348

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

255

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

324

2023.10.09

数据库对象名无效怎么解决
数据库对象名无效怎么解决

数据库对象名无效解决办法:1、检查使用的对象名是否正确,确保没有拼写错误;2、检查数据库中是否已存在具有相同名称的对象,如果是,请更改对象名为一个不同的名称,然后重新创建;3、确保在连接数据库时使用了正确的用户名、密码和数据库名称;4、尝试重启数据库服务,然后再次尝试创建或使用对象;5、尝试更新驱动程序,然后再次尝试创建或使用对象。

410

2023.10.16

vb连接access数据库的方法
vb连接access数据库的方法

vb连接access数据库方法:1、使用ADO连接,首先导入System.Data.OleDb模块,然后定义一个连接字符串,接着创建一个OleDbConnection对象并使用Open() 方法打开连接;2、使用DAO连接,首先导入 Microsoft.Jet.OLEDB模块,然后定义一个连接字符串,接着创建一个JetConnection对象并使用Open()方法打开连接即可。

406

2023.10.16

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

2

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号