0

0

微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure

WBOY

WBOY

发布时间:2023-04-15 08:43:02

|

1448人浏览过

|

来源于51CTO.COM

转载

2021年11月,微软发布了一个多模态视觉基础模型Florence(佛罗伦萨),横扫超过40个基准任务,轻松适用于如分类、目标检测、VQA、看图说话、视频检索和动作识别等多个任务。

时隔一年半,Florence正式开启商用阶段!

Florence能干什么?

最近,微软全球人工智能首席技术官黄学东官宣了微软 Florence 基础模型的公开预览版。

Florence模型经过数十亿文本-图像对的训练,目前已集成进Azure 认知视觉服务中,在「价格」和「性能」上都已到达「生产环境」的要求,目前处于免费试用阶段。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

改进后的视觉服务使开发商能够在不同行业创建前沿的、适应市场的、负责任的计算机视觉应用程序。客户可以将他们的数据无缝地数字化、分析并连接到自然语言的交互中,从图像和视频内容中获取更精确的信息,保护用户远离有害内容,增强安全性,并提升事件响应速度。

Florence的实际能力也很强大,用户可以在Vision Studio中进行「开箱即用」的体验。

图片

体验网址:https://portal.vision.cognitive.azure.com/gallery/featured

具体包括:

Dense Captions(详细的描述):可以自动提供内容丰富的描述信息、设计建议、可访问的替代文本、搜索引擎优化、智能照片管理等以支持数字化内容。

图像检索:使用自然语言查询,无缝地度量图像和文本之间的相似性,从而改进搜索推荐和广告。

背景去除:可以方便地从原始背景中分割出人物和物体,并替换为其他背景场景,从而改变图像的外观和感觉。

模型定制:降低交付定制模型的成本和时间,能够以更高精度来匹配独特的业务需求,即便只有少量的可用图像。

视频摘要:搜索和交互视频内容,与人类同样直观的方式进行思考和写作。可以帮助找到相关内容,并且不需要额外的元数据。

Reddit

Reddit消费品产品经理Tiffany Ong表示,通过微软的Vision技术,可以使用户更容易发现和理解Reddit上的内容。

新创建的图片描述可以让用户更容易地访问Reddit,使用图像描述来帮助用户提高文章的搜索结果,让Reddit用户有更多机会来探索网站上的图片,参与对话,并最终建立联系和社区感知。

Florence能够为每张图片生成多达10000个标签,使得Reddit能够更好地控制图片中的物体数量,并帮助生成更好的图像描述。

Microsoft 365

除了微软数据中心之外,微软也正在提升Microsoft 365应用程序(包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中视觉服务的能力。

在图像分割能力的帮助下,Teams正在推动数字空间的创新型,把虚拟会议的体验提升到新高度。

PowerPoint、 Outlook和Word利用自动替换文本的图像描述来提高可访问性。

Microsoft Designer和OneDrive正在使用改进的图像描述、图像搜索和背景生成来简化图像的可发现性和编辑。

Microsoft数据中心正在利用Vision Services来增强安全性和基础设施的可靠性。

Cutout.Pro抠图
Cutout.Pro抠图

AI批量抠图去背景

下载

LinkedIn

LinkedIn的无障碍工程负责人Jennison Asuncon表示,LinkedIn上有超过40%的帖子中包含至少一张图片,对于盲人或是低视力的用户来说,视觉服务能够让所有用户都有平等的阅读机会,并使他们能够参与到在线对话中。

图片

通过Azure视觉认知服务,LinkedIn可以提供自动图像描述来编辑和支持可选文本,这是一种全新的体验。

不仅我对此感到兴奋,我的同事刚刚分享了一个他们参加活动的照片,LinkedIn的首席执行官Ryan Roslansky也在照片里。

负责任地创新

回顾负责任的人工智能原则,可以了解到微软是如何致力于开发人工智能系统,以提升世界的可访问性。

图片

微软致力于帮助各个组织充分利用人工智能,并正在大力投资于提供技术、资源和专业知识的项目,以增强那些致力于创造一个更可持续、更安全和更容易进入的世界的人的能力。

多模态是未来

包括微软、谷歌在内的多个科技巨头在人工智能发展方向上出奇地一致,认为「多模态模型」是提高人工智能系统能力的最佳途径,也就是单个模型可以同时理解语言、图像、视频和音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述等。

图片

为什么不把几个「单模态」模型串在一起,以达到同样的目的,比如说用一个模型来理解图像,而另一个模型用来理解语言?

第一个原因是,由其他模态提供的背景信息,多模态模型可以在某些情况下比单模态模型在同一任务中表现得更好。

比如说,一个能够理解图像、定价数据和购买历史的人工智能助手可以比一个「只理解定价数据」的AI能够提供更好的个性化产品建议。

并且从计算的角度来看,多模态模型往往更有效率,可以提升数据处理的速度,降低后端的成本。

毫无疑问,所有商业公司都渴望降本增效。

Florence能够理解图像、视频和语言以及这些模态之间的关系,从而可以做到一些单模态无法完成的任务,比如测量图像和文本之间的相似度,分割照片中的对象,然后把它们粘贴到另一个背景上。

几乎所有AI模型的训练都面临数据版权问题,Azure AI的企业副总裁(CVP)John Montgomery在回答有关「Florence的训练数据」时没有透露太多信息,只是说Florence使用的是「负责任地获取」的数据源,包括来自合作伙伴的数据;此外,Montgomery表示,训练数据中删除了可能存在问题的内容,也是公开训练数据集的常见特点。

图片

Montgomery认为,当使用大型基础模型时,最重要的是要确保训练数据集的质量,为每个视觉任务的适应模型创建基础,微软针对每个视觉任务的调整模型都经过了公平性、对抗性和挑战性案例的测试,并实现了与 Azure Open AI Service 和 DALL-E 相同的内容审核服务。

在未来,消费者可以使用Florence做更多的事情,比如检测制造过程中的缺陷,以及在零售店实现自助结账。

不过Montgomery指出这些用例实际上并不需要多模态视觉模型,但他断言,多模态在这个过程中可以增加一些有价值的东西。

Florence是一个经过「完全重新思考」的视觉模型,一旦在图像和文本之间实现了简单且高质量的翻译过程,就会打开一个全新的、充满未知可能性的世界。

客户能够体验到显著改进的图像搜索,将图像和视觉模型以及语言和语音等其它模型类型训练成全新类型的应用,并轻松提高自定义模型的质量。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2140

2024.08.16

vsd文件打开方法
vsd文件打开方法

vsd文件打开方法有使用Microsoft Visio软件、使用Microsoft Visio查看器、转换为其他格式等。想了解更多vsd文件相关内容,可以阅读本专题下面的文章。

490

2023.10.30

cdn加速软件有哪些
cdn加速软件有哪些

CDN加速软件可以帮助网站提高内容访问速度和用户体验,降低服务器负载。在选择CDN加速软件时,需要根据实际需求和预算进行权衡,选择合适的软件和服务商。cdn加速软件有AWS CloudFront、Azure Content Delivery Network、Google Cloud CDN、Fastly、Cloudflare和Incapsula。

320

2023.10.19

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

396

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

3182

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

436

2024.05.20

PowerPoint插入图片的方法
PowerPoint插入图片的方法

本教程涵盖了各种插入方法,从常规插入到高级技巧,满足不同场景需求。快来学习,化解您的插入图片难题吧!

4637

2024.09.02

PowerPoint怎么插入图片
PowerPoint怎么插入图片

在 PowerPoint 中插入图片,先打开软件及要编辑的演示文稿,点击要插入图片的幻灯片。然后点击 “插入” 选项卡,选择 “图片”,在弹出对话框中浏览并选中图片,点击 “插入” 即可。也可使用快捷键 Ctrl+M 插入本地图片(WPS 中)。

41667

2025.04.28

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.2万人学习

Excel 教程
Excel 教程

共162课时 | 14.6万人学习

PHP课程
PHP课程

共137课时 | 10.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号