0

0

看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

王林

王林

发布时间:2024-03-28 22:01:21

|

524人浏览过

|

来源于机器之心

转载

今年升级的重点在于引入了多模态大模型能力。

当 Sora 和 Suno 所创造的视频和音乐作品在全球范围内引起视听革命时,工业领域的大规模多模态应用又将如何演进?3 月 27 日,作为中国领先的「AI+制造」解决方案提供商,创新奇智揭开了他们的前瞻性答案。

经过半年努力,创新奇智在北京举办的发布会上发布了更为强大的奇智孩明工业大模型 2.0 版本(AInno-75B)。几款大模型原生应用也首次亮相,包括 ChatVision、ChatCAD,ChatRobot 也升级到 Pro 版本。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

                               创新奇智 CTO 张发恩在发布会上

Scaling laws的应用有助于研究人员和工程师预测增加模型规模带来的性能收益,以及为了达到特定性能目标需要的参数量。目前,界面已经形成一些共识,参数的提升可以让模型性能提升。较之AInno-15B,AInno-75B在规模和性能方面取得了显著增长。

今年升级的重点在于引入了多模式大模型能力。张发恩解释说,这个进阶的大模型能够处理包括文本、图片、视频在内的多种信息模态,甚至能够融合工业场景中特有的数据类型,比如CAD图纸和EEG信号。它的输出同样多样,能够生成文本、图像、视频、CAD设计图或者工具体操作行为。

看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

一、ChatCAD: 工业“文生图”之美

C端AIGC应用生成的图片、视频作品令人叹为观止,而在企业服务领域,AI生成能力同样精彩。

工业设计是生产活动的基石,从手机到新能源汽车工厂,生产建造前都应完成工业设计。CAD软件作为工业设计之本,在产业链上占据重要地位。长期以来,我国传媒CAD软件市场被国外厂商把持,界面复杂、使用门槛高。

中国中元国际机械工程有限公司经营总负责人王先透露,他们的设计工作大多依赖人工。一个单体建筑,无论是标准层还是综合体都需要设计师一笔一笔绘制,工业图纸亦是如此,耗费大量人力物力。此外,行业规范众多且修订频繁,进一步加大了设计难度。

为打破这一局面,创新奇智率先将工业大模型技术引入工业设计领域,推出Text-to-CAD类应用—“ChatCAD”:通过简单的对话问答形式,便能迅速理解设计师的创意意图,自动生成符合要求的工业设计图,并支持导出到传统软件进行微调。

输入 “帮我设计一个工业滑轮,参数如下:滑轮半径为6,厚度为5,滑轮边缘向外突出0.8,突出部分厚度为0.5,滑轮中心轴高度为5,半径为4” 。ChatCAD 立刻生成作品,并根据反馈不断优化设计。看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了                                现场演示工业滑轮设计

即使面对冗长复杂的部件设计需求,ChatCAD也能应对。例如,“帮我设计一个涡轮机,涡轮由电机、引擎罩组成,具体要求如下:电机为圆柱形,长20,直径16。涡轮由一个圆柱涡轮轴和5片扇叶组成,涡轮轴长20,直径12,涡轮顶部要有圆柱形圆锥旋转轴,轴帽长度为9,直径12,引擎罩直径50,长度30,涡轮扇叶与引擎罩之间的间隔为1。” 

ChatCAD 依然可以生成结果,并根据反馈持续完善。ChatCAD生成的设计还支持主流文件格式,可无缝对接其他工业软件,方便后续集成修改。看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

                               现场演示涡轮机设计

这一功能令王先倍感振奋。他认为,ChatCAD 有望帮助行业减少重复性劳动,规避硬性规范限制,进而影响整个行业的人工报价。

那么,ChatCAD 是如何实现的?张发恩解释道,CAD 有别于文本、图片、视频等常见模态,它需要表示点、线、边、圆、柱、工艺等几何数据。“所以我们也叫做一种模态,是 C 端不具备的一种模态。我们要发明自己表达 CAD  的中间语言,大模型生成这种中间语言或者中间码,再把这些中间码翻译成 CAD 。”看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

                               官方发布的ChatCAD DEMO

张发恩坦言,目前 ChatCAD 生成的简单图纸可直接用于加工,但复杂设计仍需完善。ChatCAD 的目标是成为设计院工程师的得力助手。它有望将原本耗时十小时的设计流程缩短至一小时,大模型负责完成 90% 的工作,剩余 10% 由人工优化。

值得一提的是,创新奇智已成功将先进的大模型技术深度融入 CAD 、MES 、BI 等多种工业软件,实现了对"研发设计-生产控制-信息管理"全流程的智能化改造与升级。

二、ChatVision :工业安全监管新利器

工厂生产安全与合规至关重要,视频监控和图像分析不可或缺。以板卡厂波峰焊为例,工人清理 280 度高温锡炉时,若未严格佩戴安全防护装备,如气密式活性炭口罩、高温防护手套等,存在严重烫伤风险。

传统监控方式效率低下,容易遗漏隐患,事后检查滞后明显。ChatVision 基于 Alnno-75B 工业大模型,可通过自然语言实时分析监控视频流、视频文件和图片,精准识别不合规行为,并立即触发报警系统(比如自动发送邮件给管理员),助力工业企业安全生产。

Autoppt
Autoppt

Autoppt:打造高效与精美PPT的AI工具

下载

发布会现场演示中,ChatVision 准确响应"仔细观察当前画面,告诉我这可能是个什么地方"等综合理解指令,以及"找出画面中的电源插座"、"找出白色的安全帽"等具体目标识别任务,展现了其广阔应用前景。看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

                                现场演示中,ChatVision找出画面中的电源插座"、"找出白色的安全帽"等具体目标。

这些指令看似很简单,没有大模型的情况下需要针对每个细小的识别类别(比如安全帽、吸烟)开发具体算法,调试部署后难以修改,落地成本高、周期长。大模型的出现颠覆了传统范式,单个大模型可覆盖多个小模型的功能,在性能、准确率、泛化能力等方面全面超越,并支持自然语言交互,大大简化了开发部署流程。

现场演示中,画面发生变化:一位同事摘下工帽玩手机,另一位同事脱下安全衣。演示人员下达指令:"请仔细分析这个画面,如果有违规,发邮件给管理员"。

这条指令知识密度很高,不仅涉及违规判断,还需决定是否触发邮件发送以及收件人。这正是大模型原生应用的典型服务模式。结果,ChatVision 调用了后台很多安全监测技能做了识别,不仅标出来三项违规之处,还发送了邮件,附带截图。看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

                        官方发布的ChatVision DEMO 中有清楚演示

ChatVision 演示充分体现了工业大模型的规划和推理能力。它可以将用户意图转化为一系列外部工具调用,有条不紊地完成复杂视频理解任务。

创新奇智 CTO 张发恩表示,过去几年公司积累了 200 多项视觉算法和模型资产,而工业大模型为这些资产的应用开辟了新天地。大模型不仅可以充当智能编排者,优化用户体验,其多模态能力还能强化视频理解,在企业安全领域大显身手。

最后一个演示案例凸显了大模型在多模态领域的前沿应用。面对一段真实车间视频,演示人员提出高难度需求:"请仔细分析这个视频,告诉我是否有人吃饭并标识这个动作发生的时间"。该任务需要大模型对长时间序列画面进行连续动作识别,并标注动作起止时间。结果, ChatVision 准确定位到视频开头 15 秒内出现工人吃饭的情况。

"吃饭是很常见的事件,大模型对事件的理解能力远胜传统小算法模型。"张发恩解释道。长期以来,通过视频保障生产和工程安全的需求十分迫切。未来,围绕大模型开展相关工作,将有望实现生产安全状况、生产过程合规性的智能视频理解。

在王先看来,安全始终是工程项目的头等大事。多年来,工程安全培训很少涉及现场隐患排查。他认为 ChatVision 的应用前景广阔,现场安全头盔检测、高空安全绳佩戴、安全器具携带等场景都可望落地。ChatVision 在监理行业也大有可为,目前许多现场安全巡检仍高度依赖人力。

三、ChatRobot Pro :“运动想像识别”

AInno-15B 的原生应用 ChatRobot 已经实现语音控制工业机器人。直接告诉ChatRobot “给我来一杯咖啡”,它就可以指挥工业机械臂在货架上寻找咖啡,自行设计路线把货物送到你手上。ChatRobot Pro 能处理更复杂的信息载体脑电信号。

发布会上,演示人员随机选择了一种商品(统一绿茶),让一位头皮上固定了多个电极的人用运动想像控制工业机器人将饮料交到其手中。这位头戴采集器的人努力想着三件事:向左、向右,选中,光标根据大模型翻译出来的信号也在屏幕上左右移动。当光标移到目标图标时,他会盯着这个图标不动,光标点击选中。

接下来,ChatRobot Pro 会自主完成任务的智能编排,生成可执行任务步骤,并与工业机器人接口实时交互,指示机器人完成任务。

脑电信号是大脑活动时产生的信号,大脑活动和脑电信号之间的关系非常复杂,如何解码成为困扰研究者的一大难题。传统做法的准确率低,AInno-75B 展现出解读这类多模态信息的潜力。国外一些脑机接口技术使用侵入式电极获得脑电信号,它涉及到电极设计、手术植入、排异反应、信号传输、信号解码等一系列工程问题。创新奇智使用非侵入式脑电帽收集脑电信息,在工程难度上大大降低。

不过,张发恩也表示,侵入式可以获得更多通道和更清晰的脑电信号,为后续解码更复杂大脑意图带来方便。一个形象的比喻是:侵入式采集脑电信号就像在体育馆内部听演唱会,非侵入式则像在体育馆外听演唱会,歌声的清晰度会有很大的区别。当前,创新奇智在做的研发工作,是验证工业大模型的多模态能力,为未来可能的脑控工业自动化场景进行技术预研。

这也是一个端到端的原生应用,张发恩强调。从脑电信号输入到直接输出最终结果(机械臂将货物递给演示人员)的整个流程都由神经网络来完成,而不依赖于手工设计的特征或传统的数据处理。

除了自然语言交互和运动想像识别,ChatRobot Pro 也充分利用了工业大模型推理能力,实现了长序列任务编排和复杂决策驱动。赋予不同具身(无论是工业机械臂还是 AGV 等)强大的智能操控和决策能力,也会是创新奇智工业大模型未来努力的方向。

四、继续进化,笃行向前

生成式AI时代,工业应用尚无先例可循,创新奇智一直在探索工业场景下的种种可能。

大模型在企业服务方向上的前景,张发恩称之为 “Promising”。但他坦言,技术变革的窗口期,大家的认知往往参差不齐,尤其是比较大的变革,人的认知需要时间跟进,自己也不例外。

除了新增的原生应用,去年发布的 ChatDOC 整体性能和效果都有提升,产品功能更加完善。ChatBI 新增支持 Excel 和 CSV 数据,现在生成 SQL 语句和分析报告的准确率提升 15%。大模型服务引擎部署起来更容易,推理性能更高。

“创新奇智会进一步将直接基于工业大模型核心生成能力搭建的 ChatX 应用打磨好。”张发恩说。

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

681

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

320

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

347

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1095

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

357

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

676

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

575

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

416

2024.04.29

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

68

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号