0

0

计算机视觉之图片分类

WBOY

WBOY

发布时间:2023-04-07 22:01:01

|

1891人浏览过

|

来源于51CTO.COM

转载

本文转载自微信公众号「 AI源起」,作者北上。转载本文请联系AI源起公众号。

你会分辨数字吗?

说起AI,大家心里想到的一定是如“流浪地球2”中的MOSS一样的带有智慧的硬件生物,仿佛无所不知、无所不能,只要给他Internet就会像复联2中的奥创一样,利用网络把自身传播的无处不在,总想着消灭人类达到“世界和平”的计划。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

然而实际来说,现阶段的AI离大家在影视作品中感受和体会到的,还有相当大的差距,今天就拿图片数字识别为例,一起探索下AI到底是以一种什么形式实际存在的。文章会以一些关键问题为索引,带你一步步理解。Follow me, let’s go ~

这是一张带有数字的图片,相信你一定是看到后立刻就能反应过来,这是一张带有数字“3”的图片(即便它比较模糊)。

图片

第一个问题:真正的智慧体——你为什么能清楚的知道这是数字“3”?这背后代表了什么?

当你看向这张图片,你的眼睛通过光反射在视网膜上将光学信号转换为大脑能识别的生物信号,并将这部分信息暂存(仅辅助理解,实际并不是?)在了你的视网膜上。大脑接受到信号后,通过你聪明的小脑袋迅速认识到这是一个数字“3”,此时你已经对这张图片完全理解了,它就是一张“3”。当然,这一切的基础上,是你从小被教育过,这种形状的数字「等价于」数字3,而不是5、6等其他数字。

图片

第二个问题:眼睛、视网膜——计算机对于实体世界的认知是通过什么形式输入的?

计算机和AI什么关系呢?我们可以简单理解为AI是需要计算机的算力和体系结构一种伪智慧能力,就好比我们自身带有智慧和生命,但是其实本质上就是碳基生物。众所周知,计算机世界里是二进制世界,何谓二进制,简单来说就是非0即1。我知道你此时肯定有疑惑,就靠非0即1的二进制,就能实现这么多功能,有这么强大的算力吗?但先别急,这里需要明确一个概念,就是二进制可以表示任何进制的数字(可以先认为是对的,具体为什么需要的话,咱们后续再聊),比如我们常用的十进制下数字13,在二进制下是 1101,想仔细学习的小伙伴可以看下面图片的解释。

Shop7z网上购物系统至尊版
Shop7z网上购物系统至尊版

Shop7z网上购物系统支持电脑版+手机版+支付宝及微信支付,支持QQ和微信一键登陆,系统集众家之所长,大气超美观页面+手机版+商品组合套餐+限时抢购秒杀+图片批量上传+淘宝数据包导入+弹出式分类菜单+不同规格不同价格+新订单邮件通知+销售报表打印与Excel输出+物流跟踪打印查询+会员积分及优惠券+邮件群发+图片在线管理+销售统计报表+五种价格体系+礼品礼券+微信公众号支付+扫码支付等等等。

下载

图片

因此我们能明确出,对于一个数字,计算机都能够通过二进制来“理解”。如果图片能够转化成一串数字,计算机是不是就能从一个只知道0和1的呆瓜,变成可以将图片进行信息输入(理解不理解先搁一边,就像孩子长个总得先会吃饭)。如下图,图片每个小区域可以认为是一个像素,一个像素点就代表了一种颜色,那又要众所周知了,任何一种颜色都能通过红色(Red)、绿色(Green)、蓝色(Blue)的不同配比调制出来,那我们按照从左到右,从上到下的顺序,就能形成一个数字列表,那把这些内容送给计算机。

图片

到这一步,不管计算机理解与否,我们已经将图片转换为了计算机能够接受的信号,那计算机的大脑是怎么识别图片中的数字是“3”呢

第三个问题:所谓的AI——计算机应该如何判断这张图片中的数字是“3”

给计算机这样两张图片,它能告诉你左边这张图片是数字“3”,你认为他是具有人工智能吗?你可能觉得这也太naive了,这3岁小孩都知道。但是如果像右图是1万张蓝脚鲣鸟等稀奇鸟类的图片,计算机只用了几秒钟就能以99%的准确率一字不差的判断出来各种稀奇生物,那是不是就有点AI那味了?

图片

传统识别方法——具体来说,我们已经能够将图片转换为数字矩阵了,传统的图片识别方法会将对图片中的特征进行抽取,比如会利用一些硬规则当做特征。对于数字“3”,在我们人脑中一看到这个形状,就下意识反应出来这是“3”,但是对于计算机他是一串数字呀。所以早期在做类似图片分类任务的时候,工程师需要对数字“3”映射下的数字序列进行处理,这可真令人头大。所以如何做特征就是在传统图片识别分类中,一个至关重要,但是极其繁琐的过程。

传统识别方法优势在于,当识别结果出错时候,你可以通过显示特征大致判断错误原因,弊端在于特征工程繁琐。那有没有这样一种方法,可以弱化特征工程(虽然后面很多任务,特征工程也极其重要),给一种端到端的解决方案。所谓端到端,就是我只需要给一张数字图片,和它的分类结果,让计算机自己学习出识别的解决方案(是不是有点像人类的学习思路了)。这里经过时代变迁和计算机的算力大幅提升,基于神经网络的深度学习算法逐渐有了用武之地。

图片

深度神经网络识别方法——这几个字很深奥,不学计算机不搞算法的可能直接被唬住了,我用一句话翻译翻译什么叫深度神经网络(狗头.jpg):输入数据和指定标签之间存在某种非线性的关联,神经网络就是通过多个非线性函数去近似拟合上述的非线性关联。如下图,就是一个简单的深度神经网络,最左侧的图片(字母“A”),右侧呢就是将图片转换为数字后,进行“智能”运算的结构体,可以理解为“大脑”。

图片

相关专题

更多
golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

197

2025.06.09

golang结构体方法
golang结构体方法

本专题整合了golang结构体相关内容,请阅读专题下面的文章了解更多。

189

2025.07.04

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

403

2023.08.14

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

305

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

631

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

4

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

55

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
R 教程
R 教程

共45课时 | 5.3万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号