0

0

机器学习其实比你想的更简单_PHP教程

php中文网

php中文网

发布时间:2016-07-13 10:39:00

|

1029人浏览过

|

来源于php中文网

原创

闪光简历
闪光简历

一款专业的智能AI简历制作工具

下载

很多人觉得机器学习高不可攀,认为这是一门只有少数专业学者才了解的神秘技术。

毕竟,你是在让运行在二进制世界里的机器得出它自己对现实世界的认识。你正在教它们如何思考。然而,本文几乎不是你所认为的晦涩难懂、复杂而充满数学公式的文章。正如所有帮助我们认识世界的基本常识一样(例如:牛顿运动定律、工作需要去完成、供需关系等等),机器学习最佳的方法和概念也应该是简洁明了的。可惜的是,绝大多数关于机器学习的文献都充斥着复杂难懂的符号、艰涩晦暗的数学公式和不必要的废话。正是这给机器学习简单基础的思想围上了一堵厚厚的墙。

​现在看一个实际的例子,我们需要在一篇文章的末尾增加一个“你可能喜欢”的推荐功能,那么我们该如何实现呢?

 

为了实现这个想法,我们有一个简单的解决方案:

  • 1.获得当前文章的标题并将其分割成独立的单词(译者注:原文是英文,只需要依据空格分割即可,中文分词需要用到分词器)
  • 2.获取除当前文章以外的所有文章
  • 3.将这些文章依据其内容与当前文章标题的重合程度进行排序
  1. def similar_posts(post)
  2.   title_keywords = post.title.split(' ')
  3.   Post.all.to_a.sort |post1, post2|
  4.     post1_title_intersection = post1.body.split(' ') & title_keywords
  5.     post2_title_intersection = post2.body.split(' ') & title_keywords
  6.  
  7.     post2_title_intersection.length post1_title_intersection.length
  8.   end[0..9]
  9. end

   

采用这种方法去找出与博文“支持团队如何提高产品质量”相似的文章,我们由此得到下列相关度前十的文章:

  • 如何着手实施一个经过验证的方案
  • 了解你的客户是如何做决策的
  • 设计首次运行界面以取悦你的用户
  • 如何招聘设计师
  • 图标设计的探讨
  • 对歌手Ryan的采访
  • 通过内部交流对客户进行积极支持
  • 为什么成为第一并不重要
  • 对Joshua Porter的采访
  • 客户留存、群组分析与可视化

正如你所看到的,标杆文章是关于如何有效率地进行团队支持,而这与客户群组分析、讨论设计的优点都没有太大的关系,其实我们还可以采取更好的方法。

现在,我们尝试用一种真正意义上的机器学习方法来解决这个问题。分两步进行:

  1. 将文章用数学的形式表示;
  2. 用K均值(K-means)聚类算法对上述数据点进行聚类分析。

1.将文章用数学的形式表示

如果我们可以将文章以数学的形式展示,那么可以根据文章之前的相似程度作图,并识别出不同簇群:

如上图所示,将每篇文章映射成坐标系上的一个坐标点并不难,可以通过如下两步实现:

  1. 找出每篇文章中的所有单词;
  2. 为每篇文章建立一个数组,数组中的元素为0或者1,用于表示某单词在该文章中是否出现了,每篇文章数组元素的顺序都是一样的,只是其值有差异。

Ruby代码如下:
 

  1. @posts = Post.all
  2.  
  3. @words = @posts.map do |p|
  4.   p.body.split(' ')
  5. end.flatten.uniq
  6.  
  7. @vectors = @posts.map do |p|
  8.   @words.map do |w|
  9.     p.body.include?(w) ? 1 : 0
  10.   end
  11. end
     

 

假设@words 的值为:

[“你好”,”内部”,”内部交流”,”读者”,”博客”,”发布”]

如果某篇文章的内容是“你好 博客 发布 读者”,那么其对应的数组即为:

[1,0,0,1,1,1]

当然,我们现在没法使用简单的工具像二维坐标系一样展示这个六维度的坐标点,但是这其中涉及的基本概念,例如两点之间的距离都是互通的,可以通过二维推广到更高维度(因此使用二维的例子来说明问题还是行得通的)。

2.用K均值(K-means)聚类算法对数据点进行聚类分析

现在我们得到了一系列文章的坐标,可以尝试找出相似文章的群簇。这里我们采用使用一个相当简单聚类算法-K均值算法,概括起来有五个步骤:

  1. 设定一个数K,它表示群簇中对象的数目;
  2. 从所有数据对象中随机选择K个对象作为初始的K个群簇中心;
  3. 遍历所有对象,分别将它们指派到离自己最近的一个群簇中;
  4. 更新群簇中心,即计算每个群簇中对象的均值,并将均值作为该群簇的新中心;
  5. 重复3、4步骤,直到每个群簇中心不再变化。

我们接下来用图的形式形象化地展示这些步骤。首先我们从一系列文章坐标中随机选择两个点(K=2):

我们将每篇文章指派到离它最近的群簇中:

我们计算各个群簇中所有对象的坐标均值,作为该群簇新的中心。

这样我们就完成了第一次的数据迭代,现在我们将文章根据新的群簇中心重新指派到对应的群簇中去。

至此,我们找到了每篇文章对应的群簇!很明显,即使继续进行迭代群簇中心不会改变,每篇文章对应的群簇也不会改变了。

上述过程的Ruby代码如下:

  1. @cluster_centers = [rand_point(), rand_point()]
  2.  
  3. 15.times do
  4.   @clusters = [[], []]
  5.  
  6.   @posts.each do |post|
  7.     min_distance, min_point = nil, nil
  8.  
  9.     @cluster_centers.each.with_index do |center, i|
  10.       if distance(center, post)
  11.         min_distance = distance(center, post)
  12.         min_point = i
  13.       end
  14.     end
  15.  
  16.     @clusters[min_point]
  17.   end
  18.  
  19.   @cluster_centers = @clusters.map do |post|
  20.     average(posts)
  21.   end
  22. end
     

下面是由这个方法得到的与博文“支持团队如何提高产品质量”相似性排在前十位的文章:

  • 你对此更了解了还是你更聪明了
  • 客户反馈的三个准则
  • 从客户获取你所要的信息
  • 产品交付只是一个开始
  • 你觉得功能扩展看起来像什么
  • 了解你的用户群
  • 在正确的信息和正确的时间下转换客户
  • 与你的客户沟通
  • 你的应用有消息推送安排吗
  • 你有试着与客户沟通吗

结果不言自明。

我们仅仅用了不到40行的代码以及简单的算法介绍就实现了这个想法,然而如果你看学术论文你永远不会知道这本该有多简单。下面是一篇介绍K均值算法论文的摘要(并不知道K均值算法是谁提出的,但这是首次提出“K均值”这个术语的文章)。

如果你喜欢以数学符号去表达思想,毫无疑问学术论文是很有用处的。然而,其实有更多优质的资源可以替换掉这些繁杂数学公式,它们更实际、更平易近人。

  • Wiki百科(例如:潜在语义索引,聚类分析)
  • 开源机器学习库的源代码(例如: Scipy’s K-Means,Scikit’s DBSCAN)
  • 以程序员的角度编写的书籍(例如:集体智慧编程,黑客机器学习)
  • 可汗学院

试一试

如何为你的项目管理应用推荐标签?如何设计你的客户支持工具?或者是社交网络中用户如何分组?这些都可以通过简答的代码、简单的算法来实现,是练习的好机会!所以,如果你认为项目中面临的问题可以通过机器学习来解决,那为什么还要犹豫呢?

机器学习其实比你想象得更简单!



原文链接: Intercom   翻译: 伯乐在线 - zhibinzeng
译文链接: http://blog.jobbole.com/53546/


======================================================
PPC微信平台开通啦!
微信搜索“PHPChina”,点击关注按钮,即可获得PPC为您推送的最新最专业的业界信息,更有更多专题栏目为您献上
【PPC挖掘】: 不定时为您献上经典产品与产品人的故事。
【PPC外文】: 每日分享一篇外文翻译文章
【PPCoder】: 每日集中回复关注用户的提问

机器学习其实比你想的更简单_PHP教程

www.bkjia.comtruehttp://www.bkjia.com/PHPjc/735054.htmlTechArticle很多人觉得机器学习高不可攀,认为这是一门只有少数专业学者才了解的神秘技术。 毕竟,你是在让运行在二进制世界里的机器得出它自己...

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

616

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法
微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式,涵盖首页直达地址、账号登录流程与常见访问问题说明,帮助用户快速找到微博官网主页,实现便捷、安全的网页端登录与内容浏览体验。

194

2026.02.13

Flutter跨平台开发与状态管理实战
Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开,系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示,帮助开发者构建流畅、可维护的跨平台移动应用。

91

2026.02.13

TypeScript工程化开发与Vite构建优化实践
TypeScript工程化开发与Vite构建优化实践

本专题面向前端开发者,深入讲解 TypeScript 类型系统与大型项目结构设计方法,并结合 Vite 构建工具优化前端工程化流程。内容包括模块化设计、类型声明管理、代码分割、热更新原理以及构建性能调优。通过完整项目示例,帮助开发者提升代码可维护性与开发效率。

20

2026.02.13

Redis高可用架构与分布式缓存实战
Redis高可用架构与分布式缓存实战

本专题围绕 Redis 在高并发系统中的应用展开,系统讲解主从复制、哨兵机制、Cluster 集群模式及数据分片原理。内容涵盖缓存穿透与雪崩解决方案、分布式锁实现、热点数据优化及持久化策略。通过真实业务场景演示,帮助开发者构建高可用、可扩展的分布式缓存系统。

54

2026.02.13

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

29

2026.02.12

雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法
雨课堂网页版登录入口与使用指南_官方在线教学平台访问方法

本专题系统整理雨课堂网页版官方入口及在线登录方式,涵盖账号登录流程、官方直连入口及平台访问方法说明,帮助师生用户快速进入雨课堂在线教学平台,实现便捷、高效的课程学习与教学管理体验。

15

2026.02.12

豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法
豆包AI网页版入口与智能创作指南_官方在线写作与图片生成使用方法

本专题汇总豆包AI官方网页版入口及在线使用方式,涵盖智能写作工具、图片生成体验入口和官网登录方法,帮助用户快速直达豆包AI平台,高效完成文本创作与AI生图任务,实现便捷智能创作体验。

598

2026.02.12

PostgreSQL性能优化与索引调优实战
PostgreSQL性能优化与索引调优实战

本专题面向后端开发与数据库工程师,深入讲解 PostgreSQL 查询优化原理与索引机制。内容包括执行计划分析、常见索引类型对比、慢查询优化策略、事务隔离级别以及高并发场景下的性能调优技巧。通过实战案例解析,帮助开发者提升数据库响应速度与系统稳定性。

56

2026.02.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 11.6万人学习

Sass 教程
Sass 教程

共14课时 | 0.9万人学习

ASP 教程
ASP 教程

共34课时 | 5.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号