0

0

你要了解数据科学团队中的这些角色

王林

王林

发布时间:2023-04-11 21:55:11

|

1773人浏览过

|

来源于51CTO.COM

转载

译者 | 李睿

审校 | 孙淑娟

全球知名的流媒体服务商Netflix公司在2017年将其五星级评级系统更改为“拇指向上”(喜欢)和“拇指向下”(不喜欢)简单的评价系统。该系统可以根据百分比匹配来推荐电影,但也有人对这一做法很反感。那么如何将电影艺术中所有的细微差别简化为一种原始的二元反应?    

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

你要了解数据科学团队中的这些角色

实际上,Netflix公司发现人们对那些他们认为很好的电影给予了很高的评价,但不一定是他们真正喜欢观看的电影。至少数据是这么描述的。那么数据分析在像Netflix这样的公司中是如何工作的?数据科学团队的角色是什么?  

Netflix反馈系统  

Gibson Biddle是Netflix公司的前副总裁兼首席产品官。在谈到消费者洞察时,他对导致整个评级系统发生变化的意外客户行为进行了解释。在转换成百分比匹配时,Netflix表示虽然观众可能喜欢观看亚当·桑德勒主演的喜剧,但给出的评价可能只有三颗星;而观众对观看《辛德勒的名单》这部电影感觉很好,并给出五颗星的评价,但这并不会增加其整体乐趣,让订阅者满意对Netflix来说是至关重要的。因此,他们简化了反馈系统以避免偏差。但是这些对客户的洞察本身就令人印象深刻,如果没有促进数据使用的文化和强大的数据基础设施这个因素,它们是不可能实现的。用技术术语来说,这被称为数据驱动的组织。    

数据驱动的组织

人们可能多次听到“数据驱动”这个流行术语,但它的真正含义是什么?仅Netflix公司每天就记录超过7000亿个事件,从登录和点击电影缩略图到暂停视频和打开字幕。所有这些数据都可供用户使用。任何人都可以使用tableau或Jupiter等可视化工具访问它,或者他们可以通过大数据门户访问它——这是一个允许用户检查报告、生成报告或查询他们需要的任何信息的环境。然后,这些数据用于制定业务决策,从较小的缩略图(例如展示哪些缩略图)到企业的决策(例如Netflix公司下一步应该投资和推出哪些节目)。  

数据驱动的组织并非只有Netflix公司一家。据估计,财富1000强企业中约有97%的企业投资于人工智能和大数据等项目。以下了解真正的数据基础设施技术和使其运营的数据工程师。

数据基础设施技术

为了描述数据基础设施的工作原理,技术人员借用了通常运输液体或气体的“管道”这一术语。数据管道有自己的起点、终点和中间站。所以这是一个非常贴切的比喻。数据的来源可能是任何事务,从点击保留按钮和刷新页面到与客户支持的对话记录,从车辆跟踪设备到发电厂的涡轮振动传感器。在当今世界,实际上很难说有什么不能生成数据,即使没有数据也能告诉人们一些事情。

一旦生成数据项,它就会沿着管道到达暂存区域。这是保存所有原始数据的地方。原始数据尚未准备好使用。你必须做好准备。如果没有做,必须填补空白,更改其格式或合并来自不同来源的数据,以获得更细致的观察。一旦完成这些操作,就会获得结构化和干净的数据。所有这些操作都是自动进行的。它们用两个词语来描述。

  • 提取:从数据源中提取数据并将其送到暂存区域。
  • 转换:准备数据以供使用并加载将准备好的数据进一步推入ETL。

所有准备好的数据都进入另一个存储器,即数据仓库。

数据仓库

与暂存区域不同,数据仓库是所有存储记录都进行结构化并准备使用的地方。就像图书馆的分类系统一样,可以查询、可视化和下载仓库的信息。为此,必须拥有商业智能(BI)软件。它将数据呈现给最终用户。  

数据列表和业务分析师

数据列表和业务分析师是执行基本任务的人员。他们访问数据、探索数据、将其可视化,并尝试使其具有商业意义。例如,企业的营销活动成功吗?表现最差的渠道是什么?它们就像一个感官系统,通过历史数据为企业提供支持,并为管理层以及最终决策者提供见解。

MOKI
MOKI

MOKI是美图推出的一款AI短片创作工具,旨在通过AI技术自动生成分镜图并转为视频素材。

下载

数据工程师

数据工程师负责构建整个管道。大多数技术人员都精通所谓的“管道”。通过管道将数据从源头移动到目的地,并在途中对其进行转换。他们设计管道架构、设置ETL流程、配置仓库,并将其与报告工具连接起来。例如,Airbnb公司拥有约50名数据工程师。该公司有时可能会遇到涉及一些额外规则的更精细的方法。例如,数据质量工程师确保正确捕获和转换数据。当试图从中得出决策时,拥有有偏见或不正确的数据代价太高。可能有单独的工程师仅负责ETL。此外,商业智能开发人员只专注于集成报告和可视化工具。然而,报告工具并不会成为头条新闻,数据工程师也不是21世纪的最佳工作,但机器学习和数据科学家可能是。  

机器学习和数据科学家

众所周知的是,数据科学家特别擅长收集数据并回答有关数据的复杂问题,例如企业下个季度的收入是多少?优步预约的汽车什么时候到达?喜欢《辛德勒名单》和《原钻》的可能性有多大?

实际上有两种方法可以回答这些问题。数据科学家像业务分析师和数据分析师一样使用商业智能工具和仓库数据。所以,他们会从仓库中获取数据。有时数据科学家会使用数据湖:另一种存储非结构化欺诈数据的存储类型。他们将创建一个预测模型,并提出可供管理层使用的预测。它适用于收入估算的一次性报告,但对预测优步预约汽车的到达时间没有帮助。

机器学习的真正价值在于生产模型可以自动工作,并定期生成复杂问题的答案,有时每秒生成数千次,用它们处理的事情要复杂得多。

生产机器学习模型

为了使模型工作,还需要基础设施。有时这是一个很大的问题。数据科学家探索数据仓库和数据湖中的数据,对其进行实验,选择算法,并训练模型以产生最终的机器学习代码。这需要对统计数据库、机器学习算法和学科领域有深入的理解。

SLAC公司前数据工程负责人Josh Wills在推特上表示,“数据科学家是比任何软件工程都更擅长统计学的人。”

例如订餐者使用ubereats 软件点餐。用户一旦确认订单,该应用程序必须估计交付时间、订餐者的位置、餐厅和订单数据发送到部署了交付预测机器学习模型的服务器。但这些数据还不足够。该模型还从一个单独的数据库中获取额外数据,其中包含餐厅准备的平均时间和其他详细信息。一旦有了所有的数据,模型会向订餐者返回预测。然而,这一过程并没有就此结束。预测本身保存在一个单独的数据库中。它将针对监控模型性能,并通过分析工具探索模型,以便稍后对其进行更新。所有这些数据最终都会出现在数据湖和数据仓库中。  

实际上,仅ubereats订餐服务就使用了数百种不同的模型同时工作,对推荐进行评分,对餐厅进行搜索排名,并估计送货时间。

结论

Foursquare公司核心技术负责人Adam Waxman认为,未来将不再有数据科学家或机器学习工程师这些职位,因为随着模型训练的自动化和持续构建生产环境,许多数据科学家的工作将成为软件开发中的常见功能。

原文标题:Roles in Data Science Teams,作者:Anomi Ragendran

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

2

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

104

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

12

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

93

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

5

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

6

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

96

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

27

2026.01.26

oppo云服务官网登录入口 oppo云服务登录手机版
oppo云服务官网登录入口 oppo云服务登录手机版

oppo云服务https://cloud.oppo.com/可以在云端安全存储您的照片、视频、联系人、便签等重要数据。当您的手机数据意外丢失或者需要更换手机时,可以随时将这些存储在云端的数据快速恢复到手机中。

75

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 9.5万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.9万人学习

Rust 教程
Rust 教程

共28课时 | 4.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号