机器学习之模型管理：集成建模

PHPz

发布时间：2023-05-01 19:13:04

1369人浏览过

来源于51CTO.COM

转载

译者 | 崔皓

审校 | 孙淑娟

开篇

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

机器学习被企业应用到不同的业务场景解决不同的业务问题，随着机器学习的广泛应用也让组织在选择学习方法时不堪重负。

很多组织在机器学习的应用中使用了高级和经典的学习方法。有大家熟悉的监督学习和无监督学习二分法，还有例如对比学习、强化学习和自我监督学习等机器学习的新兴变体。

此外，还有涉及图形分析、深度神经网络、分割、行为分析和其他技术。当面对大规模复杂业务问题时——例如加强反洗钱措施从而打击金融犯罪——组织如何决定使用哪种机器学习的方法呢？

使用集成建模，让这个问题变得不那么重要了。这种机器学习方法使组织能够利用各种模型并将它们与预测准确性结合起来，从而获得最佳结果。

这种方法帮助金融服务、欺诈检测和网络安全中的高维数据提供完整上下文。使用集成建模的组织表示“集成建模让模型的建立更加多样化“，Resistant AI首席执行官Martin Rehak 承认，“我们并不希望单一模型一枝独秀。”

使用模型的多样性使组织能够用不同的算法来评估业务问题的各个方面，以便采用完全知情的、一致的决策方法——这些方法是可以解释的。

基于共识的模型决策

前面提到的集成建模的原理是毋庸置疑的，数据科学家无需花费大量时间来为业务案例设计完美的模型，只需要将那些不完美的模型组合起来产生预测能力。“当你以集成方法看待机器学习时，你会从小型算法中做出决策，”Rehak 指出。“而且，在我们的案例中，这些算法是针对每笔交易动态组合的，以便做出最佳决策。” 更重要的是，也许这些模型中的每一个都可以专注于某一个垂直领域，例如识别洗钱事件。

例如，一种模型只专注于交易的规模。另一个模型专注于交易的位置。不同的模型可以检查出哪些特定参与者参与了交易。目标是“没有出现任何峰值”的情况，Rehak 解释说。“模型的分布非常平坦，与模型对应的证据页相对较弱。通过结合许多弱证据元素，就能够做出更强有力的决定。” 另一个好处是，通过经典的机器学习和更简单的模型，将模型投入生产所需的训练数据（和注释）减少。这样的模型比需要大量训练数据的深度神经网络更容易解释。

上下文建模

将 Rehak 所描述的分布平坦的建模方式与其他集成建模技术区分开来是很重要的。最常见的集成建模示例涉及 bagging 或boosting（后者可能需要 Xtreme Gradient Boosting）。随机森林是一个基于不同决策树组合的提升示例。使用这种方法，“你可以根据集合中的先前版本一个一个地构建集合，”Rehak 评论道。尽管它是一种快速构建具高预测准确性的模型方法，但它存在过度拟合的风险（由于训练数据集太小，导致模型变得不太适用于生产数据）。

Cutout.Pro

AI驱动的视觉设计平台

下载

Rehak 的集成方法更适合 AML 用例，因为它基于影响这些事件的上下文。“如果您询问洗钱专家交易是否恶意，他们首先是查看账户的历史以及该人过去的行为方式，”雷哈克说。通过他的方法，与地理位置、时间、相关方和金融机构等相关因素，使用单独的机器学习模型进行检查。只有将这些模型的每个结果组合在一起，人工智能系统才能确定是否存在犯罪交易，通过这种做法的误报会明显减少。“通过机器学习可以解释大多数异常值，否则海量的异常值会淹没反洗钱团队，”雷哈克说。

决策边界

在用例进行集成建模时，使用超过 60 个模型针对分析交易的不同方面进行建模是常见的事情。集成方法的实时结果非常适合这种应用场景。“这 60 种算法中的一种可以将所有内容分割成段，然后对每秒平均事务大小进行建模，”Rehak 透露。“我们可以有数千个片段，这些片段都是同时动态更新的。”

由于将大量模型整合到集合中，每个模型都会评估交易的不同方面从而发现潜在的犯罪行为，除此之外再不能创建更全面的方法了。Rehak 透露：“我们从多个角度看待你，以至于塑造你行为的同时让你避免所有这些犯罪行为变得非常困难。”“因为，为了不被识别出来，“犯罪分子”需要避免的不止一个决策边界，而是大量动态的决策边界。这些算法中的每个模型都是独立学习的，然后我们将它们组合在一起。”

可解释的人工智能

这些集合如何增强可解释性以及所对应的许多方面。首先，他们没有过度依赖先进的机器学习，只包含简单、更可解释的算法（涉及传统机器学习）。这些模型成为评估交易犯罪的基石。“当我们说某件事很重要时，我们可以告诉你原因，”雷哈克说。“我们可以告诉你哪些指标表明了这一点。我们可以针对为每个发现写一份报告，指出由于这些因素会造成交易犯罪的高风险。” 尽管每种算法都专注于特征，但并非所有算法在模型中都具有相同的权重。一般而言，涉及图形分析（擅长检查关系）的算法比其他模型具有更大的权重。

模型不仅可以解释可疑的行为，也可以告诉你异常值出现的原因。“通常我们在集成中有四到五个占主导地位的算法，也就是说当我相信这是一个异常值时由于有算法的支撑，其他人也会表示同意，”Rehak 指出。“而且，我们有四五个触发因素，这就保证了在某种程度上使结果更偏向于异常。” 由于单个模型仅评估交易中的一个因素，因此它们提供了分数的可解释性和单词的可解释性。“因为我们知道集合，知道微分段，还知道交易量，我们可以很容易地在分数旁边通过问题显示这些信息，而交易量对一家公司的财务部门非常重要，”雷哈克补充道。

集成模式

最终，集成建模的使用效果超过了任何一种应用程序，尽管它对 AML 活动有巨大的帮助。如果应用得当，该技术可以提高可解释性，同时减少解决业务关键问题所需的训练数据和注释数量。

集成建模利用各种数据科学技术来解决多种业务问题，而不是将问题限制在一个或两个。因此，这种集成解决问题的方法可能会成为AI 部署的典型代表。

译者介绍

崔皓，51CTO社区编辑，资深架构师，拥有18年的软件开发和架构经验，10年分布式架构经验。曾任惠普技术专家。乐于分享，撰写了很多热门技术文章，阅读量超过60万。《分布式架构原理与实践》作者。

原文标题：Machine Learning Model Management: Ensemble Modeling

如何用AI进行游戏关卡设计？独立游戏开发者指南

x-Algorithm— 马斯克开源的x平台推荐算法

AI学习快速入门指南：Python、LLM及行业应用技巧

提升效率：2025年最佳AI生产力工具精选

使用 Gemini 和 Vertex AI 构建 AI 图像识别应用程序

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

411

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

251

2023.10.07

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

503

2023.08.14

页面置换算法

503

2023.08.14

Java 网络安全

本专题聚焦 Java 在网络安全与加密通信中的应用，系统讲解常见加密算法（MD5、SHA、AES、RSA）、数字签名、HTTPS证书配置、令牌认证（JWT、OAuth2）及常见安全漏洞防护（XSS、SQL注入、CSRF）。通过实战项目（如安全登录系统、加密文件传输工具），帮助学习者掌握 Java 安全开发与加密技术的实战能力。

743

2025.10.13

PHP 安全与防护

本专题聚焦于PHP开发中的安全问题与防御措施，详细讲解SQL注入、XSS攻击、CSRF攻击、文件包含漏洞等常见安全风险及其修复方法。通过结合实际案例，帮助开发者理解漏洞成因，掌握输入验证、会话安全、加密存储与安全编码规范，全面提升PHP网站的安全防护水平。

135

2025.11.04

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

234

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板