0

0

基于均值优化的超集子集划分策略与实现

花韻仙語

花韻仙語

发布时间:2025-09-20 12:09:16

|

427人浏览过

|

来源于php中文网

原创

基于均值优化的超集子集划分策略与实现

本文深入探讨了如何将一个包含M个元素的超集,无放回地划分为N个指定大小的子集,并使每个子集的均值尽可能接近超集的均值。文章介绍了将此问题建模为集合划分问题,并重点展示了如何使用Python的PuLP库通过混合整数线性规划(MILP)求解。同时,也探讨了其他启发式方法及其适用场景,旨在提供一套高效且精确的解决方案。

1. 问题定义与挑战

我们面临的核心问题是:给定一个包含 M 个元素的超集 S,以及 N 个预设的子集大小 x0, x1, ..., xn-1(其中 sum(x0, ..., xn-1) == M),如何将超集 S 中的所有元素无重复地分配到这 N 个子集中,使得每个子集的均值与超集 S 的均值尽可能接近。我们的目标是最小化所有子集均值与超集均值之间绝对偏差的总和。超集中的元素通常是实数(浮点数),且多为正数。

例如,如果超集 S = {100, 100, 100, 100, 100, 101, ..., 101 (10次), 102, ..., 102 (5次)},其均值为 101。我们需要创建 3 个子集,大小分别为 2, 4, 14。一个“完美”的分配方案是使得每个子集的均值都为 101。

这个问题的挑战在于其组合爆炸性。随着超集元素数量和子集数量的增加,可能的分配方案呈指数级增长,暴力枚举变得不可行。此外,我们还需要在合理的时间内(例如1秒内)找到一个解决方案,尤其是在子集数量为10-25,超集元素数量可能高达1000-10000个唯一值的情况下。

2. 数学建模:集合划分问题与混合整数线性规划 (MILP)

这个特定的划分问题可以被建模为一个集合划分问题(Set Partitioning Problem),并通过混合整数线性规划(Mixed-Integer Linear Programming, MILP)来求解。MILP是一种优化技术,它允许目标函数和约束条件是线性的,并且部分或全部变量必须是整数。

2.1 变量定义

我们引入二进制决策变量 y_{ij}:

  • y_{ij} = 1:如果超集 S 中的第 j 个元素被分配到第 i 个子集。
  • y_{ij} = 0:否则。

其中,i 遍历 0 到 N-1(子集索引),j 遍历 0 到 M-1(超集元素索引)。

2.2 目标函数

首先计算超集 S 的总和 Sum_S = sum(S) 和均值 Mean_S = Sum_S / M。 对于每个子集 i,其目标总和应为 TargetSum_i = x_i * Mean_S。 我们的目标是最小化所有子集实际总和与其目标总和之间的绝对偏差之和。 即:Minimizing Sum_{i=0}^{N-1} | (sum_{j=0}^{M-1} y_{ij} * S[j]) - TargetSum_i |

为了将绝对值项线性化,我们引入辅助变量 e_i(表示第 i 个子集的绝对误差),并将目标函数改为: Minimizing Sum_{i=0}^{N-1} e_i

并添加以下约束:

  • e_i >= (sum_{j=0}^{M-1} y_{ij} * S[j]) - TargetSum_i
  • e_i >= -((sum_{j=0}^{M-1} y_{ij} * S[j]) - TargetSum_i)

2.3 约束条件

  1. 子集大小约束: 每个子集 i 必须包含预设的 x_i 个元素。 sum_{j=0}^{M-1} y_{ij} = x_i,对于每个 i = 0, ..., N-1。

  2. 元素唯一性约束: 超集 S 中的每个元素 j 必须且只能被分配到一个子集。 sum_{i=0}^{N-1} y_{ij} = 1,对于每个 j = 0, ..., M-1。

3. 使用 PuLP 进行 Python 实现

PuLP 是一个强大的 Python 库,用于建模和解决线性规划问题。它支持多种求解器(如 CBC、GLPK、Gurobi 等)。

Bandy AI
Bandy AI

全球领先的电商设计Agent

下载

下面是使用 PuLP 解决上述问题的示例代码:

from statistics import mean
import pulp

def partition_superset_by_mean(superset_data, set_sizes):
    """
    将超集划分为指定大小的子集,使每个子集的均值尽可能接近超集均值。

    Args:
        superset_data (list): 包含所有元素的超集列表。
        set_sizes (list): 包含每个子集所需元素数量的列表。

    Returns:
        list: 包含划分后子集列表的列表。
    """

    target_sum = sum(superset_data)
    N = len(set_sizes)
    M = len(superset_data)

    # 验证子集大小总和是否等于超集元素总数
    assert sum(set_sizes) == M, "子集大小总和必须等于超集元素总数"

    # 创建 PuLP 问题实例
    set_partitioning_model = pulp.LpProblem("Set_Partitioning_Model", pulp.LpMinimize)

    # 定义决策变量 y_ij
    # covering[s][i] 表示超集中的第 i 个元素是否分配给第 s 个子集
    covering = {}
    for s in range(N):
        vals = []
        for i, v in enumerate(superset_data):
            vals.append(
                pulp.LpVariable(
                    f"assign_set_{s}_element_idx_{i:>02}_val_{v}",
                    lowBound=0,
                    upBound=1,
                    cat=pulp.LpInteger,  # 二进制变量
                )
            )
        covering[s] = vals

    # 定义绝对误差变量 e_s
    abs_sum_errs = []
    for s_i in range(N):
        set_sum_err_abs = pulp.LpVariable(f"set_{s_i}_sum_error_abs")
        abs_sum_errs.append(set_sum_err_abs)

    # OBJECTIVE: 最小化所有子集绝对误差之和
    set_partitioning_model += pulp.lpSum(abs_sum_errs), "Total_Absolute_Error"

    # 添加绝对值线性化约束
    # set_sum_err = (当前子集总和 - 目标子集总和)
    # e_s >= set_sum_err
    # e_s >= -set_sum_err
    superset_mean = target_sum / M
    for s_i, st_vars in covering.items():
        current_set_sum = pulp.lpSum([p * superset_data[i] for i, p in enumerate(st_vars)])
        target_set_sum = set_sizes[s_i] * superset_mean

        # 定义一个中间变量来表示偏差
        set_sum_deviation = pulp.LpVariable(f"set_{s_i}_sum_deviation")
        set_partitioning_model += set_sum_deviation == current_set_sum - target_set_sum, \
                                  f"Deviation_Constraint_Set_{s_i}"

        # 绝对值约束
        set_partitioning_model += abs_sum_errs[s_i] >= set_sum_deviation, \
                                  f"Abs_Error_Positive_Set_{s_i}"
        set_partitioning_model += abs_sum_errs[s_i] >= -set_sum_deviation, \
                                  f"Abs_Error_Negative_Set_{s_i}"

    # 约束1: 子集大小是预设的
    for n, st_vars in zip(set_sizes, covering.values()):
        set_partitioning_model += pulp.lpSum(st_vars) == n, \
                                  f"Set_Size_Constraint_{n}"

    # 约束2: 每个超集元素只能被使用一次
    # zip(*covering.values()) 将所有子集的变量列表转置,以便按元素索引迭代
    for element_idx, element_assignment_vars in enumerate(zip(*covering.values())):
        set_partitioning_model += (
            pulp.lpSum(element_assignment_vars) == 1,
            f"Element_{element_idx}_Used_Once",
        )

    # 求解模型
    set_partitioning_model.solve()

    # 提取结果
    if pulp.LpStatus[set_partitioning_model.status] == 'Optimal':
        result_subsets = []
        print(f"超集均值: {superset_mean}")
        for k, v in covering.items():
            subset_elements = [superset_data[idx] for idx, var in enumerate(v) if var.value() == 1]
            result_subsets.append(subset_elements)
            print(f"子集 {k} ({len(subset_elements)}个元素): {subset_elements}, 均值 = {mean(subset_elements)}")
        return result_subsets
    else:
        print(f"未能找到最优解。状态: {pulp.LpStatus[set_partitioning_model.status]}")
        return None

# 示例 1: 完美分配
print("--- 示例 1: 完美分配 ---")
superset_ex1 = [100]*5 + [101]*10 + [102]*5
set_sizes_ex1 = [2, 4, 14]
partition_superset_by_mean(superset_ex1, set_sizes_ex1)

# 示例 2: 最佳拟合 (完美分配不可能)
print("\n--- 示例 2: 最佳拟合 ---")
superset_ex2 = [100]*5 + [103]*10 + [104]*5
set_sizes_ex2 = [2, 4, 14]
partition_superset_by_mean(superset_ex2, set_sizes_ex2)

示例 1 输出:

--- 示例 1: 完美分配 ---
超集均值: 101.0
子集 0 (2个元素): [101, 101], 均值 = 101
子集 1 (4个元素): [100, 100, 102, 102], 均值 = 101
子集 2 (14个元素): [100, 100, 100, 101, 101, 101, 101, 101, 101, 101, 101, 102, 102, 102], 均值 = 101

示例 2 输出:

--- 示例 2: 最佳拟合 ---
超集均值: 102.5
子集 0 (2个元素): [103, 103], 均值 = 103
子集 1 (4个元素): [100, 100, 104, 104], 均值 = 102
子集 2 (14个元素): [100, 100, 100, 103, 103, 103, 103, 103, 103, 103, 103, 104, 104, 104], 均值 = 102.57142857142857

从输出可以看出,PuLP 成功地为我们找到了最优(或接近最优)的划分方案,使得子集均值尽可能地接近超集均值。

4. 启发式方法与性能考量

虽然 MILP 能够找到最优解,但其计算复杂度较高。对于大规模问题,求解时间可能会很长,尤其当超集元素数量和子集数量都很大时。在实际应用中,如果对求解速度有严格要求,或者问题规模超出 MILP 的有效处理范围,可以考虑使用启发式方法。

4.1 贪婪分配策略

这是一种简单且快速的启发式方法,但不保证全局最优。

  • 从小子集开始分配: 优先为最小的子集分配元素,尽量使其均值接近超集均值。然后处理下一个最小的子集,依此类推。
  • 预分配与调整: 可以先将超集元素均匀地随机分配到各个子集,以使它们的初始均值接近超集均值。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

2

2026.01.29

java配置环境变量教程合集
java配置环境变量教程合集

本专题整合了java配置环境变量设置、步骤、安装jdk、避免冲突等等相关内容,阅读专题下面的文章了解更多详细操作。

2

2026.01.29

java成品学习网站推荐大全
java成品学习网站推荐大全

本专题整合了java成品网站、在线成品网站源码、源码入口等等相关内容,阅读专题下面的文章了解更多详细推荐内容。

0

2026.01.29

Java字符串处理使用教程合集
Java字符串处理使用教程合集

本专题整合了Java字符串截取、处理、使用、实战等等教程内容,阅读专题下面的文章了解详细操作教程。

0

2026.01.29

Java空对象相关教程合集
Java空对象相关教程合集

本专题整合了Java空对象相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.29

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

25

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

16

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

622

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号