使用Python从经验累积分布函数(CDF)进行采样：直接与平滑插值方法

聖光之護

发布时间：2025-11-12 08:52:10

659人浏览过

来源于php中文网

原创

使用Python从经验累积分布函数(CDF)进行采样：直接与平滑插值方法

本教程详细介绍了如何使用python从自定义经验累积分布函数（cdf）中进行数据采样。文章涵盖了两种主要方法：一是基于分段线性插值的直接采样，利用`numpy.interp`实现；二是采用样条插值进行平滑采样，通过`scipy.interpolate.interp1d`提供更连续的样本分布。通过具体的代码示例，读者将掌握在不同场景下从经验cdf生成样本的技术。

经验累积分布函数(CDF)与逆变换采样原理

在统计学和数据分析中，累积分布函数（CDF）描述了一个随机变量取值小于或等于某个特定值的概率。经验CDF是根据观测数据构建的CDF，它反映了数据集中各个值的累积频率。从CDF中进行采样的核心方法是逆变换采样（Inverse Transform Sampling）。其基本原理是：如果$U$是一个服从均匀分布$U(0,1)$的随机变量，那么$F^{-1}(U)$（其中$F^{-1}$是CDF的逆函数）将服从CDF $F$所描述的分布。

因此，从一个自定义的经验CDF中采样的步骤通常包括：

生成一组服从$U(0,1)$均匀分布的随机数。
将这些均匀分布的随机数作为CDF的概率值，通过逆CDF函数（或插值近似逆CDF）找到对应的随机变量取值。

定义经验CDF数据

首先，我们需要一个表示经验CDF的数据结构。通常，这会是一系列x值及其对应的累积概率cdf值。

import pandas as pd
import numpy as np
from scipy.interpolate import interp1d

# 定义经验CDF数据
# 'x' 表示随机变量的取值
# 'cdf' 表示对应x值的累积概率
cdf_data = pd.DataFrame.from_dict(
    {'x':[10e6, 20e6, 50e6, 100e6, 250e6],
     'cdf':[0.4, 0.6, 0.7, 0.8, 1.0]
})

print("定义的经验CDF数据：")
print(cdf_data)

在这个例子中，CDF从0.4开始，到1.0结束。这意味着我们定义的CDF覆盖了概率区间[0.4, 1.0]。对于低于0.4的概率值，根据np.interp的默认行为，它将映射到第一个x值（10e6）。

立即学习“Python免费学习笔记（深入）”；

方法一：直接采样（分段线性插值）

直接采样方法通常采用分段线性插值来近似CDF的逆函数。这意味着在给定的数据点之间，CDF的逆函数被假定为线性变化。numpy.interp函数非常适合这种场景，它可以根据已知的x和y点，对新的x值进行线性插值。

在这里，我们的“已知x点”是CDF的概率值（cdf_data['cdf']），“已知y点”是对应的随机变量值（cdf_data['x']）。我们将均匀分布的随机数作为新的“x值”输入，numpy.interp将返回对应的随机变量样本。

Thiings

免费的拟物化图标库

下载

# 生成10000个均匀分布的随机数，范围在0到1之间
num_samples = 10000
uniform_samples = np.random.uniform(0, 1, num_samples)

# 使用numpy.interp进行直接采样（分段线性插值）
# uniform_samples 是查询点 (新的CDF值)
# cdf_data['cdf'] 是已知CDF值 (旧的x)
# cdf_data['x'] 是已知x值 (旧的y)
direct_samples = np.interp(uniform_samples, cdf_data['cdf'], cdf_data['x'])

print("\n直接采样（分段线性插值）结果的前10个样本：")
print(direct_samples[:10])

# 统计采样结果的分布（可选）
# hist, bins = np.histogram(direct_samples, bins=10)
# print("\n采样结果的直方图：")
# print("Bins:", bins)
# print("Counts:", hist)

numpy.interp的工作原理及特点：

它对输入uniform_samples中的每个值，在cdf_data['cdf']中找到其位置，然后根据cdf_data['x']进行线性插值。
对于uniform_samples中小于cdf_data['cdf']最小值（0.4）的值，np.interp会返回cdf_data['x']的最小值（10e6）。
对于uniform_samples中大于cdf_data['cdf']最大值（1.0）的值，np.interp会返回cdf_data['x']的最大值（250e6）。这种行为确保了样本被限制在定义的x值范围内。

方法二：平滑采样（样条插值）

当需要生成更平滑、更连续的样本分布，而不是严格的分段线性分布时，可以使用样条插值。scipy.interpolate.interp1d函数提供了多种插值方法，包括线性、二次、三次样条等。

使用interp1d时，我们需要创建一个插值函数，然后用这个函数来转换均匀分布的随机数。kind参数用于指定插值类型，例如'linear'、'quadratic'、'cubic'等。

# 使用scipy.interpolate.interp1d创建逆CDF插值函数
# x_values是CDF值，y_values是对应的x值
# kind='cubic' 指定使用三次样条插值，提供更平滑的曲线
# bounds_error=False 允许查询点超出插值范围
# fill_value=(cdf_data['x'].iloc[0], cdf_data['x'].iloc[-1])
#   对于超出范围的查询点，使用x的最小值和最大值进行填充，实现类似np.interp的钳制行为。
inverse_cdf_spline = interp1d(
    cdf_data['cdf'], 
    cdf_data['x'], 
    kind='cubic', 
    bounds_error=False, 
    fill_value=(cdf_data['x'].iloc[0], cdf_data['x'].iloc[-1])
)

# 使用创建的插值函数进行平滑采样
smoothed_samples = inverse_cdf_spline(uniform_samples)

print("\n平滑采样（三次样条插值）结果的前10个样本：")
print(smoothed_samples[:10])

scipy.interpolate.interp1d的工作原理及特点：

kind参数：
- 'linear'：与numpy.interp类似，进行分段线性插值。
- 'quadratic'：二次样条插值，曲线更平滑。
- 'cubic'：三次样条插值，通常提供非常平滑的曲线，但需要至少4个数据点。
bounds_error和fill_value：
- 当uniform_samples中的值超出cdf_data['cdf']的范围时，bounds_error=False可以防止程序报错。
- fill_value参数控制超出范围时的行为。如果设置为一个元组(value_before, value_after)，则小于最小x值的查询点将返回value_before，大于最大x值的查询点将返回value_after。这模拟了将样本钳制在CDF定义范围内的行为。如果设置为'extrapolate'，则会进行外推。

注意事项与最佳实践

CDF数据完整性： 理想的CDF应该从0开始到1结束。如果提供的经验CDF像本例一样，只覆盖了[0.4, 1.0]的概率区间，那么低于0.4的均匀样本将默认被映射到CDF的第一个x值。在实际应用中，应确保CDF数据能充分代表整个概率空间。
插值方法的选择：
- numpy.interp (分段线性)： 简单、快速，适用于对精度要求不高或数据点较少的情况。生成的样本分布是分段线性的，可能在数据点之间出现“尖锐”的过渡。
- scipy.interpolate.interp1d (样条插值)： 提供了更平滑的插值曲线，尤其当kind设置为'quadratic'或'cubic'时。这对于需要模拟连续、平滑过程的场景非常有用。选择合适的kind取决于数据特性和对平滑度的要求。
外推行为： numpy.interp默认会钳制样本在已知x值的范围内。scipy.interpolate.interp1d通过fill_value参数提供更灵活的控制，可以选择钳制 ((min_x, max_x)) 或外推 ('extrapolate')。根据具体需求谨慎选择。
性能考量： 对于非常大量的采样（例如数百万个样本），numpy.interp通常比scipy.interpolate.interp1d更快，因为它是一个高度优化的C实现。然而，对于大多数常见场景，两者的性能差异可以忽略不计。

总结

本教程详细阐述了如何使用Python从自定义经验累积分布函数中生成随机样本。我们探讨了两种核心方法：利用numpy.interp进行高效的分段线性直接采样，以及通过scipy.interpolate.interp1d实现更为平滑的样条插值采样。理解每种方法的原理、适用场景及其参数配置（如kind和fill_value）对于在数据科学和模拟任务中准确地从自定义分布中提取样本至关重要。根据您对样本连续性和计算效率的需求，选择最合适的插值策略，可以有效提升数据分析和模型构建的质量。

Python 文件缓冲区是如何工作的？

Python I/O 阻塞如何影响性能？

Python 如何设计“可恢复”的异常？

Python C 扩展如何提升性能？

Python 异常驱动流程是否合理？