np.random.rand()生成[0,1)区间上的均匀分布浮点数,不支持loc/scale、dtype参数,推荐用Generator替代以保证可重现性和线程安全。

np.random.rand() 生成的是什么分布?
它只生成 [0, 1) 区间上的**均匀分布**浮点数,不是正态、不是整数、不接受 loc 或 scale 参数。常见误解是以为它能“随机取整”或“控制范围”,其实不能。
实操建议:
-
np.random.rand()默认返回标量;传入整数(如3)返回一维数组,传入元组(如(2, 3))返回对应形状的二维数组 - 想得到
[a, b)的均匀数?别用rand() * (b - a) + a—— 虽然数学上对,但更推荐直接用np.random.uniform(a, b, size=...),语义清晰且支持整数low/high - 注意:
rand()不接受dtype参数,结果永远是float64;若需float32,得手动转:np.random.rand(10).astype(np.float32)
np.random.randn() 是标准正态,不是任意正态
randn() 固定生成均值为 0、标准差为 1 的正态分布(即标准正态),和 rand() 一样不接受分布参数。想生成 N(μ, σ²)?必须自己缩放平移。
实操建议:
- 常见错误:写成
np.random.randn(1000, 1) * 5 + 10想得到N(10, 25)—— 这是对的;但写成np.random.randn(1000, 1) * 5 + 10却误以为方差是 5,其实是 25(因为方差是标准差的平方) - 更安全的做法是用
np.random.normal(loc=10, scale=5, size=(1000, 1)),scale明确指标准差,不易混淆 -
randn()和rand()都不支持seed参数,设随机种子得提前调np.random.seed(...)或(更推荐)用独立的Generator实例
为什么现在该用 np.random.Generator 而不是 rand/randn?
从 NumPy 1.17 开始,np.random.rand() 和 randn() 属于旧式 API,共享全局随机状态,多线程下不安全,也无法复现细粒度结果。新推荐方式是显式创建 Generator。
实操建议:
- 替换写法:
rng = np.random.default_rng(seed=42); rng.random((3, 4))替代np.random.rand(3, 4);rng.standard_normal((3, 4))替代np.random.randn(3, 4) -
Generator方法名更直白:random(均匀)、standard_normal(标准正态)、normal(任意正态)、integers(整数均匀)—— 不再靠名字猜行为 - 旧函数仍可用,但若项目要长期维护或涉及并行/可重现性,跳过过渡期直接用
Generator更省事
rand() 和 randn() 的性能与内存表现有差别吗?
几乎没有。两者底层都调用相同的 PRNG(默认 PCG64),生成速度、内存占用、向量化效率几乎一致。差异只在输出分布,不在实现开销。
实操建议:
- 别为了“快一点”选
rand而不用randn—— 分布需求才是唯一决策依据 - 真正影响性能的是 shape:生成大数组时,用对形状(比如
(10000,)而非循环调用 10000 次)比纠结用哪个函数重要得多 - 如果做蒙特卡洛模拟且需要千万级样本,优先考虑
Generator+dtype=np.float32(节省内存),而不是换函数
真正容易被忽略的,是旧函数和新 Generator 在随机流上的隔离性 —— 同一个 seed 下,np.random.rand(2) 接着 np.random.randn(2),和 rng.random(2) 接着 rng.standard_normal(2),产生的数字序列完全不同。复现实验时,光记 seed 不够,还得记清用的是哪套 API。








