plt.scatter画散点图时需将DataFrame列转为数组(如.values),c/s参数不接受Series;三维图须用ax.scatter(projection='3d');颜色尺寸映射需归一化或编码,NaN需预过滤。

用 plt.scatter 画二维散点图,别直接传 DataFrame 列名
很多人写 plt.scatter(df['x'], df['y']) 没问题,但一旦加 c=df['color_col'] 或 s=df['size_col'] 就报 ValueError: c of shape (N,) is not acceptable as a color sequence for x with size N——本质是 c 和 s 参数对输入类型敏感:它们要的是数组(np.ndarray 或 list),不是带索引的 pandas.Series。pandas 0.25+ 版本后更严格,Series 的隐式转换常失效。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 统一用
.values或.to_numpy()转换:plt.scatter(x=df['x'].values, y=df['y'].values, c=df['color_col'].values, s=df['size_col'].values * 10) - 颜色列如果是字符串类别(如
['red', 'blue', 'green']),确保它不混有 NaN;否则plt.scatter会静默跳过对应点,图上看不出但数据少了 -
s参数单位是「点面积」(points²),不是像素或半径;乘个系数(比如 ×10 或 ×100)才能看清差异,尤其当原始值在 0–1 之间时
三维气泡图必须用 ax.scatter + projection='3d'
plt.scatter 不支持 z 轴,硬加第三个坐标会报 TypeError: scatter() takes from 1 to 2 positional arguments but 3 were given。必须切到 3D 坐标系,且不能靠 plt.figure() 直接撑出来。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 先建带 3D 投影的轴:
fig = plt.figure(); ax = fig.add_subplot(111, projection='3d') - 调用
ax.scatter(x, y, z, s=sizes, c=colors, alpha=0.7);注意这里s和c同样要转成纯数组 - z 轴默认没刻度标签,记得手动加:
ax.set_zlabel('Z value');否则图里看不出哪个是高度 - 三维图旋转视角靠鼠标拖拽,但保存图片时视角会重置为默认;用
ax.view_init(elev=20, azim=45)固定角度再plt.savefig()
颜色和尺寸映射真实数据时,别忽略归一化与离散/连续区分
直接把原始数值塞进 c 或 s,常导致颜色发灰(全挤在 colormap 中间)、气泡大小无区分度(最大值远超其余),或者分类变量被当成连续数强行插值——这是最隐蔽的“图看起来没错,但信息全歪了”的坑。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 连续型颜色映射:用
plt.cm.ScalarMappable配合Normalize控制范围,例如:norm = plt.Normalize(vmin=0, vmax=100); sm = plt.cm.ScalarMappable(cmap='viridis', norm=norm); sm.set_array([]),然后传c=data_vals, cmap='viridis', norm=norm - 离散型颜色(如 5 个类别):别用
cmap,改用c=category_codes, cmap='tab10',并确保category_codes是整数编码(pd.Categorical(df['cat']).codes),不是字符串 - 尺寸映射避免线性放大:原始值若跨度大(如 1–10000),用
s=np.sqrt(raw_sizes) * 50或s=(raw_sizes / raw_sizes.max()) ** 0.5 * 200压缩视觉差异
Matplotlib 3.8+ 的 scatter 对 NaN 处理更严格,提前筛掉比补 0 更安全
旧版 Matplotlib 会自动跳过含 NaN 的点,新版(尤其 3.8 起)在 c 或 s 中遇到 NaN 时直接抛 ValueError: Input contains NaN, infinity or a value too large for dtype('float64'),哪怕 x 和 y 都干净。
实操建议:
立即学习“Python免费学习笔记(深入)”;
- 统一预过滤:用布尔索引一次性筛出所有有效行:
mask = ~df[['x','y','color_col','size_col']].isna().any(axis=1); df_clean = df[mask].copy() - 别用
fillna(0)补尺寸或颜色——0 尺寸会画不出点,0 颜色可能映射到 colormap 起点(常是深蓝),造成误读 - 如果必须保留缺失语义,可单独画一层透明小圆圈标记 NaN 位置,但需另起一组
ax.scatter调用,且zorder设低些避免遮盖主图
动态映射颜色和尺寸听着灵活,实际卡点都在数据清洗和参数类型上;图能画出来不难,难的是每一点的视觉编码都忠实反映原始数值的分布逻辑。










