0

0

Python怎么做聚类分析_K-Means无监督算法实现与最佳K值选择方法

P粉602998670

P粉602998670

发布时间:2026-03-17 08:41:31

|

215人浏览过

|

来源于php中文网

原创

用KMeans需调参:标准化、n_init≥20、固定random_state;选K优先看轮廓系数(>0.5合理),辅以Calinski-Harabasz分数;空簇因初值差或K过大,需离群点检测;非凸/多尺度数据应换DBSCAN等算法。

python怎么做聚类分析_k-means无监督算法实现与最佳k值选择方法

怎么用 sklearn.cluster.KMeans 快速跑通聚类

直接调 KMeans 很容易出错,不是结果全一样,就是报 ConvergenceWarning。核心问题在于默认参数太“懒”:n_init=10 太低,max_iter=300 在高维数据里常不够,init='k-means++' 虽好但对异常值敏感。

  • 必须设 n_init=20 以上,避免陷入局部极小——KMeans 是贪心算法,只跑一次大概率不准
  • 如果数据量大(行 > 10万)或特征 > 50,先用 StandardScaler 标准化,否则欧氏距离被量纲大的特征主导
  • 别信默认的 random_state=None,固定 random_state=42 才能复现结果,调试时省半小时
  • 示例:
    from sklearn.cluster import KMeans<br>from sklearn.preprocessing import StandardScaler<br><br>scaler = StandardScaler()<br>X_scaled = scaler.fit_transform(X)<br>kmeans = KMeans(n_clusters=3, n_init=20, random_state=42)<br>labels = kmeans.fit_predict(X_scaled)

怎么判断 K 值选得对不对

肘部法(Elbow Method)和轮廓系数(Silhouette Score)经常打架,不是因为方法错,而是它们优化目标不同:肘部法看簇内误差平方和(inertia_),轮廓系数看簇间分离度。实际中,inertia_ 永远随 K 增大而下降,根本没“肘”,这时候硬找拐点就是在拟合噪声。

  • 优先看 silhouette_score,它对 K 敏感且有明确范围(-1 到 1),>0.5 算合理,>0.7 算不错;但注意:当簇大小极度不均时,它会高估 K
  • calinski_harabasz_score 作交叉验证,它对簇间离散度更鲁棒,和轮廓系数趋势相反时,往往说明数据本身不适合 K-Means
  • 画图别只画一条线——把 inertia_silhouette_scorecalinski_harabasz_score 三条曲线叠在一起,K=4 和 K=5 分数接近,就别硬选 K=5
  • 代码片段:
    from sklearn.metrics import silhouette_score, calinski_harabasz_score<br><br>sil_scores = []<br>ch_scores = []<br>for k in range(2, 10):<br>    km = KMeans(n_clusters=k, n_init=15, random_state=42)<br>    labels = km.fit_predict(X_scaled)<br>    sil_scores.append(silhouette_score(X_scaled, labels))<br>    ch_scores.append(calinski_harabasz_score(X_scaled, labels))

为什么聚类结果每次都不一样,还老出空簇

KMeans 初始化本质是随机选点,如果某次初始中心恰好落在稀疏区,后续迭代可能把整个簇“吸”过去,最后某个中心周围没点可分,就触发 EmptyClusterError(虽然 sklearn 默认静默忽略,但 labels 里会出现 -1 或错位)。

  • 空簇最常见于 K 设得太大,或数据有强偏态分布(比如 90% 样本挤在左下角),这时改用 init='k-means++' 并提高 n_init 是治标,治本得先做离群点检测(比如用 IsolationForest)再剔除
  • 如果必须保留所有样本,加个兜底:KMeans(..., n_init=30).fit(X_scaled) 后检查 km.n_iter_,小于 50 就重跑——说明收敛太快,大概率卡在坏初值上
  • 别用 predict 对新样本聚类,要用 fit_predict 重新算;predict 只适用于训练时见过的簇结构,新数据分布一变就失效

什么情况下 K-Means 会彻底失效

不是所有“看起来能分组”的数据都适合 K-Means。它隐含三个强假设:簇是凸形的、各向同性的、大小相近。一旦违背,比如环形分布、长条形簇、密度差异大的多尺度结构,KMeans 会强行切成圆饼,结果毫无业务意义。

NameGPT名称生成器
NameGPT名称生成器

免费AI公司名称生成器,AI在线生成企业名称,注册公司名称起名大全。

下载

立即学习Python免费学习笔记(深入)”;

  • 先画 PCA 降维到 2D 散点图,肉眼观察形状——如果点明显绕圈、拉丝、或一堆密一堆疏,立刻停手,换 DBSCANAgglomerativeClustering
  • 特征相关性高(比如 pricearea 相关系数 > 0.8)时,K-Means 的欧氏距离会重复加权,必须先用 PCA 或 TruncatedSVD 降维
  • 类别型变量(如 city, product_type)不能直接 one-hot 后喂给 KMeans,距离失去含义;得用 Gower distance + 层次聚类,或者先做嵌入(CategoryEncoders

真正麻烦的从来不是调参,而是确认问题本身是否属于 K-Means 的解题范围——这点在探索性分析阶段最容易被跳过。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

448

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

606

2023.08.10

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

504

2023.08.14

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

504

2023.08.14

chatgpt使用指南
chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.16

chatgpt官网入口地址合集
chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容,阅读专题下面的文章了解更多详细内容。

0

2026.03.16

minimax入口地址汇总
minimax入口地址汇总

本专题整合了minimax相关入口合集,阅读专题下面的文章了解更多详细地址。

4

2026.03.16

C++多线程并发控制与线程安全设计实践
C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开,系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制,同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解,帮助开发者掌握构建稳定高效并发系统的关键技术。

7

2026.03.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

114

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 5.1万人学习

SciPy 教程
SciPy 教程

共10课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号