用组之间的相似性或独特性来评估模型性

Habib01 · Post by **Habib01** » Thu Jan 16, 2025 4:20 am

聚类模型中没有准确性度量，因此我们将使能。

聚类性能.png

图片来自scikit-learn 文档

最常用的三个指标是：

剪影分数
卡林斯基-哈拉巴兹指数
戴维斯-布尔丁指数
剪影分数

它是使用平均簇内距离和最近簇的平均距离来计算的。

我们可以使用 scikit-learn 来计算指标。 Silhouette Score 的范匈牙利数据围在 -1 到 1 之间，分数越高意味着不同组和簇之间的相似性越低。

from sklearn import metrics

model = KMeans().fit(X)
labels = model.labels_

metrics.silhouette_score(X, labels)
供电
卡林斯基-哈拉巴兹指数

使用簇之间的离差和簇内的离差来计算组之间的区别。该指标没有限制，与 Silhoutte Score 一样，分数越高意味着模型性能越好。

metrics.calinski_harabasz_score(X, labels)
供电
戴维斯-布尔丁指数

计算每个簇与其最相似簇的平均相似度。与其他指标不同，较低的分数意味着更好的模型性能和集群之间更好的分离。

metrics.davies_bouldin_score(X, labels)
供电

通过学习R 中的聚类分析课程，了解如何应用层次聚类和 k 均值聚类。

一栋大楼有四层楼，一部电梯里有四个人。每个人在不同楼层下车的概率是多少？
4人4层概率问题.png

作者头像

我们将使用：

概率.png

F = 植物数量
P = 人数
为了解决这个问题，我们首先必须找到退出植物的总路数：4 4 = 4 × 4 × 4 × 4 = 256 路。

然后，计算每个人在不同楼层下车的方式：4！ = 24。

为了计算每个人在不同楼层下车的概率，我们必须将每个人在不同楼层下车的方式数量除以在该楼层下车的方式总数。

24/256 = 3/32

通过学习R 中的概率难题课程，学习使用 R 回答复杂概率问题的策略。

编写一个函数，从正态分布生成 N 个样本并绘制直方图。
要生成正态分布的 N 个样本，您可以使用Numpy (np.random.randn(N))或SciPy (sp.stats.norm.rvs(size=N))。

要绘制直方图，您可以使用 Matplotlib 或 Seaborn。