并将每个点映射到最近的质

Habib01 · Post by **Habib01** » Wed Jan 15, 2025 8:42 am

供电
机器学习聚类
到目前为止，我们已经探索了有监督的机器学习模型来解决分类和回归问题。现在，我们将深入研究一种流行的无监督学习方法，称为聚类。

简单来说，聚类就是创建一组彼此相似但又不同的对象的任务。该技术具有多种商业用途，例如向视频流网站上具有相似观看模式的用户推荐电影、异常检测和客户细分。

在本节中，我们将研究一种称为 K-Means 聚类的算法，这是用于无监督学习任务的最简单且最流行的机器学习模型。

K 均值聚类
K-Means 聚类是一种无监督机器学习技术，用于对数据中的相似对象进行分组。

以下是 K 均值聚类算法工作原理的示例：

K 均值聚类

作者头像

步骤 1 – 上图由未分组的未标记观察结果组成。最初，每个观察结果将被随机分配到一个簇。接下来，将为每个簇计算质心。

它们在下图中用“+”符号表示：

K 均值聚类示例 1

作者头像

步骤 2 – 接下来，测量每个数据点到质心的距离，

K 均值聚类示例 2

作者头像

步骤 3 – 然后重新计算新簇的质心，并相应地重新分配数据点。

步骤 4 – 重复此过程，直到不再重新分配更多数据点：

K 均值聚类示例 3

作者头像

请注意，在前面的示例中创建了三个集群或分组。在K-Means聚类算法中，聚类的数量被称为“k”，我们必须确定它。

在 K 均值中选择“k”有几种不同的方法，点作为“k”。

在我们的Python 中的 K-Means 聚类教程中了解更多信息， K-Means 聚类的内部工作原理。

在 Python 中构建 K-Means 聚类模型

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters = 3, init='k-means++')
供电
n_clusters 参数指示构建算法时必须定义的“k”个簇的数量。

机器学习模型解释 - 后续步骤：
如果您能够阅读整篇文章，那么恭喜您！现在您了解了一些最流加拿大数据行的监督和无监督机器学习模型和算法，以及如何应用它们来解决各种预测建模问题。

要成为数据科学家，您需要了解不同类型的机器学习模型如何应用它们来解决问题。例如，如果您想构建一个可解释且计算时间短的模型，那么创建决策树可能是有意义的。但是，如果您的目标是创建一个泛化良好的模型，您可以选择构建随机森林算法。

了解如何评估机器学习模型也很重要。 “好”模型是主观的，很大程度上取决于您的用例。例如，在分类问题中，仅高精度并不能说明模型就是好模型。作为数据科学家，您需要审查精度、完整性和 F1 分数等指标，以更好地了解模型的性能。

如果您想深入研究本文所涵盖的概念之外的机器学习模型，请学习Python 科学机器学习课程。该职业计划将教您机器学习模型如何工作背后的理论以及如何在 Python 中实现它们。在课程中，您还将学习数据准备技术，例如标准化、去相关和特