供电
机器学习聚类
到目前为止,我们已经探索了有监督的机器学习模型来解决分类和回归问题。现在,我们将深入研究一种流行的无监督学习方法,称为聚类。
简单来说,聚类就是创建一组彼此相似但又不同的对象的任务。该技术具有多种商业用途,例如向视频流网站上具有相似观看模式的用户推荐电影、异常检测和客户细分。
在本节中,我们将研究一种称为 K-Means 聚类的算法,这是用于无监督学习任务的最简单且最流行的机器学习模型。
K 均值聚类
K-Means 聚类是一种无监督机器学习技术,用于对数据中的相似对象进行分组。
以下是 K 均值聚类算法工作原理的示例:
K 均值聚类
作者头像
步骤 1 – 上图由未分组的未标记观察结果组成。最初,每个观察结果将被随机分配到一个簇。接下来,将为每个簇计算质心。
它们在下图中用“+”符号表示:
K 均值聚类示例 1
作者头像
步骤 2 – 接下来,测量每个数据点到质心的距离,
K 均值聚类示例 2
作者头像
步骤 3 – 然后重新计算新簇的质心,并相应地重新分配数据点。
步骤 4 – 重复此过程,直到不再重新分配更多数据点:
K 均值聚类示例 3
作者头像
请注意,在前面的示例中创建了三个集群或分组。在K-Means聚类算法中,聚类的数量被称为“k”,我们必须确定它。
在 K 均值中选择“k”有几种不同的方法,点作为“k”。
在我们的Python 中的 K-Means 聚类教程中了解更多信息, K-Means 聚类的内部工作原理。
在 Python 中构建 K-Means 聚类模型
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters = 3, init='k-means++')
供电
n_clusters 参数指示构建算法时必须定义的“k”个簇的数量。
机器学习模型解释 - 后续步骤:
如果您能够阅读整篇文章,那么恭喜您!现在您了解了一些最流 加拿大数据 行的监督和无监督机器学习模型和算法,以及如何应用它们来解决各种预测建模问题。
要成为数据科学家,您需要了解不同类型的机器学习模型如何应用它们来解决问题。例如,如果您想构建一个可解释且计算时间短的模型,那么创建决策树可能是有意义的。但是,如果您的目标是创建一个泛化良好的模型,您可以选择构建随机森林算法。
了解如何评估机器学习模型也很重要。 “好”模型是主观的,很大程度上取决于您的用例。例如,在分类问题中,仅高精度并不能说明模型就是好模型。作为数据科学家,您需要审查精度、完整性和 F1 分数等指标,以更好地了解模型的性能。
如果您想深入研究本文所涵盖的概念之外的机器学习模型,请学习Python 科学机器学习课程。该职业计划将教您机器学习模型如何工作背后的理论以及如何在 Python 中实现它们。在课程中,您还将学习数据准备技术,例如标准化、去相关和特