西瓜书--无监督学习(聚类)

无监督学习


无监督学习

  • 无监督学习
  • 前言
  • 一、无监督学习是什么?
    • 1)机器学习的分类
    • 2)解释(图文结合)
    • 3)区别
  • 二、无监督学习应用范围
  • 三、无标注数据的结构
    • 1)用处
  • 四、聚类
    • 1)聚类的含义:
    • 2) 怎么判断是好的聚类:
      • 原则:
    • 3)聚类的分类:
      • 1)软聚类(soft clustering) vs. 硬聚(hard clustering)
      • 2)层次聚类 vs. 非层次聚类(图)+举例
    • 3)==算法==:
        • 凝聚式层次聚类(步骤+图文显示)
        • 分裂式层次聚类
        • 分裂式层次聚类vs. 凝聚式层次聚类
        • K-medoids 聚类(及其变种与改进:PAM,CLARA)
        • PAM(小样本):
        • CLARA(对大样本)
    • 4)数据聚类步骤:
    • 5)相似度 and 相似度度量(区别)
      • 相似度(Similarity)
      • 相似度度量(Similarity Measure)
  • 总结


前言

无监督学习是机器学习的一个重要分支,它在没有明确标签的数据上进行模式识别和数据分组。本文将详细介绍无监督学习的基本概念、应用范围、无标注数据的结构、聚类方法及其评估标准。


一、无监督学习是什么?

1)机器学习的分类

无监督学习
监督学习
半监督学习

2)解释(图文结合)

• 有监督:涉及人力的介入
• 无监督:不牵扯人力
• 半监督学习:通过一些(少量)有标注数据和很多无标注的数据学习条件分布P(Y|X)

3)区别

+-------------------+        +-------------------+        +-----------------------------+ 
|      监督学习      |        |     无监督学习     |        |      半监督学习              |
|  (需标注数据)      |        |  (无需标注数据)    |        |  (少量标注 + 大量未标注数据)   |
|  [图片:标注数据]  |        |  [图片:原始数据]   |        |  [图片:少量标注 + 原始数据]   |
|  目标:预测标签    |        |  目标:发现模式     |        |  目标:利用未标注数据提升性能  |
+-------------------+        +-------------------+        +-----------------------------+

二、无监督学习应用范围

  • 生物学:基因数据的相似度往往在聚类中被用于预测种群结构
  • 图像处理:自动相册
  • 经济(市场商务智能BI):找到不同的顾客群体:趋势预测;分析销售数据中的隐藏模式,以预测未来的销售趋势或消费者偏好变化
  • www:每周新闻摘要

三、无标注数据的结构

1)用处

  1. 构建模型找到输入的合理表示

  2. 发现数据的结构

  • 数据聚类:在没有预先定义的类别时将数据分为不同的组,帮助理解数据的自然分组情况。

  • 客户细分:根据购买行为将顾客分为不同群体。
    图像分类:将相似的图像归为一类,如人物照片、风景照片等。

  1. 降维
  • 减少变量数量:通过降维技术(如主成分分析PCA、t-SNE等),可以在保留主要信息的前提下减少数据维度,简化模型复杂度并提高计算效率。
  • 应用场景:
    可视化高维数据:将高维数据投影到二维或三维空间,便于直观观察。
  1. 离群点检测

  2. 刻画数据密度

+-------------------+        +-----

你可能感兴趣的:(学习,聚类,机器学习)