博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
转:机器学习算法笔记:谱聚类方法
阅读量:7042 次
发布时间:2019-06-28

本文共 975 字,大约阅读时间需要 3 分钟。

https://blog.csdn.net/betarun/article/details/51154003

这方法是昨天听同学提起的,大致翻看了几篇博客跟论文,这里写下自己的理解

从样本相似性到图

根据我们一般的理解,聚类是将相似的样本归为一类,或者说使得同类样本相似度尽量高,异类样本相似性尽量低。无论如何,我们需要一个方式度量样本间的相似性。常用的方式就是引入各种度量,如欧氏距离、余弦相似度、高斯度量等等。

度量的选择提现了你对样本或者业务的理解。比如说如果你要比较两个用户对音乐选择的品味,考虑到有些用户习惯打高分,有些用户习惯打低分,那么选择余弦相似度可能会比欧式距离更合理。

现在我们假设已有的样本为X={

x1,x2,,xn}X={x1,x2,…,xn}, 我们选择的样本相似性度量函数为(xi,xj)s(xi,xj)(xi,xj)→s(xi,xj),其中s0s≥0,ss越大表示相似性越高。一般我们选择的是距离的倒数。据此我们可以构造相似性图,节点为样本,节点之间的连边权重为样本间的相似性,如图所示。 
相似性图

这是一个完全图,我们的目的是去掉一些边,使得这个图变成KK个连通子图。同一个子图内的节点归为一类。因此有两方面考虑:

  • 子图内的连边权重尽量大,即同类样本间尽量相似
  • 去掉的边权重尽量小,即异类样本间尽量不同

一个初步的优化方法是去掉部分权重小的边,常用的有两种方式:

  • ϵϵ准则,即去掉权重小于ϵϵ的所有边
  • kk邻近准则,即每个节点之保留权最大的几条边

现在我们得到一个较为稀疏的图。 

稀疏化后的图

图与图的Laplacian矩阵

为了下一步的算法推导,首先介绍图的Laplacian矩阵,我们记节点i,ji,j连边的权重为wi,jwi,j,如果两个节点之间没有连边,wi,j=0wi,j=0 ,另外wii=0wii=0,那么图对应的Laplacian矩阵为: 

 
L(G,W)=⎛⎝⎜⎜⎜⎜⎜⎜nj1w1jw21wn1w1,2nj2w2jwn2w1nw2nnjnwnj⎞⎠⎟⎟⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜⎜⎜nj1w1jnj2w2jnjnwnj⎞⎠⎟⎟⎟⎟⎟⎟⎛⎝⎜⎜⎜⎜⎜w11w21wn1

转载于:https://www.cnblogs.com/lm3306/p/9313875.html

你可能感兴趣的文章
创建数据表空间
查看>>
unity android相互调用
查看>>
未备案域名打开国内服务器上的网站(绑定国外空间并判断url后跳转引用)
查看>>
原生js封装ajax,实现跨域请求
查看>>
类和对象
查看>>
判断整数的奇偶
查看>>
第六课:高压击穿和闪电
查看>>
洛谷P4207 [NOI2005]月下柠檬树(计算几何+自适应Simpson法)
查看>>
#6432. 「PKUSC2018」真实排名(组合数学)
查看>>
MYSQL数据库设计规范11111
查看>>
数据库表与表的连接方式
查看>>
[BJOI2019] 光线
查看>>
装饰模式
查看>>
296. Best Meeting Point
查看>>
681. Next Closest Time(Accepted)
查看>>
Web前端学习——JavaScript
查看>>
IDEA一直在indexing的解决方案
查看>>
关于String类的课后验证
查看>>
Codeforces D - High Load
查看>>
商旅服务平台的会员制规划与运营
查看>>