機器學習-EM演算法(Expectation maximization algorithm)(二)K-means

May 5, 2021

--

K-means(K均值聚類)是一種基於中心的聚類演算法，透過迭代，將樣本分到K個類中，使每個樣本與其所屬類中心的距離之和最小。

假設我們有一組樣本數為Ｎ的數據集，且每個樣本有m個特徵，然後我們要將資料分類成K個類別。

在Ｋ值給定下，第k個類別的中心定義為

我們需要以相似度找到每個樣本所屬的類別，將相似度最高的歸為同一類。而K-means是用歐式距離的平方來計算樣本間的相似度。

接著，把所有樣本與所屬類中心的距離平方和，定義為損失函式：

在定義完損失函數後，K-means是一種迭代演算法，每次迭代涉及兩個連續步驟，分別對rnk和μk做優化，也對應著EM演算法的Ｅ步(求期望)和Ｍ步(求極大)。

Ｅ步：

初始化μk(K個類別中心)，在μk固定下，最優化rnk，也就是將某個樣本分配到第k個類別，如果該樣本和第k個類別的距離最小那麼rnk=1

Ｍ步：

確定了資料所屬的類別(rnk)後，我們要來最優化μk。

目標式J是μk的二次函數，將目標式J對μk做一次微分並令其導數為零後，就可以得到使目標是達到最小值的μk，即

接著重新為樣本分類，再重新計算每個類別的均值，不斷重複這兩個步驟，直到聚類的結果不再改變。

機器學習-EM演算法(Expectation-maximization algorithm)(一)

在統計計算中，最大期望（EM）算法是在機率模型中尋找參數最大概似估計的算法，其中機率模型依賴於無法觀測的隱變量。最大期望算法經常用在機器學習和計算機視覺的數據聚類（Data…

roger010620.medium.com

機器學習-EM演算法(Expectation maximization algorithm)(三)高斯混和模型Gaussian Mixture Model(GMM)

高斯混合模型顧名思義就是將 K 個高斯分布湊在一起成為一個新的機率分布。每個高斯分布出現的機率為 πk，另外每個高斯分布都有其參數 μk 及 Σk。可以寫成以下數學式子：

roger010620.medium.com

Machine Learning

Roger Yong

Written by Roger Yong

Machine Learning｜ Deep Learning

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams