Video: ANALISIS CLUSTER K MEANS by Edy Supriyadi 2024
K adalah masukan untuk algoritma untuk analisis prediktif; Ini adalah singkatan dari jumlah pengelompokan yang harus diekstrak algoritma dari kumpulan data, yang dinyatakan secara aljabar sebagai k . Algoritma K-means membagi dataset tertentu menjadi cluster k . Algoritma melakukan operasi berikut:
-
Pilih k item acak dari dataset dan beri label sebagai perwakilan cluster.
-
Mengaitkan setiap item yang tersisa dalam dataset dengan perwakilan cluster terdekat, dengan menggunakan jarak Euclidean yang dihitung dengan fungsi kemiripan.
-
Hitung ulang perwakilan klaster baru.
-
Ulangi Langkah 2 dan 3 sampai kelompok tidak berubah.
Perwakilan sebuah cluster adalah matematis rata-rata (rata-rata) dari semua item yang termasuk dalam kelompok yang sama. Perwakilan ini juga disebut cluster centroid . Misalnya, pertimbangkan tiga item dari dataset buah dimana
Tipe 1 sesuai dengan pisang.
Tipe 2 sesuai dengan apel.
Warna 2 sesuai dengan warna kuning.
Warna 3 sesuai dengan warna hijau.
Dengan asumsi bahwa barang-barang ini ditugaskan ke cluster yang sama, sentroid dari ketiga item ini dihitung.
Item | Fitur # 1 Ketik | Fitur # 2 Warna | Fitur # 3 Berat (Ounce) |
---|---|---|---|
1 | 1 | 2 | 5. 33 |
2 | 2 | 3 | 9. 33 |
3 | 1 | 2 | 2. 1 |
Berikut adalah perhitungan dari perwakilan cluster dari tiga item yang termasuk dalam cluster yang sama. Perwakilan cluster adalah vektor dari tiga atribut. Atributnya adalah rata-rata atribut dari item dalam cluster yang bersangkutan.
Item | Fitur # 1 Ketik | Fitur # 2 Warna | Fitur # 3 Berat (Ounce) |
---|---|---|---|
1 | 1 | 2 | 5. 33 |
2 | 2 | 3 | 9. 33 |
3 | 1 | 2 | 2. 1 |
Cluster Representative (Centroid Vector) | (1 + 2 + 1) / 3 = 1. 33 | (2 + 3 + 2) / 3 = 2. 33 | (5. 33 + 9. 33 +32. 1) / 3 = 3 |
Dataset yang ditunjukkan selanjutnya terdiri dari tujuh penilaian pelanggan terhadap dua produk, A dan B. Peringkat tersebut mewakili jumlah titik antara 0 dan 10) bahwa setiap pelanggan telah memberikan produk - semakin banyak poin yang diberikan, semakin tinggi peringkat produk.
Dengan menggunakan algoritma K-means dan mengasumsikan bahwa k sama dengan 2, kumpulan data akan dipartisi menjadi dua kelompok. Sisa prosedur terlihat seperti ini:
-
Pilih dua item acak dari dataset dan beri label sebagai perwakilan cluster.
Berikut ini adalah langkah awal pemilihan centroid acak dari mana proses pengelompokan K-means dimulai.Centroid awal dipilih secara acak dari data yang akan Anda analisis. Dalam kasus ini, Anda mencari dua kelompok, jadi dua item data dipilih secara acak: Pelanggan 1 dan 5.
Pada awalnya, proses pengelompokan membangun dua cluster di sekitar dua perwakilan cluster awal (yang dipilih secara acak). Kemudian perwakilan cluster dihitung ulang; Perhitungannya didasarkan pada item pada masing-masing cluster.
Nomor Pelanggan Penilaian Pelanggan Produk A Penilaian Pelanggan Produk B 1 2 2 2 3 4 3 < 6 8 4 7 10 5 10 14 6 9 10 7 7 9 Periksa setiap barang lain (pelanggan) dan tetapkan ke perwakilan cluster yang paling mirip. -
Gunakan
jarak Euclidean untuk menghitung seberapa mirip item dengan sekelompok item: Kesamaan Item I dengan Cluster X = sqrt {{{left {{{f_1} - {x_1 }} kanan)} ^ 2} + {{left {{f_2} - {x_2}} kanan)} ^ 2} + cdots + {{left {{f_n} - {x_n}} kanan}} ^ 2} }
Nilai {f_1},; {f_2},; ldot,; {f_n} adalah nilai numerik dari fitur yang menggambarkan item yang dimaksud. Nilai {x_1},; {x_2},; ldot,; {x_n} adalah fitur (nilai rata-rata) dari perwakilan cluster (centroid), dengan asumsi setiap item memiliki fitur
n . Misalnya, pertimbangkan item yang disebut Pelanggan 2 (3, 4): Peringkat pelanggan untuk Produk A adalah 3 dan peringkat untuk Produk B adalah 4. Fitur perwakilan cluster adalah (2, 2). Kesamaan Pelanggan 2 dengan Cluster 1 dihitung sebagai berikut:
Kesamaan Item 2 dengan Cluster 1 = sqrt {{{left {{left}} {2} + {{left {{4 - 2} } right)} ^ 2}} = 2. 23
Inilah tampilan proses yang sama dengan Cluster 2:
Kesamaan Item 2 dengan Cluster 2 = sqrt {{left {{3 - 10} kanan) } ^ 2} + {{left ({4 - 14} kanan)} ^ 2}} = 12. 20
Membandingkan hasil ini, Anda menetapkan Item 2 (yaitu, Pelanggan 2) ke Cluster 1 karena angka tersebut mengatakan Item 2 lebih mirip dengan Cluster 1.
Terapkan analisis kesamaan yang sama dengan setiap item lainnya dalam dataset.
-
Setiap kali anggota baru bergabung dengan sebuah cluster, Anda harus menghitung ulang perwakilan cluster.
Ini menggambarkan hasil dari iterasi pertama algoritma K-mean. Perhatikan bahwa
k sama dengan 2, jadi Anda mencari dua kelompok, yang membagi satu set pelanggan menjadi dua kelompok yang bermakna. Setiap pelanggan dianalisis secara terpisah dan ditugaskan ke salah satu kelompok berdasarkan kemiripan pelanggan dengan masing-masing perwakilan cluster saat ini. Iterate dataset lagi, melalui setiap elemen; hitung kesamaan antara masing-masing elemen dan perwakilan clusternya saat ini.
-
Perhatikan bahwa Pelanggan 3 telah pindah dari Cluster 1 ke Cluster 2. Hal ini karena jarak Pelanggan 3 ke cluster cluster Cluster 2 lebih dekat daripada perwakilan cluster Cluster 1. Perwakilan 9999 Cluster (Centroid Vector)
Cluster 1
Nomor Pelanggan # 1 (2, 2) Klaster 2 Nomor Pelanggan # 5 (10, 14) Iterasi # 1 Klaster Pelanggan 1 Cluster Pelanggan 2 Pelanggan yang akan diperiksa Nomor Pelanggan milik Cluster 1 Perwakilan Klaster Nomor Pelanggan milik Cluster 1 Perwakilan Klaster 1 (2, 2) > 5 (10, 14) 2 1, 2 (2.4, 3) 5 (10, 14) 3 1, 2, 3 (ayat 6, 4. 6) 5 (10, 14) 4 1, 2, 3 (ayat 6, 4. 6) 4, 5 (8.4, 12) 6 1, 2, 3 (ayat 6, 4. 6) 4, 5, 6 (8.6, 11. 4) 7 1, 2, 3 > (3, 6, 4. 6) 4, 5, 6, 7 (8.2, 10. 8) Berikut adalah iterasi kedua algoritma K-means pada data pelanggan. Setiap pelanggan sedang dianalisis ulang. Pelanggan 2 ditugaskan ke Cluster 1 karena Pelanggan 2 lebih dekat dengan perwakilan Cluster 1 daripada Cluster 2. Skenario yang sama berlaku untuk Pelanggan 4. Perhatikan bahwa perwakilan cluster sedang dihitung ulang setiap kali anggota baru ditugaskan ke cluster. Iterasi # 2 Klaster Pelanggan 1 Customer Cluster 2
Pelanggan yang akan diperiksa
Nomor Pelanggan milik Cluster 1 | Perwakilan Klaster | Nomor Pelanggan milik Cluster 2 > Perwakilan Klaster | ||
---|---|---|---|---|
1 | 1 | (ayat 6, 4. 6) | 5 | (8.2, 10. 8) |
2 | 1, 2 < (5, 2, 3) | 5 | (8.2, 10. 8) | 3 |
1, 2 | (5, 2, 3) | 5, 3 | (7, 8, 10. 2) | 4 |
1, 2 | (5, 2, 3) | 4, 5. 3 | (ayat 8, 10 2) | 6 |
1, 2 | (5, 2, 3) | 4, 5, 6. 3 | (ayat 8, 10. 2) | 7 < 1, 2 |
(5, 2, 3) | 3, 4, 5, 6, 7 | (ayat 8, 10. 2) |