Bagaimana Menggunakan Algoritma Cluster K-means dalam Analisis Prediktif - dummies

K adalah masukan untuk algoritma untuk analisis prediktif; Ini adalah singkatan dari jumlah pengelompokan yang harus diekstrak algoritma dari kumpulan data, yang dinyatakan secara aljabar sebagai k . Algoritma K-means membagi dataset tertentu menjadi cluster k . Algoritma melakukan operasi berikut:

Pilih k item acak dari dataset dan beri label sebagai perwakilan cluster.
Mengaitkan setiap item yang tersisa dalam dataset dengan perwakilan cluster terdekat, dengan menggunakan jarak Euclidean yang dihitung dengan fungsi kemiripan.
Hitung ulang perwakilan klaster baru.
Ulangi Langkah 2 dan 3 sampai kelompok tidak berubah.

Perwakilan sebuah cluster adalah matematis rata-rata (rata-rata) dari semua item yang termasuk dalam kelompok yang sama. Perwakilan ini juga disebut cluster centroid . Misalnya, pertimbangkan tiga item dari dataset buah dimana

Tipe 1 sesuai dengan pisang.

Tipe 2 sesuai dengan apel.

Warna 2 sesuai dengan warna kuning.

Warna 3 sesuai dengan warna hijau.

Dengan asumsi bahwa barang-barang ini ditugaskan ke cluster yang sama, sentroid dari ketiga item ini dihitung.

Item	Fitur # 1 Ketik	Fitur # 2 Warna	Fitur # 3 Berat (Ounce)
1	1	2	5. 33
2	2	3	9. 33
3	1	2	2. 1

Berikut adalah perhitungan dari perwakilan cluster dari tiga item yang termasuk dalam cluster yang sama. Perwakilan cluster adalah vektor dari tiga atribut. Atributnya adalah rata-rata atribut dari item dalam cluster yang bersangkutan.

Item	Fitur # 1 Ketik	Fitur # 2 Warna	Fitur # 3 Berat (Ounce)
1	1	2	5. 33
2	2	3	9. 33
3	1	2	2. 1
Cluster Representative (Centroid Vector)	(1 + 2 + 1) / 3 = 1. 33	(2 + 3 + 2) / 3 = 2. 33	(5. 33 + 9. 33 +32. 1) / 3 = 3

Dataset yang ditunjukkan selanjutnya terdiri dari tujuh penilaian pelanggan terhadap dua produk, A dan B. Peringkat tersebut mewakili jumlah titik antara 0 dan 10) bahwa setiap pelanggan telah memberikan produk - semakin banyak poin yang diberikan, semakin tinggi peringkat produk.

Dengan menggunakan algoritma K-means dan mengasumsikan bahwa k sama dengan 2, kumpulan data akan dipartisi menjadi dua kelompok. Sisa prosedur terlihat seperti ini:

Pilih dua item acak dari dataset dan beri label sebagai perwakilan cluster.

Berikut ini adalah langkah awal pemilihan centroid acak dari mana proses pengelompokan K-means dimulai.Centroid awal dipilih secara acak dari data yang akan Anda analisis. Dalam kasus ini, Anda mencari dua kelompok, jadi dua item data dipilih secara acak: Pelanggan 1 dan 5.

Pada awalnya, proses pengelompokan membangun dua cluster di sekitar dua perwakilan cluster awal (yang dipilih secara acak). Kemudian perwakilan cluster dihitung ulang; Perhitungannya didasarkan pada item pada masing-masing cluster.

Nomor Pelanggan	Penilaian Pelanggan Produk A	Penilaian Pelanggan Produk B
1	2	2
2	3	4
3 < 6	8	4
7	10	5
10	14	6
9	10	7
7	9	Periksa setiap barang lain (pelanggan) dan tetapkan ke perwakilan cluster yang paling mirip.

Gunakan

jarak Euclidean untuk menghitung seberapa mirip item dengan sekelompok item: Kesamaan Item I dengan Cluster X = sqrt {{{left {{{f_1} - {x_1 }} kanan)} ^ 2} + {{left {{f_2} - {x_2}} kanan)} ^ 2} + cdots + {{left {{f_n} - {x_n}} kanan}} ^ 2} }

Nilai {f_1},; {f_2},; ldot,; {f_n} adalah nilai numerik dari fitur yang menggambarkan item yang dimaksud. Nilai {x_1},; {x_2},; ldot,; {x_n} adalah fitur (nilai rata-rata) dari perwakilan cluster (centroid), dengan asumsi setiap item memiliki fitur

n . Misalnya, pertimbangkan item yang disebut Pelanggan 2 (3, 4): Peringkat pelanggan untuk Produk A adalah 3 dan peringkat untuk Produk B adalah 4. Fitur perwakilan cluster adalah (2, 2). Kesamaan Pelanggan 2 dengan Cluster 1 dihitung sebagai berikut:

Kesamaan Item 2 dengan Cluster 1 = sqrt {{{left {{left}} {2} + {{left {{4 - 2} } right)} ^ 2}} = 2. 23

Inilah tampilan proses yang sama dengan Cluster 2:

Kesamaan Item 2 dengan Cluster 2 = sqrt {{left {{3 - 10} kanan) } ^ 2} + {{left ({4 - 14} kanan)} ^ 2}} = 12. 20

Membandingkan hasil ini, Anda menetapkan Item 2 (yaitu, Pelanggan 2) ke Cluster 1 karena angka tersebut mengatakan Item 2 lebih mirip dengan Cluster 1.

Terapkan analisis kesamaan yang sama dengan setiap item lainnya dalam dataset.
Setiap kali anggota baru bergabung dengan sebuah cluster, Anda harus menghitung ulang perwakilan cluster.

Ini menggambarkan hasil dari iterasi pertama algoritma K-mean. Perhatikan bahwa

k sama dengan 2, jadi Anda mencari dua kelompok, yang membagi satu set pelanggan menjadi dua kelompok yang bermakna. Setiap pelanggan dianalisis secara terpisah dan ditugaskan ke salah satu kelompok berdasarkan kemiripan pelanggan dengan masing-masing perwakilan cluster saat ini. Iterate dataset lagi, melalui setiap elemen; hitung kesamaan antara masing-masing elemen dan perwakilan clusternya saat ini.

Perhatikan bahwa Pelanggan 3 telah pindah dari Cluster 1 ke Cluster 2. Hal ini karena jarak Pelanggan 3 ke cluster cluster Cluster 2 lebih dekat daripada perwakilan cluster Cluster 1. Perwakilan 9999 Cluster (Centroid Vector)

Cluster 1

Nomor Pelanggan # 1 (2, 2)
Klaster 2	Nomor Pelanggan # 5 (10, 14)
Iterasi # 1	Klaster Pelanggan 1

Cluster Pelanggan 2	Pelanggan yang akan diperiksa	Nomor Pelanggan milik Cluster 1
Perwakilan Klaster	Nomor Pelanggan milik Cluster 1	Perwakilan Klaster	1	(2, 2) > 5
(10, 14)	2	1, 2	(2.4, 3)
5	(10, 14)	3	1, 2, 3	(ayat 6, 4. 6)
5	(10, 14)	4	1, 2, 3	(ayat 6, 4. 6)
4, 5	(8.4, 12)	6	1, 2, 3	(ayat 6, 4. 6)
4, 5, 6	(8.6, 11. 4)	7	1, 2, 3 > (3, 6, 4. 6)	4, 5, 6, 7
(8.2, 10. 8)	Berikut adalah iterasi kedua algoritma K-means pada data pelanggan. Setiap pelanggan sedang dianalisis ulang. Pelanggan 2 ditugaskan ke Cluster 1 karena Pelanggan 2 lebih dekat dengan perwakilan Cluster 1 daripada Cluster 2. Skenario yang sama berlaku untuk Pelanggan 4. Perhatikan bahwa perwakilan cluster sedang dihitung ulang setiap kali anggota baru ditugaskan ke cluster.	Iterasi # 2	Klaster Pelanggan 1	Customer Cluster 2

Pelanggan yang akan diperiksa

Bagaimana Menggunakan Algoritma Cluster K-means dalam Analisis Prediktif - dummies

Pilihan Editor

Nomor Pelanggan milik Cluster 1	Perwakilan Klaster	Nomor Pelanggan milik Cluster 2 > Perwakilan Klaster
1	1	(ayat 6, 4. 6)	5	(8.2, 10. 8)
2	1, 2 < (5, 2, 3)	5	(8.2, 10. 8)	3
1, 2	(5, 2, 3)	5, 3	(7, 8, 10. 2)	4
1, 2	(5, 2, 3)	4, 5. 3	(ayat 8, 10 2)	6
1, 2	(5, 2, 3)	4, 5, 6. 3	(ayat 8, 10. 2)	7 < 1, 2
(5, 2, 3)	3, 4, 5, 6, 7	(ayat 8, 10. 2)

Bagaimana Menggunakan Algoritma Cluster K-means dalam Analisis Prediktif - dummies

Video: ANALISIS CLUSTER K MEANS by Edy Supriyadi 2024

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa itu YouTube Red? - dummies

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Transparansi dalam Komunitas Online - dummies

Matikan Blog Mom Anda ke Job - dummies

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Pilihan Editor

Aplikasi web versus aplikasi asli untuk iPhone dan iPads - dummies

Apakah Anda Butuh Layanan yang Dikelola untuk Host Web Anda? - dummies

Desain web untuk halaman web iPhone dan iPad - dummies

Bagaimana Memilih Skrip yang Tepat untuk Situs Anda - dummies

Pilihan Editor

11 Alat Analisis Web Gratis atau yang Murah - dummies

Web 2. 0 Peluang untuk Situs Mobile Anda - dummies

Daftar Situs Web yang Digerakkan oleh Web Analytics - dummies

Bagaimana Menghasilkan Perumam Referral Situs - dummies

Kategori populer