Rumah Keuangan Pribadi Bagaimana Menggunakan Algoritma Cluster K-means dalam Analisis Prediktif - dummies

Bagaimana Menggunakan Algoritma Cluster K-means dalam Analisis Prediktif - dummies

Video: ANALISIS CLUSTER K MEANS by Edy Supriyadi 2024

Video: ANALISIS CLUSTER K MEANS by Edy Supriyadi 2024
Anonim

K adalah masukan untuk algoritma untuk analisis prediktif; Ini adalah singkatan dari jumlah pengelompokan yang harus diekstrak algoritma dari kumpulan data, yang dinyatakan secara aljabar sebagai k . Algoritma K-means membagi dataset tertentu menjadi cluster k . Algoritma melakukan operasi berikut:

  1. Pilih k item acak dari dataset dan beri label sebagai perwakilan cluster.

  2. Mengaitkan setiap item yang tersisa dalam dataset dengan perwakilan cluster terdekat, dengan menggunakan jarak Euclidean yang dihitung dengan fungsi kemiripan.

  3. Hitung ulang perwakilan klaster baru.

  4. Ulangi Langkah 2 dan 3 sampai kelompok tidak berubah.

Perwakilan sebuah cluster adalah matematis rata-rata (rata-rata) dari semua item yang termasuk dalam kelompok yang sama. Perwakilan ini juga disebut cluster centroid . Misalnya, pertimbangkan tiga item dari dataset buah dimana

Tipe 1 sesuai dengan pisang.

Tipe 2 sesuai dengan apel.

Warna 2 sesuai dengan warna kuning.

Warna 3 sesuai dengan warna hijau.

Dengan asumsi bahwa barang-barang ini ditugaskan ke cluster yang sama, sentroid dari ketiga item ini dihitung.

Item Fitur # 1 Ketik Fitur # 2 Warna Fitur # 3 Berat (Ounce)
1 1 2 5. 33
2 2 3 9. 33
3 1 2 2. 1

Berikut adalah perhitungan dari perwakilan cluster dari tiga item yang termasuk dalam cluster yang sama. Perwakilan cluster adalah vektor dari tiga atribut. Atributnya adalah rata-rata atribut dari item dalam cluster yang bersangkutan.

Item Fitur # 1 Ketik Fitur # 2 Warna Fitur # 3 Berat (Ounce)
1 1 2 5. 33
2 2 3 9. 33
3 1 2 2. 1
Cluster Representative (Centroid Vector) (1 + 2 + 1) / 3 = 1. 33 (2 + 3 + 2) / 3 = 2. 33 (5. 33 + 9. 33 +32. 1) / 3 = 3

Dataset yang ditunjukkan selanjutnya terdiri dari tujuh penilaian pelanggan terhadap dua produk, A dan B. Peringkat tersebut mewakili jumlah titik antara 0 dan 10) bahwa setiap pelanggan telah memberikan produk - semakin banyak poin yang diberikan, semakin tinggi peringkat produk.

Dengan menggunakan algoritma K-means dan mengasumsikan bahwa k sama dengan 2, kumpulan data akan dipartisi menjadi dua kelompok. Sisa prosedur terlihat seperti ini:

  1. Pilih dua item acak dari dataset dan beri label sebagai perwakilan cluster.

    Berikut ini adalah langkah awal pemilihan centroid acak dari mana proses pengelompokan K-means dimulai.Centroid awal dipilih secara acak dari data yang akan Anda analisis. Dalam kasus ini, Anda mencari dua kelompok, jadi dua item data dipilih secara acak: Pelanggan 1 dan 5.

    Pada awalnya, proses pengelompokan membangun dua cluster di sekitar dua perwakilan cluster awal (yang dipilih secara acak). Kemudian perwakilan cluster dihitung ulang; Perhitungannya didasarkan pada item pada masing-masing cluster.

    Nomor Pelanggan Penilaian Pelanggan Produk A Penilaian Pelanggan Produk B
    1 2 2
    2 3 4
    3 < 6 8 4
    7 10 5
    10 14 6
    9 10 7
    7 9 Periksa setiap barang lain (pelanggan) dan tetapkan ke perwakilan cluster yang paling mirip.
  2. Gunakan

    jarak Euclidean untuk menghitung seberapa mirip item dengan sekelompok item: Kesamaan Item I dengan Cluster X = sqrt {{{left {{{f_1} - {x_1 }} kanan)} ^ 2} + {{left {{f_2} - {x_2}} kanan)} ^ 2} + cdots + {{left {{f_n} - {x_n}} kanan}} ^ 2} }

    Nilai {f_1},; {f_2},; ldot,; {f_n} adalah nilai numerik dari fitur yang menggambarkan item yang dimaksud. Nilai {x_1},; {x_2},; ldot,; {x_n} adalah fitur (nilai rata-rata) dari perwakilan cluster (centroid), dengan asumsi setiap item memiliki fitur

    n . Misalnya, pertimbangkan item yang disebut Pelanggan 2 (3, 4): Peringkat pelanggan untuk Produk A adalah 3 dan peringkat untuk Produk B adalah 4. Fitur perwakilan cluster adalah (2, 2). Kesamaan Pelanggan 2 dengan Cluster 1 dihitung sebagai berikut:

    Kesamaan Item 2 dengan Cluster 1 = sqrt {{{left {{left}} {2} + {{left {{4 - 2} } right)} ^ 2}} = 2. 23

    Inilah tampilan proses yang sama dengan Cluster 2:

    Kesamaan Item 2 dengan Cluster 2 = sqrt {{left {{3 - 10} kanan) } ^ 2} + {{left ({4 - 14} kanan)} ^ 2}} = 12. 20

    Membandingkan hasil ini, Anda menetapkan Item 2 (yaitu, Pelanggan 2) ke Cluster 1 karena angka tersebut mengatakan Item 2 lebih mirip dengan Cluster 1.

    Terapkan analisis kesamaan yang sama dengan setiap item lainnya dalam dataset.

  3. Setiap kali anggota baru bergabung dengan sebuah cluster, Anda harus menghitung ulang perwakilan cluster.

    Ini menggambarkan hasil dari iterasi pertama algoritma K-mean. Perhatikan bahwa

    k sama dengan 2, jadi Anda mencari dua kelompok, yang membagi satu set pelanggan menjadi dua kelompok yang bermakna. Setiap pelanggan dianalisis secara terpisah dan ditugaskan ke salah satu kelompok berdasarkan kemiripan pelanggan dengan masing-masing perwakilan cluster saat ini. Iterate dataset lagi, melalui setiap elemen; hitung kesamaan antara masing-masing elemen dan perwakilan clusternya saat ini.

  4. Perhatikan bahwa Pelanggan 3 telah pindah dari Cluster 1 ke Cluster 2. Hal ini karena jarak Pelanggan 3 ke cluster cluster Cluster 2 lebih dekat daripada perwakilan cluster Cluster 1. Perwakilan 9999 Cluster (Centroid Vector)

    Cluster 1

    Nomor Pelanggan # 1 (2, 2)
    Klaster 2 Nomor Pelanggan # 5 (10, 14)
    Iterasi # 1 Klaster Pelanggan 1
    Cluster Pelanggan 2 Pelanggan yang akan diperiksa Nomor Pelanggan milik Cluster 1
    Perwakilan Klaster Nomor Pelanggan milik Cluster 1 Perwakilan Klaster 1 (2, 2) > 5
    (10, 14) 2 1, 2 (2.4, 3)
    5 (10, 14) 3 1, 2, 3 (ayat 6, 4. 6)
    5 (10, 14) 4 1, 2, 3 (ayat 6, 4. 6)
    4, 5 (8.4, 12) 6 1, 2, 3 (ayat 6, 4. 6)
    4, 5, 6 (8.6, 11. 4) 7 1, 2, 3 > (3, 6, 4. 6) 4, 5, 6, 7
    (8.2, 10. 8) Berikut adalah iterasi kedua algoritma K-means pada data pelanggan. Setiap pelanggan sedang dianalisis ulang. Pelanggan 2 ditugaskan ke Cluster 1 karena Pelanggan 2 lebih dekat dengan perwakilan Cluster 1 daripada Cluster 2. Skenario yang sama berlaku untuk Pelanggan 4. Perhatikan bahwa perwakilan cluster sedang dihitung ulang setiap kali anggota baru ditugaskan ke cluster. Iterasi # 2 Klaster Pelanggan 1 Customer Cluster 2

Pelanggan yang akan diperiksa

Bagaimana Menggunakan Algoritma Cluster K-means dalam Analisis Prediktif - dummies

Pilihan Editor

Perancang Minigame Minigame - dummies

Perancang Minigame Minigame - dummies

Sebelum menulis semua kode untuk membuat Minecraft Minigame, Anda perlu merancang permainan Anda. The Gameplay Loop adalah proses sederhana yang bisa Anda ikuti untuk memastikan permainan Anda menyenangkan, menantang, dan lengkap. The Gameplay Loop memiliki empat bagian: Start: Buat adegan dasar. Tujuan: Menambahkan cara untuk menang dan ...

Menciptakan Efek Air dan Es di Minecraft - dummies

Menciptakan Efek Air dan Es di Minecraft - dummies

Satu hal yang rapi tentang Minecraft adalah bahwa beberapa fisika realistis sedang dimainkan dalam permainan. Misalnya, jika Anda memiliki air dan Anda memasukkan es ke dalamnya, itu akan membeku! Oke, mungkin di dunia nyata, menambahkan es tidak membuat air membeku, tapi memang membuatnya lebih dingin. Anda dapat melihat ini ...

Mendapatkan Minecraft Experience Points - dummies

Mendapatkan Minecraft Experience Points - dummies

Di Minecraft, experience points, XP untuk jangka pendek, dikumpulkan dari bola pengalaman bercahaya. Sebagai pemain mengumpulkan cukup bola dan meningkatkan tingkat pengalaman mereka, mereka akan dapat menggunakan tabel dan landasan yang mempesona untuk meningkatkan kemampuan banyak item seperti senjata, baju besi, dan peralatan. Jadi, bagaimana Anda bisa cepat mendapatkan ini ...

Pilihan Editor

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Infomasi editorial sama dengan artikel berita karena tujuan utamanya adalah untuk mengirimkan informasi. Di bawah payung grafis editorial, ada beberapa tipe yang berbeda, dengan keseimbangan bias dan objektivitas yang berbeda. Berikut adalah beberapa melihat: Badai salju menghantam kota Anda. Koran lokal menciptakan grafik yang menunjukkan hujan salju ...

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bahkan di dunia kabel ini, seniman masih suka sketsa Kabar baik! Sketsa kasar Anda dapat dengan mudah digunakan dalam draf infografis Anda. Anda dapat memindai sketsa atau mengambil gambar sketsa Anda dengan telepon Anda dan mengirim e-mail ke komputer Anda sendiri. Mereka tidak perlu diwarnai, cukup jelas bagi Anda untuk ...

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Infografis yang baik (jelas) harus mencakup seni yang bagus. Ilustrasi mempromosikan alur cerita, menentukan elemen secara visual, dan mencerahkan halaman yang mungkin diisi dengan tipe abu-abu. Ilustrasi bisa berupa gambar fisik, semacam bagan atau grafik, atau bahkan garis waktu. Kehidupan sehari-hari Anda dipenuhi dengan contoh bagaimana ilustrasi ...

Pilihan Editor

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

Tentang Penalaran Melalui bagian Seni Bahasa GED, Anda mungkin diminta untuk menjawab pertanyaan tentang bagian teknis. Ini bisa termasuk petunjuk cara melengkapi, seperti berikut. Pertanyaan dalam artikel ini mengacu pada kutipan berikut dari Russell Hart's Photography For Dummies, 2nd Edition (Wiley). Apa Rahasia Untuk ...

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

Di beberapa titik selama bagian Ilmu Pengetahuan dari Tes GEE, Anda akan diminta untuk membuat jawaban singkat. Anda akan diberi sebuah bagian dan mengajukan pertanyaan yang perlu Anda tanggapi. Buat respons Anda jelas dan ringkas. Bagian Jawaban Jawaban Semua orang mengenal keju cheddar. Orang-orang meletakkan ...

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

Di bagian Ilmu Sosial GED, Anda mungkin diminta untuk menjawab pertanyaan tentang berbagai bentuk media, termasuk siaran berita. Lihatlah contoh berikut di bawah ini. Pertanyaan dalam artikel ini mengacu pada siaran berita berikut. Berita Lingkungan Dunia Selamat malam dan selamat datang di World Environmental News. Cerita kami ini ...

Nomor Pelanggan milik Cluster 1 Perwakilan Klaster Nomor Pelanggan milik Cluster 2 > Perwakilan Klaster
1 1 (ayat 6, 4. 6) 5 (8.2, 10. 8)
2 1, 2 < (5, 2, 3) 5 (8.2, 10. 8) 3
1, 2 (5, 2, 3) 5, 3 (7, 8, 10. 2) 4
1, 2 (5, 2, 3) 4, 5. 3 (ayat 8, 10 2) 6
1, 2 (5, 2, 3) 4, 5, 6. 3 (ayat 8, 10. 2) 7 < 1, 2
(5, 2, 3) 3, 4, 5, 6, 7 (ayat 8, 10. 2)