Video: APLIKASI PENGELOMPOKAN DATA INDIKATOR KESEJAHTERAAN RAKYAT DENGAN METODE FUZZY C-MEANS CLUSTERING 2024
Anda menggunakan algoritma pengelompokan untuk membagi-bagikan dataset Anda ke dalam kumpulan titik data yang paling mirip dengan atribut yang telah ditentukan. Jika Anda memiliki kumpulan data yang menjelaskan beberapa atribut tentang fitur tertentu dan ingin mengelompokkan poin data Anda sesuai dengan kesamaan atribut mereka, gunakan algoritma pengelompokan.
Kumpulan kumpulan data pendapatan dan pendapatan Negara menghasilkan bagan yang Anda lihat di sini.
Dalam clustering tanpa pengawasan, Anda memulai dengan data ini dan kemudian melanjutkan untuk membaginya menjadi himpunan bagian. Subset ini disebut cluster dan terdiri dari titik data yang paling mirip satu sama lain. Tampaknya setidaknya ada dua kelompok, mungkin tiga satu di bawah dengan pendapatan rendah dan pendidikan, dan kemudian negara-negara pendidikan tinggi sepertinya terbagi antara pendapatan rendah dan tinggi.
Gambar berikut menunjukkan hasil eyeballing - membuat perkiraan visual - kelompok dalam dataset ini.
Meskipun Anda dapat menghasilkan perkiraan pengelompokan visual, Anda dapat memperoleh hasil yang jauh lebih akurat saat berhadapan dengan kumpulan data yang jauh lebih besar dengan menggunakan algoritme untuk menghasilkan rangkaian untuk Anda. Perkiraan visual adalah metode kasar yang hanya berguna pada dataset kecil dengan kompleksitas minimal. Algoritma - menghasilkan hasil yang tepat dan berulang, dan Anda dapat menggunakan algoritme untuk menghasilkan pengelompokkan untuk beberapa dimensi data dalam kumpulan data Anda.
Algoritma Clustering adalah satu jenis pendekatan dalam pembelajaran mesin tanpa pengawasan - pendekatan lainnya mencakup metode Markov dan metode untuk pengurangan dimensi. Algoritma Clustering sesuai pada situasi di mana karakteristik berikut ini benar:
-
Anda mengetahui dan memahami dataset yang sedang Anda analisis.
-
Sebelum menjalankan algoritma pengelompokan, Anda tidak memiliki gagasan yang pasti mengenai sifat subset (cluster). Seringkali, Anda bahkan tidak akan tahu berapa banyak himpunan bagian yang ada dalam kumpulan data sebelum menjalankan algoritme.
-
Subset (cluster) ditentukan hanya oleh satu kumpulan data yang Anda analisis.
-
Tujuan Anda adalah menentukan model yang menggambarkan himpunan bagian dalam kumpulan data tunggal dan hanya kumpulan data ini.
Jika Anda menambahkan lebih banyak data, Anda harus menjalankan kembali analisis dari awal untuk mendapatkan hasil model yang lengkap dan akurat.