Mencari Klasifikasi oleh Tetes K-terdekat untuk Pembelajaran Mesin - dummies

Video: Belajar Data Mining - Algoritma KNN 2024

Tidak masalah jika masalah belajar mesin adalah menebak angka atau kelas, Ide dibalik strategi pembelajaran algoritma k-Nearest Neighbors (kNN) selalu sama. Algoritma menemukan pengamatan yang paling mirip dengan yang harus diprediksi dan dari situ Anda mendapatkan intuisi yang bagus tentang jawaban yang mungkin dengan merata-ratakan nilai tetangga, atau dengan memilih kelas jawaban yang paling sering di antara mereka.

Strategi pembelajaran di kNN lebih seperti menghafal. Ini seperti mengingat jawabannya jika pertanyaannya memiliki karakteristik tertentu (berdasarkan keadaan atau contoh masa lalu) daripada benar-benar mengetahui jawabannya, karena Anda memahami pertanyaan itu dengan menggunakan aturan klasifikasi tertentu. Dalam arti tertentu, kNN sering didefinisikan sebagai algoritma malas karena tidak ada pembelajaran nyata yang dilakukan pada saat pelatihan, hanya rekaman data.

Menjadi algoritma yang malas menyiratkan bahwa kNN cukup cepat dalam latihan namun sangat lambat dalam memprediksi. (Sebagian besar aktivitas pencarian dan perhitungan pada tetangga dilakukan pada saat itu.) Ini juga menyiratkan bahwa algoritma ini cukup memori-intensif karena Anda harus menyimpan data Anda di memori (yang berarti ada batasan untuk kemungkinan aplikasi saat berurusan dengan data besar). Idealnya, kNN dapat membuat perbedaan saat Anda mengerjakan klasifikasi dan Anda memiliki banyak label untuk ditangani (misalnya, ketika agen perangkat lunak mengeposkan tag pada jaringan sosial atau saat mengajukan rekomendasi penjualan). kNN dapat dengan mudah menangani ratusan label, sedangkan algoritma pembelajaran lainnya harus menentukan model yang berbeda untuk setiap label.

Biasanya, kNN mengerjakan tetangga observasi setelah menggunakan ukuran jarak seperti Euclidean (pilihan paling umum) atau Manhattan (bekerja lebih baik bila Anda memiliki banyak fitur berlebihan dalam data Anda). Tidak ada aturan mutlak mengenai ukuran jarak terbaik yang digunakan. Itu sangat tergantung pada implementasi yang anda punya. Anda juga harus menguji setiap jarak sebagai hipotesis dan verifikasi yang berbeda dengan validasi silang yang ukurannya bekerja lebih baik dengan masalah yang Anda selesaikan.