Algoritma klasifikasi yang digunakan dalam algoritma data

Dengan algoritma klasifikasi, Anda mengambil kumpulan data dan data yang ada. gunakan apa yang Anda ketahui tentang hal itu untuk menghasilkan model prediktif untuk digunakan dalam klasifikasi titik data di masa mendatang. Jika tujuan Anda adalah menggunakan dataset dan subset yang diketahui untuk membuat model untuk memprediksi kategorisasi titik data di masa mendatang, Anda pasti ingin menggunakan algoritma klasifikasi.

Saat menerapkan klasifikasi yang diawasi, Anda seharusnya sudah mengetahui subset data Anda - subset ini disebut kategori . Klasifikasi membantu Anda melihat seberapa baik data Anda sesuai dengan kategori dataset yang telah ditentukan sehingga Anda kemudian dapat membangun model prediktif untuk digunakan dalam mengklasifikasikan poin data di masa mendatang.

Angka tersebut menggambarkan bagaimana tampilannya untuk mengklasifikasikan dataset Pendapatan dan Pendidikan Bank Dunia sesuai dengan kategori Benua.

Anda dapat melihat bahwa, dalam beberapa kasus, himpunan bagian yang mungkin Anda identifikasi dengan teknik pengelompokan memang sesuai dengan kategori benua, namun dalam kasus lain, tidak demikian. Misalnya, lihatlah satu negara Asia di tengah titik data Afrika. Itu Bhutan. Anda bisa menggunakan data dalam dataset ini untuk membangun model yang akan memprediksi kategori benua untuk data poin yang masuk.

Tetapi jika Anda memperkenalkan titik data untuk sebuah negara baru yang menunjukkan statistik yang serupa dengan Bhutan, maka negara baru dapat dikategorikan sebagai bagian dari benua Asia atau benua Afrika, tergantung tentang bagaimana Anda mendefinisikan model Anda.

Sekarang bayangkan situasi di mana data asli Anda tidak termasuk Bhutan, dan Anda menggunakan model ini untuk memprediksi benua Bhutan sebagai titik data baru. Dalam skenario ini, model tersebut akan salah memprediksi bahwa Bhutan adalah bagian dari benua Afrika.

Ini adalah contoh model overfitting - situasi di mana model sangat sesuai dengan dataset dasarnya, serta kesalahan noise atau acak yang melekat pada kumpulan data tersebut, bahwa model berperforma buruk sebagai prediktor untuk titik data baru.

Untuk menghindari overfitting model Anda, bagilah data Anda ke dalam set pelatihan dan satu set tes. Rasio tipikal adalah menetapkan 80 persen data ke dalam rangkaian pelatihan dan sisanya 20 persen ke dalam rangkaian tes. Bangun model Anda dengan set pelatihan, dan kemudian gunakan set tes untuk mengevaluasi model dengan berpura-pura bahwa titik data uji tidak diketahui. Anda dapat mengevaluasi keakuratan model Anda dengan membandingkan kategori yang ditetapkan pada titik data uji ini oleh model ke kategori sebenarnya.

Model overgeneralization juga bisa menjadi masalah. Overgenerialisasi adalah kebalikan dari overfitting: Itu terjadi ketika seorang ilmuwan data mencoba untuk menghindari --menglasifikasi karena terlalu banyak cara untuk membuat model yang sangat umum. Model yang terlalu umum akhirnya menetapkan setiap kategori dengan tingkat kepercayaan rendah.

Untuk mengilustrasikan overgenerialisasi model, pertimbangkan kembali dataset Pendapatan dan Pendidikan Bank Dunia. Jika model tersebut menggunakan kehadiran Bhutan untuk meragukan setiap titik data baru di sekitar tempat terdekatnya, maka Anda akan memiliki model berpacaran yang memperlakukan semua titik di dekatnya sebagai Afrika namun dengan probabilitas rendah. Model ini akan menjadi pemain prediktor yang buruk.

Metafora yang bagus untuk overfitting dan overgeneralization dapat diilustrasikan melalui ungkapan yang terkenal, "Jika berjalan seperti bebek dan berbicara seperti bebek, maka itu adalah bebek. "Overfitting akan mengubah frase ini menjadi," Ini adalah bebek jika, dan hanya jika, ia berjalan dan dukun persis seperti yang saya pribadi telah mengamati seekor bebek untuk berjalan dan dukun. Karena saya tidak pernah melihat bagaimana seekor bebek melihat Australia berjalan dan dukun, seekor bebek Australia terlihat tidak boleh benar-benar bebek sama sekali. Sebaliknya, overgenerialisasi akan mengatakan, "Jika bergerak di sekitar dua kaki dan memancarkan suara nasal bernada tinggi, ini adalah bebek. Oleh karena itu, Fran Fine, karakter Fran Drescher di sitkom Amerika tahun 90-an

Nanny pasti seekor bebek. " Pengajaran mesin yang diawasi

- istilah mewah untuk klasifikasi - sesuai dalam situasi di mana karakteristik berikut ini benar: Anda mengetahui dan memahami dataset yang Anda analisis.

Subset (kategori) kumpulan data Anda ditentukan lebih dulu dan tidak ditentukan oleh data.
Anda ingin membuat model yang menghubungkan data dalam kategori yang telah ditentukan sehingga model dapat membantu memprediksi kategorisasi titik data di masa mendatang.
Saat melakukan klasifikasi, ingat hal-hal berikut ini:

Prediksi model hanya sama baiknya dengan data dasar model.

Dalam contoh data Bank Dunia, bisa jadi, jika faktor lain seperti harapan hidup atau penggunaan energi per kapita ditambahkan ke model, kekuatan prediktifnya akan meningkat. Prediksi model hanya sama baiknya dengan kategorisasi dataset yang mendasarinya.
Misalnya, apa yang Anda lakukan dengan negara-negara seperti Rusia yang memiliki dua benua? Apakah Anda membedakan Afrika Utara dari Afrika sub-Sahara? Apakah Anda menggigit Amerika Utara dengan Eropa karena mereka cenderung memiliki atribut serupa? Apakah Anda menganggap Amerika Tengah sebagai bagian dari Amerika Utara atau Amerika Selatan? Ada bahaya terus-menerus overfitting dan overgeneralization. Media bahagia harus ditemukan di antara keduanya.