Rumah Keuangan Pribadi Algoritma klasifikasi yang digunakan dalam algoritma data

Algoritma klasifikasi yang digunakan dalam algoritma data

Video: Belajar Data Mining - Algoritma KNN 2024

Video: Belajar Data Mining - Algoritma KNN 2024
Anonim

Dengan algoritma klasifikasi, Anda mengambil kumpulan data dan data yang ada. gunakan apa yang Anda ketahui tentang hal itu untuk menghasilkan model prediktif untuk digunakan dalam klasifikasi titik data di masa mendatang. Jika tujuan Anda adalah menggunakan dataset dan subset yang diketahui untuk membuat model untuk memprediksi kategorisasi titik data di masa mendatang, Anda pasti ingin menggunakan algoritma klasifikasi.

Saat menerapkan klasifikasi yang diawasi, Anda seharusnya sudah mengetahui subset data Anda - subset ini disebut kategori . Klasifikasi membantu Anda melihat seberapa baik data Anda sesuai dengan kategori dataset yang telah ditentukan sehingga Anda kemudian dapat membangun model prediktif untuk digunakan dalam mengklasifikasikan poin data di masa mendatang.

Angka tersebut menggambarkan bagaimana tampilannya untuk mengklasifikasikan dataset Pendapatan dan Pendidikan Bank Dunia sesuai dengan kategori Benua.

Anda dapat melihat bahwa, dalam beberapa kasus, himpunan bagian yang mungkin Anda identifikasi dengan teknik pengelompokan memang sesuai dengan kategori benua, namun dalam kasus lain, tidak demikian. Misalnya, lihatlah satu negara Asia di tengah titik data Afrika. Itu Bhutan. Anda bisa menggunakan data dalam dataset ini untuk membangun model yang akan memprediksi kategori benua untuk data poin yang masuk.

Tetapi jika Anda memperkenalkan titik data untuk sebuah negara baru yang menunjukkan statistik yang serupa dengan Bhutan, maka negara baru dapat dikategorikan sebagai bagian dari benua Asia atau benua Afrika, tergantung tentang bagaimana Anda mendefinisikan model Anda.

Sekarang bayangkan situasi di mana data asli Anda tidak termasuk Bhutan, dan Anda menggunakan model ini untuk memprediksi benua Bhutan sebagai titik data baru. Dalam skenario ini, model tersebut akan salah memprediksi bahwa Bhutan adalah bagian dari benua Afrika.

Ini adalah contoh model overfitting - situasi di mana model sangat sesuai dengan dataset dasarnya, serta kesalahan noise atau acak yang melekat pada kumpulan data tersebut, bahwa model berperforma buruk sebagai prediktor untuk titik data baru.

Untuk menghindari overfitting model Anda, bagilah data Anda ke dalam set pelatihan dan satu set tes. Rasio tipikal adalah menetapkan 80 persen data ke dalam rangkaian pelatihan dan sisanya 20 persen ke dalam rangkaian tes. Bangun model Anda dengan set pelatihan, dan kemudian gunakan set tes untuk mengevaluasi model dengan berpura-pura bahwa titik data uji tidak diketahui. Anda dapat mengevaluasi keakuratan model Anda dengan membandingkan kategori yang ditetapkan pada titik data uji ini oleh model ke kategori sebenarnya.

Model overgeneralization juga bisa menjadi masalah. Overgenerialisasi adalah kebalikan dari overfitting: Itu terjadi ketika seorang ilmuwan data mencoba untuk menghindari --menglasifikasi karena terlalu banyak cara untuk membuat model yang sangat umum. Model yang terlalu umum akhirnya menetapkan setiap kategori dengan tingkat kepercayaan rendah.

Untuk mengilustrasikan overgenerialisasi model, pertimbangkan kembali dataset Pendapatan dan Pendidikan Bank Dunia. Jika model tersebut menggunakan kehadiran Bhutan untuk meragukan setiap titik data baru di sekitar tempat terdekatnya, maka Anda akan memiliki model berpacaran yang memperlakukan semua titik di dekatnya sebagai Afrika namun dengan probabilitas rendah. Model ini akan menjadi pemain prediktor yang buruk.

Metafora yang bagus untuk overfitting dan overgeneralization dapat diilustrasikan melalui ungkapan yang terkenal, "Jika berjalan seperti bebek dan berbicara seperti bebek, maka itu adalah bebek. "Overfitting akan mengubah frase ini menjadi," Ini adalah bebek jika, dan hanya jika, ia berjalan dan dukun persis seperti yang saya pribadi telah mengamati seekor bebek untuk berjalan dan dukun. Karena saya tidak pernah melihat bagaimana seekor bebek melihat Australia berjalan dan dukun, seekor bebek Australia terlihat tidak boleh benar-benar bebek sama sekali. Sebaliknya, overgenerialisasi akan mengatakan, "Jika bergerak di sekitar dua kaki dan memancarkan suara nasal bernada tinggi, ini adalah bebek. Oleh karena itu, Fran Fine, karakter Fran Drescher di sitkom Amerika tahun 90-an

Nanny pasti seekor bebek. " Pengajaran mesin yang diawasi

- istilah mewah untuk klasifikasi - sesuai dalam situasi di mana karakteristik berikut ini benar: Anda mengetahui dan memahami dataset yang Anda analisis.

  • Subset (kategori) kumpulan data Anda ditentukan lebih dulu dan tidak ditentukan oleh data.

  • Anda ingin membuat model yang menghubungkan data dalam kategori yang telah ditentukan sehingga model dapat membantu memprediksi kategorisasi titik data di masa mendatang.

  • Saat melakukan klasifikasi, ingat hal-hal berikut ini:

Prediksi model hanya sama baiknya dengan data dasar model.

  • Dalam contoh data Bank Dunia, bisa jadi, jika faktor lain seperti harapan hidup atau penggunaan energi per kapita ditambahkan ke model, kekuatan prediktifnya akan meningkat. Prediksi model hanya sama baiknya dengan kategorisasi dataset yang mendasarinya.

  • Misalnya, apa yang Anda lakukan dengan negara-negara seperti Rusia yang memiliki dua benua? Apakah Anda membedakan Afrika Utara dari Afrika sub-Sahara? Apakah Anda menggigit Amerika Utara dengan Eropa karena mereka cenderung memiliki atribut serupa? Apakah Anda menganggap Amerika Tengah sebagai bagian dari Amerika Utara atau Amerika Selatan? Ada bahaya terus-menerus overfitting dan overgeneralization. Media bahagia harus ditemukan di antara keduanya.

Algoritma klasifikasi yang digunakan dalam algoritma data

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...