Rumah Keuangan Pribadi Algoritma klasifikasi yang digunakan dalam algoritma data

Algoritma klasifikasi yang digunakan dalam algoritma data

Video: Belajar Data Mining - Algoritma KNN 2024

Video: Belajar Data Mining - Algoritma KNN 2024
Anonim

Dengan algoritma klasifikasi, Anda mengambil kumpulan data dan data yang ada. gunakan apa yang Anda ketahui tentang hal itu untuk menghasilkan model prediktif untuk digunakan dalam klasifikasi titik data di masa mendatang. Jika tujuan Anda adalah menggunakan dataset dan subset yang diketahui untuk membuat model untuk memprediksi kategorisasi titik data di masa mendatang, Anda pasti ingin menggunakan algoritma klasifikasi.

Saat menerapkan klasifikasi yang diawasi, Anda seharusnya sudah mengetahui subset data Anda - subset ini disebut kategori . Klasifikasi membantu Anda melihat seberapa baik data Anda sesuai dengan kategori dataset yang telah ditentukan sehingga Anda kemudian dapat membangun model prediktif untuk digunakan dalam mengklasifikasikan poin data di masa mendatang.

Angka tersebut menggambarkan bagaimana tampilannya untuk mengklasifikasikan dataset Pendapatan dan Pendidikan Bank Dunia sesuai dengan kategori Benua.

Anda dapat melihat bahwa, dalam beberapa kasus, himpunan bagian yang mungkin Anda identifikasi dengan teknik pengelompokan memang sesuai dengan kategori benua, namun dalam kasus lain, tidak demikian. Misalnya, lihatlah satu negara Asia di tengah titik data Afrika. Itu Bhutan. Anda bisa menggunakan data dalam dataset ini untuk membangun model yang akan memprediksi kategori benua untuk data poin yang masuk.

Tetapi jika Anda memperkenalkan titik data untuk sebuah negara baru yang menunjukkan statistik yang serupa dengan Bhutan, maka negara baru dapat dikategorikan sebagai bagian dari benua Asia atau benua Afrika, tergantung tentang bagaimana Anda mendefinisikan model Anda.

Sekarang bayangkan situasi di mana data asli Anda tidak termasuk Bhutan, dan Anda menggunakan model ini untuk memprediksi benua Bhutan sebagai titik data baru. Dalam skenario ini, model tersebut akan salah memprediksi bahwa Bhutan adalah bagian dari benua Afrika.

Ini adalah contoh model overfitting - situasi di mana model sangat sesuai dengan dataset dasarnya, serta kesalahan noise atau acak yang melekat pada kumpulan data tersebut, bahwa model berperforma buruk sebagai prediktor untuk titik data baru.

Untuk menghindari overfitting model Anda, bagilah data Anda ke dalam set pelatihan dan satu set tes. Rasio tipikal adalah menetapkan 80 persen data ke dalam rangkaian pelatihan dan sisanya 20 persen ke dalam rangkaian tes. Bangun model Anda dengan set pelatihan, dan kemudian gunakan set tes untuk mengevaluasi model dengan berpura-pura bahwa titik data uji tidak diketahui. Anda dapat mengevaluasi keakuratan model Anda dengan membandingkan kategori yang ditetapkan pada titik data uji ini oleh model ke kategori sebenarnya.

Model overgeneralization juga bisa menjadi masalah. Overgenerialisasi adalah kebalikan dari overfitting: Itu terjadi ketika seorang ilmuwan data mencoba untuk menghindari --menglasifikasi karena terlalu banyak cara untuk membuat model yang sangat umum. Model yang terlalu umum akhirnya menetapkan setiap kategori dengan tingkat kepercayaan rendah.

Untuk mengilustrasikan overgenerialisasi model, pertimbangkan kembali dataset Pendapatan dan Pendidikan Bank Dunia. Jika model tersebut menggunakan kehadiran Bhutan untuk meragukan setiap titik data baru di sekitar tempat terdekatnya, maka Anda akan memiliki model berpacaran yang memperlakukan semua titik di dekatnya sebagai Afrika namun dengan probabilitas rendah. Model ini akan menjadi pemain prediktor yang buruk.

Metafora yang bagus untuk overfitting dan overgeneralization dapat diilustrasikan melalui ungkapan yang terkenal, "Jika berjalan seperti bebek dan berbicara seperti bebek, maka itu adalah bebek. "Overfitting akan mengubah frase ini menjadi," Ini adalah bebek jika, dan hanya jika, ia berjalan dan dukun persis seperti yang saya pribadi telah mengamati seekor bebek untuk berjalan dan dukun. Karena saya tidak pernah melihat bagaimana seekor bebek melihat Australia berjalan dan dukun, seekor bebek Australia terlihat tidak boleh benar-benar bebek sama sekali. Sebaliknya, overgenerialisasi akan mengatakan, "Jika bergerak di sekitar dua kaki dan memancarkan suara nasal bernada tinggi, ini adalah bebek. Oleh karena itu, Fran Fine, karakter Fran Drescher di sitkom Amerika tahun 90-an

Nanny pasti seekor bebek. " Pengajaran mesin yang diawasi

- istilah mewah untuk klasifikasi - sesuai dalam situasi di mana karakteristik berikut ini benar: Anda mengetahui dan memahami dataset yang Anda analisis.

  • Subset (kategori) kumpulan data Anda ditentukan lebih dulu dan tidak ditentukan oleh data.

  • Anda ingin membuat model yang menghubungkan data dalam kategori yang telah ditentukan sehingga model dapat membantu memprediksi kategorisasi titik data di masa mendatang.

  • Saat melakukan klasifikasi, ingat hal-hal berikut ini:

Prediksi model hanya sama baiknya dengan data dasar model.

  • Dalam contoh data Bank Dunia, bisa jadi, jika faktor lain seperti harapan hidup atau penggunaan energi per kapita ditambahkan ke model, kekuatan prediktifnya akan meningkat. Prediksi model hanya sama baiknya dengan kategorisasi dataset yang mendasarinya.

  • Misalnya, apa yang Anda lakukan dengan negara-negara seperti Rusia yang memiliki dua benua? Apakah Anda membedakan Afrika Utara dari Afrika sub-Sahara? Apakah Anda menggigit Amerika Utara dengan Eropa karena mereka cenderung memiliki atribut serupa? Apakah Anda menganggap Amerika Tengah sebagai bagian dari Amerika Utara atau Amerika Selatan? Ada bahaya terus-menerus overfitting dan overgeneralization. Media bahagia harus ditemukan di antara keduanya.

Algoritma klasifikasi yang digunakan dalam algoritma data

Pilihan Editor

Mengedit gambar di Dreamweaver MX 2004 - dummies

Mengedit gambar di Dreamweaver MX 2004 - dummies

Fitur baru di Dreamweaver memungkinkan Anda membuat pengeditan gambar kecil di dalam Dreamweaver, tanpa membuka Fireworks atau program editing grafis lainnya. Alat ini tersedia dari inspektur Properti, saat gambar dipilih. Anda juga menemukan dua tombol yang memungkinkan Anda menggunakan Macromedia Fireworks untuk mengedit gambar. Tombol Edit meluncurkan Fireworks dan ...

Hyperlink eksternal di Adobe CS5 Dreamweaver - dummies

Hyperlink eksternal di Adobe CS5 Dreamweaver - dummies

Anda dapat menautkan halaman Dreamweaver Adobe Creative Suite 5 Anda (Adobe CS5) dimanapun, di situs Anda atau di luar situs Anda. Dreamweaver juga memiliki alat untuk memverifikasi dan memperbaiki tautan rusak eksternal. Saat mengarahkan orang ke laman kontak yang diposkan di situs lain, Anda memiliki tautan yang terlihat seperti ini: http: // www. aku. com / kontak Dengan mengetikkan ...

Menjelajahi Antarmuka New Dreamweaver MX 2004 - dummies

Menjelajahi Antarmuka New Dreamweaver MX 2004 - dummies

Dengan Dreamweaver MX, Macromedia integrated ColdFusion dan HomeSite menjadi satu single , antarmuka yang kuat, meskipun Anda memiliki pilihan untuk bekerja dengan antarmuka baru tersebut atau dengan antarmuka Dreamweaver 4 yang lama (atau, dalam bahasa Macromedia, ruang kerja). Dengan Dreamweaver MX 2004, Macromedia menurunkan ruang kerja Dreamweaver 4 dan memungkinkan Anda memilih hanya dua versi ...

Pilihan Editor

Bagaimana cara melawan dengan adil dalam pernikahan - dummies

Bagaimana cara melawan dengan adil dalam pernikahan - dummies

Menerima bahwa Anda dan pasangan Anda akan berdebat dapat membantu memperkuat pernikahan , tapi hanya jika Anda memiliki kemampuan untuk bertarung dengan adil. Jika muncul perkawinan, gunakan alat ini untuk membantu menyelesaikan konflik secara adil dan konstruktif: Jelaskan dengan jelas apa yang Anda inginkan. Tetap berpegang pada masalah yang ada. Do ...

Bagaimana mengatasi perbedaan uang perkawinan - dummies

Bagaimana mengatasi perbedaan uang perkawinan - dummies

Uang adalah penyebab reguler masalah perkawinan. Kenali bagaimana sikap Anda tentang uang mempengaruhi pernikahan Anda dan gunakan tip berikut untuk membantu mengatasi perbedaan uang Anda: Duduklah bersama pasangan Anda dan bicarakan bagaimana masing-masing keluarga asal Anda berurusan dengan uang. Bicara tentang efek yang mungkin dialami oleh masa lalu ...

Pilihan Editor

Yang Harus Anda Ketahui tentang Ukuran Kode Java Anda - dummies

Yang Harus Anda Ketahui tentang Ukuran Kode Java Anda - dummies

Saat Anda sedang coding Di Jawa, Anda ingin mempertimbangkan ukuran sebenarnya dari kode Anda. Mari kita lihat sebuah contoh. Tapi pertama-tama. Inilah kata kosa kata baru hari ini: foregift (fore-gift) n. Premi yang diberikan lessee kepada lessor saat mengambil sewa. sebelum ini (di sini-di-depan) adv. Pada bagian sebelumnya ...

Kelas matematika dan kelas NumberFormat - kelas induk

Kelas matematika dan kelas NumberFormat - kelas induk

Meletakkan fondasi untuk program Anda. Kelas Java Math dan NumberFormat memungkinkan Anda memprogram nilai nilai, serta format angka dan mata uang. Metode Kelas Matematika Deskripsi num abs (num y); Nilai absolut y (num bisa berupa tipe data numerik) num max (num y, num z); Maksimum y dan z ...

Membuat Dokumentasi API API - dummies

Membuat Dokumentasi API API - dummies

Kadang-kadang, orang menilai bahasa pemrograman (termasuk Jawa) semata-mata dengan fitur gramatikal mereka. Apakah pernyataan jika melakukan apa yang Anda harapkan? Apakah pernyataan perulangan mudah digunakan? Apakah metode diterapkan secara efisien? Saat ini, situasinya sedikit berbeda. Java memiliki keseluruhan koleksi fitur gramatikal, tapi Java lebih banyak lagi ...