Daftar Isi:
Video: Penjelasan Singkat Tentang Server Pulsa 2024
Terkadang data mentah yang Anda dapatkan dari berbagai sumber tidak akan memiliki fitur yang dibutuhkan untuk melakukan tugas belajar mesin. Bila ini terjadi, Anda harus membuat fitur Anda sendiri untuk mendapatkan hasil yang diinginkan. Membuat fitur tidak berarti membuat data dari udara tipis. Anda membuat fitur baru dari data yang ada.
Memahami kebutuhan untuk membuat fitur
Salah satu batasan besar algoritma pembelajaran mesin adalah tidak mungkin menebak formula yang dapat menghubungkan tanggapan Anda dengan fitur yang Anda gunakan. Terkadang ketidakmampuan menebak ini terjadi karena Anda tidak bisa memetakan respons dengan menggunakan informasi yang Anda miliki (artinya Anda tidak memiliki informasi yang benar). Dalam kasus lain, informasi yang Anda berikan tidak membantu algoritma belajar dengan benar.
Misalnya, jika Anda memodelkan harga properti real estat, permukaan lahan cukup prediktif karena properti yang lebih besar cenderung lebih mahal. Tetapi jika bukan permukaan, Anda menyediakan algoritma pembelajaran mesin Anda dengan panjang sisi lahan (koordinat garis lintang dan bujur sudutnya), algoritme Anda mungkin tidak mengetahui apa yang harus dilakukan dengan informasi yang Anda berikan. Beberapa algoritma akan berhasil menemukan hubungan antara fitur, namun sebagian besar algoritma tidak akan berhasil.
Jawaban untuk masalah ini adalah pembuatan fitur. Ciptaan fitur adalah bagian dari pembelajaran mesin yang dianggap lebih bersifat seni daripada sains karena menyiratkan campur tangan manusia dalam mencampuradukkan fitur yang ada secara kreatif. Anda melakukan tugas ini dengan cara penambahan, pengurangan, perkalian, dan rasio untuk menghasilkan fitur turunan baru dengan daya prediksi lebih banyak daripada aslinya.
Mengetahui masalahnya dengan baik dan memikirkan bagaimana manusia bisa mengatasinya adalah bagian dari penciptaan fitur. Jadi, menghubungkan ke contoh sebelumnya, fakta bahwa permukaan tanah terhubung ke harga properti adalah pengetahuan umum. Jika permukaan hilang dari fitur Anda saat mencoba menebak nilai properti, Anda dapat memulihkan informasi semacam itu dari data yang ada - dan dengan demikian meningkatkan kinerja prediksi.
Terlepas dari apakah Anda mengandalkan akal sehat, pengetahuan umum, atau keahlian khusus, Anda dapat melakukan banyak hal untuk algoritma mesin Anda jika Anda pertama mengetahui informasi apa yang harus bekerja terbaik untuk masalah ini dan kemudian cobalah untuk memilikinya tersedia atau dapatkan dari antara fitur Anda.
Membuat fitur secara otomatis
Anda dapat membuat beberapa fitur baru secara otomatis.Salah satu cara untuk mencapai penciptaan fitur otomatis adalah dengan menggunakan ekspansi polinomial. Cara khusus tersedia untuk mencapai ekspansi polinomial sehingga Anda membuat fitur secara otomatis baik dalam R dan Python. Untuk saat ini, Anda perlu memahami konsep di balik ekspansi polinomial.
Dalam ekspansi polinomial, Anda secara otomatis membuat interaksi antara fitur sekaligus menciptakan kekuatan (misalnya, menghitung kuadrat fitur). Interaksi bergantung pada perkalian fitur. Membuat fitur baru dengan menggunakan perkalian membantu untuk melacak bagaimana fitur cenderung berperilaku secara keseluruhan. Oleh karena itu, ada baiknya untuk memetakan hubungan kompleks antara fitur Anda yang dapat memberi petunjuk pada situasi khusus.
Contoh bagus dari interaksi adalah suara yang dipancarkan dari mobil dan harga mobil. Konsumen tidak menghargai mobil berisik kecuali jika mereka membeli mobil sport, dalam hal ini suara mesin adalah nilai tambah yang mengingatkan pemilik mobil. Hal ini juga membuat para pengamat memperhatikan mobil yang keren, sehingga suara bising berperan besar dalam memamerkannya karena kebisingan tentu akan menarik perhatian orang lain. Di sisi lain, kebisingan saat mengendarai mobil keluarga tidak sekeren itu.
Dalam sebuah aplikasi pembelajaran mesin, dalam mencoba memprediksi tingkat preferensi untuk mobil tertentu, fitur seperti kebisingan dan harga mobil dapat diprediksi sendiri. Namun, mengalikan dua nilai dan menambahkannya ke kumpulan fitur dapat secara jelas mengisyaratkan algoritma pembelajaran yang menjadi targetnya adalah mobil sport (ketika Anda mengalikan tingkat kebisingan tinggi dengan harga tinggi).
Powers membantu dengan menciptakan hubungan nonlinier antara respon dan fitur, mengisyaratkan situasi tertentu.
Sebagai contoh lain, bayangkan Anda harus memperkirakan biaya tahunan seseorang. Usia adalah prediktor yang baik karena seiring bertambahnya usia dan dewasa, situasi kehidupan dan keluarga mereka juga berubah. Siswa mulai miskin tapi kemudian mencari pekerjaan dan bisa membangun keluarga. Dari sudut pandang umum, biaya cenderung tumbuh seperti usia sampai titik tertentu. Pensiun biasanya menandai titik di mana biaya cenderung berkurang. Umur mengandung informasi seperti itu, tapi itu adalah fitur yang cenderung tumbuh, dan menghubungkan biaya dengan pertumbuhannya tidak membantu untuk menggambarkan inversi yang terjadi pada usia tertentu.
Menambahkan fitur kuadrat membantu menciptakan efek balasan terhadap usia itu sendiri, yang kecil di awal tapi tumbuh dengan cepat seiring bertambahnya usia. Efek akhirnya adalah parabola, dengan pertumbuhan awal yang ditandai dengan puncak biaya pada usia tertentu, dan kemudian terjadi penurunan.
Seperti yang telah disebutkan di atas, dengan mengetahui terlebih dahulu dinamika seperti itu (kebisingan dan mobil sport, konsumsi dan usia lanjut) dapat membantu Anda menciptakan fitur yang tepat. Tetapi jika Anda tidak mengetahui dinamika ini sebelumnya, ekspansi polinomial secara otomatis akan menciptakannya untuk Anda karena, dengan urutan tertentu, akan menciptakan interaksi dan kekuatan dari pesanan itu. Perintah tersebut akan menunjukkan jumlah perkalian dan daya maksimum untuk diterapkan pada fitur yang ada.
Jadi perluasan polinomial order 2 meningkatkan semua fitur ke kekuatan kedua dan mengalikan setiap fitur satu dengan yang lain. (Anda mendapatkan penggandaan semua kombinasi dari dua fitur.) Jelas, semakin tinggi jumlahnya, semakin banyak fitur baru yang akan dibuat, namun banyak dari mereka akan berlebihan dan hanya berkontribusi untuk membuat algoritma pembelajaran mesin Anda melebihi data.
Saat menggunakan ekspansi polinomial, Anda harus memperhatikan ledakan fitur yang Anda ciptakan. Powers meningkat secara linear, jadi jika Anda memiliki lima fitur dan Anda memerlukan perluasan order 2, masing-masing fitur dinaikkan sampai kekuatan kedua. Meningkatnya urutan satu saja menambahkan fitur kekuatan baru untuk setiap fitur asli. Sebagai gantinya, interaksi meningkat berdasarkan kombinasi fitur hingga urutan itu.
Sebenarnya, dengan lima fitur dan perluasan urutan 2 polinomial, kesepuluh kombinasi unik dari kopling fitur dibuat. Peningkatan order ke 3 akan membutuhkan terciptanya semua kombinasi unik dari dua variabel, plus kombinasi unik dari tiga variabel, yaitu 20 fitur.