Mesin Belajar dengan Mahout di Hadoop - dummies

mengacu pada cabang teknik kecerdasan buatan yang menyediakan alat yang memungkinkan komputer untuk memperbaiki analisis mereka berdasarkan kejadian sebelumnya. Sistem komputer ini memanfaatkan data historis dari usaha-usaha sebelumnya dalam menyelesaikan sebuah tugas untuk meningkatkan kinerja usaha-usaha di masa depan pada tugas serupa.

Dalam hal hasil yang diharapkan, pembelajaran mesin mungkin terdengar sangat mirip dengan kata kunci lain "data mining"; Namun, yang pertama berfokus pada prediksi melalui analisis data pelatihan disiapkan, yang terakhir berkaitan dengan penemuan pengetahuan dari data mentah yang belum diproses . Untuk alasan ini, pembelajaran mesin sangat bergantung pada teknik pemodelan statistik dan menarik dari bidang teori probabilitas dan pengenalan pola.

Mahout adalah proyek open source dari Apache, menawarkan perpustakaan Java untuk algoritma pembelajaran mesin terukur atau terukur.

Algoritma ini mencakup tugas belajar mesin klasik seperti klasifikasi, pengelompokan, analisis aturan asosiasi, dan rekomendasi. Meskipun perpustakaan Mahout dirancang untuk bekerja dalam konteks Apache Hadoop, namun juga kompatibel dengan sistem yang mendukung kerangka MapReduce. Sebagai contoh, Mahout menyediakan perpustakaan Java untuk koleksi Java dan operasi matematika umum (aljabar dan statistik linier) yang dapat digunakan tanpa Hadoop.

Seperti yang dapat Anda lihat, perpustakaan Mahout diimplementasikan di Java MapReduce dan dijalankan di cluster Anda sebagai koleksi pekerjaan MapReduce di kedua YARN (dengan MapReduce v2), atau MapReduce v1.

Mahout adalah proyek yang berkembang dengan beberapa kontributor. Pada saat penulisan ini, kumpulan algoritma yang tersedia di perpustakaan Mahout sama sekali tidak lengkap; Namun, pengumpulan algoritma yang diimplementasikan untuk penggunaan terus berkembang seiring berjalannya waktu.

Ada tiga kategori utama algoritma Mahout untuk mendukung analisis statistik: penyaringan kolaboratif, pengelompokan, dan klasifikasi.

Penyaringan kolaboratif

Mahout dirancang khusus untuk dijadikan sebagai mesin rekomendasi, yang menggunakan algoritma

kolaboratif penyaringan

. Mahout menggabungkan kekayaan algoritma clustering dan klasifikasi yang ada untuk menghasilkan rekomendasi yang lebih tepat berdasarkan data masukan. Rekomendasi ini sering diterapkan terhadap preferensi pengguna, dengan mempertimbangkan perilaku pengguna. Dengan membandingkan pilihan pengguna sebelumnya, adalah mungkin untuk mengidentifikasi tetangga terdekat (orang-orang dengan riwayat keputusan serupa) kepada pengguna tersebut dan memprediksi pilihan masa depan berdasarkan perilaku tetangga. Pertimbangkan mesin "profil rasa" seperti Netflix - mesin yang merekomendasikan peringkat berdasarkan kebiasaan dan kebiasaan menonton pengguna sebelumnya. Dalam contoh ini, pola perilaku pengguna dibandingkan dengan riwayat pengguna - dan kecenderungan pengguna dengan selera serupa milik komunitas Netflix yang sama - untuk mendapatkan rekomendasi konten yang belum dilihat oleh pengguna yang bersangkutan.

Clustering

Berbeda dengan metode pembelajaran yang diawasi untuk fitur mesin rekomendasi Mahout, pengelompokan adalah bentuk pembelajaran

tidak diawasi

- di mana label untuk titik data tidak diketahui sebelumnya dan harus disimpulkan dari data tanpa input manusia (bagian diawasi ). Umumnya, benda dalam suatu cluster harus serupa; Benda dari kelompok yang berbeda harus berbeda. Keputusan yang dibuat sebelumnya tentang jumlah kelompok yang akan dihasilkan, kriteria untuk mengukur "kesamaan," dan representasi objek akan mempengaruhi pelabelan yang dihasilkan oleh algoritma pengelompokan. Misalnya, mesin pengelompokan yang diberi daftar artikel berita harus bisa mendefinisikan kumpulan artikel dalam koleksi yang membahas topik serupa.

Misalkan satu set artikel tentang Kanada, Prancis, China, kehutanan, minyak, dan anggur harus dikelompokkan. Jika jumlah maksimum cluster ditetapkan ke 2, algoritme Anda mungkin menghasilkan kategori seperti "wilayah" dan "industri. "Penyesuaian terhadap jumlah kelompok akan menghasilkan kategorisasi yang berbeda; misalnya, memilih 3 kelompok dapat menghasilkan kelompok kategori industri berskala berpasangan.

Klasifikasi

Algoritma klasifikasi menggunakan set data pelatihan berlabel manusia, di mana kategorisasi dan klasifikasi semua masukan masa depan diatur oleh label yang dikenal ini. Pengelompokan ini menerapkan apa yang dikenal sebagai

pembelajaran yang diawasi

di dunia pembelajaran mesin. Aturan klasifikasi - ditetapkan oleh data pelatihan, yang telah diberi label sebelumnya oleh pakar domain - kemudian diterapkan terhadap data mentah dan tidak diproses untuk menentukan pelabelan yang sesuai dengan tepat. Teknik ini sering digunakan oleh layanan e-mail yang mencoba mengklasifikasikan e-mail spam sebelum mereka melewati kotak masuk Anda. Secara khusus, mengingat sebuah e-mail berisi sekumpulan ungkapan yang diketahui umum terjadi bersama dalam kelas spam tertentu - dikirim dari alamat milik botnet yang diketahui - algoritma klasifikasi Anda dapat dengan andal mengidentifikasi e-mail sebagai malicious.

Selain kekayaan algoritme statistik yang diberikan oleh Mahout secara native, modul

(UDA) pendukung juga tersedia. Pengguna dapat mengganti algoritma yang ada atau menerapkannya sendiri melalui modul UDA. Kustomisasi yang kuat ini memungkinkan dilakukannya penyetelan kinerja algoritma dan fleksibilitas Mahout asli dalam mengatasi tantangan analisis statistik yang unik.

Jika Mahout dapat dipandang sebagai ekstensi analisis statistik untuk Hadoop, UDA harus dilihat sebagai perluasan kemampuan statistik Mahout. Aplikasi analisis statistik tradisional (seperti SAS, SPSS, dan R) dilengkapi dengan alat yang hebat untuk menghasilkan alur kerja. Aplikasi ini menggunakan antarmuka pengguna grafis intuitif yang memungkinkan visualisasi data lebih baik. Skrip Mahout mengikuti pola yang sama seperti alat lain untuk menghasilkan alur kerja analisis statistik. Selama tahap eksplorasi dan visualisasi data terakhir, pengguna dapat mengekspor ke format yang dapat dibaca manusia (JSON, CSV) atau memanfaatkan alat visualisasi seperti Desktop Tableau.

Arsitektur Mahout berada di atas platform Hadoop. Hadoop melepaskan para programmer dengan memisahkan tugas pemrograman pekerjaan MapReduce dari pembukuan kompleks yang dibutuhkan untuk mengelola paralelisme di sistem file terdistribusi. Dengan semangat yang sama, Mahout menyediakan abstraksi yang mudah dipahami programmer algoritma statistik yang kompleks, siap untuk diimplementasikan dengan kerangka Hadoop.