Rumah Keuangan Pribadi Mesin Belajar dengan Mahout di Hadoop - dummies

Mesin Belajar dengan Mahout di Hadoop - dummies

Daftar Isi:

Video: apa itu Naive Bayes Classifier [Python Machine Learning bahasa Indonesia pemula] #INDOSOAI 2024

Video: apa itu Naive Bayes Classifier [Python Machine Learning bahasa Indonesia pemula] #INDOSOAI 2024
Anonim

mengacu pada cabang teknik kecerdasan buatan yang menyediakan alat yang memungkinkan komputer untuk memperbaiki analisis mereka berdasarkan kejadian sebelumnya. Sistem komputer ini memanfaatkan data historis dari usaha-usaha sebelumnya dalam menyelesaikan sebuah tugas untuk meningkatkan kinerja usaha-usaha di masa depan pada tugas serupa.

Dalam hal hasil yang diharapkan, pembelajaran mesin mungkin terdengar sangat mirip dengan kata kunci lain "data mining"; Namun, yang pertama berfokus pada prediksi melalui analisis data pelatihan disiapkan, yang terakhir berkaitan dengan penemuan pengetahuan dari data mentah yang belum diproses . Untuk alasan ini, pembelajaran mesin sangat bergantung pada teknik pemodelan statistik dan menarik dari bidang teori probabilitas dan pengenalan pola.

Mahout adalah proyek open source dari Apache, menawarkan perpustakaan Java untuk algoritma pembelajaran mesin terukur atau terukur.

Algoritma ini mencakup tugas belajar mesin klasik seperti klasifikasi, pengelompokan, analisis aturan asosiasi, dan rekomendasi. Meskipun perpustakaan Mahout dirancang untuk bekerja dalam konteks Apache Hadoop, namun juga kompatibel dengan sistem yang mendukung kerangka MapReduce. Sebagai contoh, Mahout menyediakan perpustakaan Java untuk koleksi Java dan operasi matematika umum (aljabar dan statistik linier) yang dapat digunakan tanpa Hadoop.

Seperti yang dapat Anda lihat, perpustakaan Mahout diimplementasikan di Java MapReduce dan dijalankan di cluster Anda sebagai koleksi pekerjaan MapReduce di kedua YARN (dengan MapReduce v2), atau MapReduce v1.

Mahout adalah proyek yang berkembang dengan beberapa kontributor. Pada saat penulisan ini, kumpulan algoritma yang tersedia di perpustakaan Mahout sama sekali tidak lengkap; Namun, pengumpulan algoritma yang diimplementasikan untuk penggunaan terus berkembang seiring berjalannya waktu.

Ada tiga kategori utama algoritma Mahout untuk mendukung analisis statistik: penyaringan kolaboratif, pengelompokan, dan klasifikasi.

Penyaringan kolaboratif

Mahout dirancang khusus untuk dijadikan sebagai mesin rekomendasi, yang menggunakan algoritma

kolaboratif penyaringan

. Mahout menggabungkan kekayaan algoritma clustering dan klasifikasi yang ada untuk menghasilkan rekomendasi yang lebih tepat berdasarkan data masukan. Rekomendasi ini sering diterapkan terhadap preferensi pengguna, dengan mempertimbangkan perilaku pengguna. Dengan membandingkan pilihan pengguna sebelumnya, adalah mungkin untuk mengidentifikasi tetangga terdekat (orang-orang dengan riwayat keputusan serupa) kepada pengguna tersebut dan memprediksi pilihan masa depan berdasarkan perilaku tetangga. Pertimbangkan mesin "profil rasa" seperti Netflix - mesin yang merekomendasikan peringkat berdasarkan kebiasaan dan kebiasaan menonton pengguna sebelumnya. Dalam contoh ini, pola perilaku pengguna dibandingkan dengan riwayat pengguna - dan kecenderungan pengguna dengan selera serupa milik komunitas Netflix yang sama - untuk mendapatkan rekomendasi konten yang belum dilihat oleh pengguna yang bersangkutan.

Clustering

Berbeda dengan metode pembelajaran yang diawasi untuk fitur mesin rekomendasi Mahout, pengelompokan adalah bentuk pembelajaran

tidak diawasi

- di mana label untuk titik data tidak diketahui sebelumnya dan harus disimpulkan dari data tanpa input manusia (bagian diawasi ). Umumnya, benda dalam suatu cluster harus serupa; Benda dari kelompok yang berbeda harus berbeda. Keputusan yang dibuat sebelumnya tentang jumlah kelompok yang akan dihasilkan, kriteria untuk mengukur "kesamaan," dan representasi objek akan mempengaruhi pelabelan yang dihasilkan oleh algoritma pengelompokan. Misalnya, mesin pengelompokan yang diberi daftar artikel berita harus bisa mendefinisikan kumpulan artikel dalam koleksi yang membahas topik serupa.

Misalkan satu set artikel tentang Kanada, Prancis, China, kehutanan, minyak, dan anggur harus dikelompokkan. Jika jumlah maksimum cluster ditetapkan ke 2, algoritme Anda mungkin menghasilkan kategori seperti "wilayah" dan "industri. "Penyesuaian terhadap jumlah kelompok akan menghasilkan kategorisasi yang berbeda; misalnya, memilih 3 kelompok dapat menghasilkan kelompok kategori industri berskala berpasangan.

Klasifikasi

Algoritma klasifikasi menggunakan set data pelatihan berlabel manusia, di mana kategorisasi dan klasifikasi semua masukan masa depan diatur oleh label yang dikenal ini. Pengelompokan ini menerapkan apa yang dikenal sebagai

pembelajaran yang diawasi

di dunia pembelajaran mesin. Aturan klasifikasi - ditetapkan oleh data pelatihan, yang telah diberi label sebelumnya oleh pakar domain - kemudian diterapkan terhadap data mentah dan tidak diproses untuk menentukan pelabelan yang sesuai dengan tepat. Teknik ini sering digunakan oleh layanan e-mail yang mencoba mengklasifikasikan e-mail spam sebelum mereka melewati kotak masuk Anda. Secara khusus, mengingat sebuah e-mail berisi sekumpulan ungkapan yang diketahui umum terjadi bersama dalam kelas spam tertentu - dikirim dari alamat milik botnet yang diketahui - algoritma klasifikasi Anda dapat dengan andal mengidentifikasi e-mail sebagai malicious.

Selain kekayaan algoritme statistik yang diberikan oleh Mahout secara native, modul

(UDA) pendukung juga tersedia. Pengguna dapat mengganti algoritma yang ada atau menerapkannya sendiri melalui modul UDA. Kustomisasi yang kuat ini memungkinkan dilakukannya penyetelan kinerja algoritma dan fleksibilitas Mahout asli dalam mengatasi tantangan analisis statistik yang unik.

Jika Mahout dapat dipandang sebagai ekstensi analisis statistik untuk Hadoop, UDA harus dilihat sebagai perluasan kemampuan statistik Mahout. Aplikasi analisis statistik tradisional (seperti SAS, SPSS, dan R) dilengkapi dengan alat yang hebat untuk menghasilkan alur kerja. Aplikasi ini menggunakan antarmuka pengguna grafis intuitif yang memungkinkan visualisasi data lebih baik. Skrip Mahout mengikuti pola yang sama seperti alat lain untuk menghasilkan alur kerja analisis statistik. Selama tahap eksplorasi dan visualisasi data terakhir, pengguna dapat mengekspor ke format yang dapat dibaca manusia (JSON, CSV) atau memanfaatkan alat visualisasi seperti Desktop Tableau.

Arsitektur Mahout berada di atas platform Hadoop. Hadoop melepaskan para programmer dengan memisahkan tugas pemrograman pekerjaan MapReduce dari pembukuan kompleks yang dibutuhkan untuk mengelola paralelisme di sistem file terdistribusi. Dengan semangat yang sama, Mahout menyediakan abstraksi yang mudah dipahami programmer algoritma statistik yang kompleks, siap untuk diimplementasikan dengan kerangka Hadoop.

Mesin Belajar dengan Mahout di Hadoop - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...