Rumah Keuangan Pribadi Mesin Belajar dengan Mahout di Hadoop - dummies

Mesin Belajar dengan Mahout di Hadoop - dummies

Daftar Isi:

Video: apa itu Naive Bayes Classifier [Python Machine Learning bahasa Indonesia pemula] #INDOSOAI 2024

Video: apa itu Naive Bayes Classifier [Python Machine Learning bahasa Indonesia pemula] #INDOSOAI 2024
Anonim

mengacu pada cabang teknik kecerdasan buatan yang menyediakan alat yang memungkinkan komputer untuk memperbaiki analisis mereka berdasarkan kejadian sebelumnya. Sistem komputer ini memanfaatkan data historis dari usaha-usaha sebelumnya dalam menyelesaikan sebuah tugas untuk meningkatkan kinerja usaha-usaha di masa depan pada tugas serupa.

Dalam hal hasil yang diharapkan, pembelajaran mesin mungkin terdengar sangat mirip dengan kata kunci lain "data mining"; Namun, yang pertama berfokus pada prediksi melalui analisis data pelatihan disiapkan, yang terakhir berkaitan dengan penemuan pengetahuan dari data mentah yang belum diproses . Untuk alasan ini, pembelajaran mesin sangat bergantung pada teknik pemodelan statistik dan menarik dari bidang teori probabilitas dan pengenalan pola.

Mahout adalah proyek open source dari Apache, menawarkan perpustakaan Java untuk algoritma pembelajaran mesin terukur atau terukur.

Algoritma ini mencakup tugas belajar mesin klasik seperti klasifikasi, pengelompokan, analisis aturan asosiasi, dan rekomendasi. Meskipun perpustakaan Mahout dirancang untuk bekerja dalam konteks Apache Hadoop, namun juga kompatibel dengan sistem yang mendukung kerangka MapReduce. Sebagai contoh, Mahout menyediakan perpustakaan Java untuk koleksi Java dan operasi matematika umum (aljabar dan statistik linier) yang dapat digunakan tanpa Hadoop.

Seperti yang dapat Anda lihat, perpustakaan Mahout diimplementasikan di Java MapReduce dan dijalankan di cluster Anda sebagai koleksi pekerjaan MapReduce di kedua YARN (dengan MapReduce v2), atau MapReduce v1.

Mahout adalah proyek yang berkembang dengan beberapa kontributor. Pada saat penulisan ini, kumpulan algoritma yang tersedia di perpustakaan Mahout sama sekali tidak lengkap; Namun, pengumpulan algoritma yang diimplementasikan untuk penggunaan terus berkembang seiring berjalannya waktu.

Ada tiga kategori utama algoritma Mahout untuk mendukung analisis statistik: penyaringan kolaboratif, pengelompokan, dan klasifikasi.

Penyaringan kolaboratif

Mahout dirancang khusus untuk dijadikan sebagai mesin rekomendasi, yang menggunakan algoritma

kolaboratif penyaringan

. Mahout menggabungkan kekayaan algoritma clustering dan klasifikasi yang ada untuk menghasilkan rekomendasi yang lebih tepat berdasarkan data masukan. Rekomendasi ini sering diterapkan terhadap preferensi pengguna, dengan mempertimbangkan perilaku pengguna. Dengan membandingkan pilihan pengguna sebelumnya, adalah mungkin untuk mengidentifikasi tetangga terdekat (orang-orang dengan riwayat keputusan serupa) kepada pengguna tersebut dan memprediksi pilihan masa depan berdasarkan perilaku tetangga. Pertimbangkan mesin "profil rasa" seperti Netflix - mesin yang merekomendasikan peringkat berdasarkan kebiasaan dan kebiasaan menonton pengguna sebelumnya. Dalam contoh ini, pola perilaku pengguna dibandingkan dengan riwayat pengguna - dan kecenderungan pengguna dengan selera serupa milik komunitas Netflix yang sama - untuk mendapatkan rekomendasi konten yang belum dilihat oleh pengguna yang bersangkutan.

Clustering

Berbeda dengan metode pembelajaran yang diawasi untuk fitur mesin rekomendasi Mahout, pengelompokan adalah bentuk pembelajaran

tidak diawasi

- di mana label untuk titik data tidak diketahui sebelumnya dan harus disimpulkan dari data tanpa input manusia (bagian diawasi ). Umumnya, benda dalam suatu cluster harus serupa; Benda dari kelompok yang berbeda harus berbeda. Keputusan yang dibuat sebelumnya tentang jumlah kelompok yang akan dihasilkan, kriteria untuk mengukur "kesamaan," dan representasi objek akan mempengaruhi pelabelan yang dihasilkan oleh algoritma pengelompokan. Misalnya, mesin pengelompokan yang diberi daftar artikel berita harus bisa mendefinisikan kumpulan artikel dalam koleksi yang membahas topik serupa.

Misalkan satu set artikel tentang Kanada, Prancis, China, kehutanan, minyak, dan anggur harus dikelompokkan. Jika jumlah maksimum cluster ditetapkan ke 2, algoritme Anda mungkin menghasilkan kategori seperti "wilayah" dan "industri. "Penyesuaian terhadap jumlah kelompok akan menghasilkan kategorisasi yang berbeda; misalnya, memilih 3 kelompok dapat menghasilkan kelompok kategori industri berskala berpasangan.

Klasifikasi

Algoritma klasifikasi menggunakan set data pelatihan berlabel manusia, di mana kategorisasi dan klasifikasi semua masukan masa depan diatur oleh label yang dikenal ini. Pengelompokan ini menerapkan apa yang dikenal sebagai

pembelajaran yang diawasi

di dunia pembelajaran mesin. Aturan klasifikasi - ditetapkan oleh data pelatihan, yang telah diberi label sebelumnya oleh pakar domain - kemudian diterapkan terhadap data mentah dan tidak diproses untuk menentukan pelabelan yang sesuai dengan tepat. Teknik ini sering digunakan oleh layanan e-mail yang mencoba mengklasifikasikan e-mail spam sebelum mereka melewati kotak masuk Anda. Secara khusus, mengingat sebuah e-mail berisi sekumpulan ungkapan yang diketahui umum terjadi bersama dalam kelas spam tertentu - dikirim dari alamat milik botnet yang diketahui - algoritma klasifikasi Anda dapat dengan andal mengidentifikasi e-mail sebagai malicious.

Selain kekayaan algoritme statistik yang diberikan oleh Mahout secara native, modul

(UDA) pendukung juga tersedia. Pengguna dapat mengganti algoritma yang ada atau menerapkannya sendiri melalui modul UDA. Kustomisasi yang kuat ini memungkinkan dilakukannya penyetelan kinerja algoritma dan fleksibilitas Mahout asli dalam mengatasi tantangan analisis statistik yang unik.

Jika Mahout dapat dipandang sebagai ekstensi analisis statistik untuk Hadoop, UDA harus dilihat sebagai perluasan kemampuan statistik Mahout. Aplikasi analisis statistik tradisional (seperti SAS, SPSS, dan R) dilengkapi dengan alat yang hebat untuk menghasilkan alur kerja. Aplikasi ini menggunakan antarmuka pengguna grafis intuitif yang memungkinkan visualisasi data lebih baik. Skrip Mahout mengikuti pola yang sama seperti alat lain untuk menghasilkan alur kerja analisis statistik. Selama tahap eksplorasi dan visualisasi data terakhir, pengguna dapat mengekspor ke format yang dapat dibaca manusia (JSON, CSV) atau memanfaatkan alat visualisasi seperti Desktop Tableau.

Arsitektur Mahout berada di atas platform Hadoop. Hadoop melepaskan para programmer dengan memisahkan tugas pemrograman pekerjaan MapReduce dari pembukuan kompleks yang dibutuhkan untuk mengelola paralelisme di sistem file terdistribusi. Dengan semangat yang sama, Mahout menyediakan abstraksi yang mudah dipahami programmer algoritma statistik yang kompleks, siap untuk diimplementasikan dengan kerangka Hadoop.

Mesin Belajar dengan Mahout di Hadoop - dummies

Pilihan Editor

Perancang Minigame Minigame - dummies

Perancang Minigame Minigame - dummies

Sebelum menulis semua kode untuk membuat Minecraft Minigame, Anda perlu merancang permainan Anda. The Gameplay Loop adalah proses sederhana yang bisa Anda ikuti untuk memastikan permainan Anda menyenangkan, menantang, dan lengkap. The Gameplay Loop memiliki empat bagian: Start: Buat adegan dasar. Tujuan: Menambahkan cara untuk menang dan ...

Menciptakan Efek Air dan Es di Minecraft - dummies

Menciptakan Efek Air dan Es di Minecraft - dummies

Satu hal yang rapi tentang Minecraft adalah bahwa beberapa fisika realistis sedang dimainkan dalam permainan. Misalnya, jika Anda memiliki air dan Anda memasukkan es ke dalamnya, itu akan membeku! Oke, mungkin di dunia nyata, menambahkan es tidak membuat air membeku, tapi memang membuatnya lebih dingin. Anda dapat melihat ini ...

Mendapatkan Minecraft Experience Points - dummies

Mendapatkan Minecraft Experience Points - dummies

Di Minecraft, experience points, XP untuk jangka pendek, dikumpulkan dari bola pengalaman bercahaya. Sebagai pemain mengumpulkan cukup bola dan meningkatkan tingkat pengalaman mereka, mereka akan dapat menggunakan tabel dan landasan yang mempesona untuk meningkatkan kemampuan banyak item seperti senjata, baju besi, dan peralatan. Jadi, bagaimana Anda bisa cepat mendapatkan ini ...

Pilihan Editor

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Infomasi editorial sama dengan artikel berita karena tujuan utamanya adalah untuk mengirimkan informasi. Di bawah payung grafis editorial, ada beberapa tipe yang berbeda, dengan keseimbangan bias dan objektivitas yang berbeda. Berikut adalah beberapa melihat: Badai salju menghantam kota Anda. Koran lokal menciptakan grafik yang menunjukkan hujan salju ...

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bahkan di dunia kabel ini, seniman masih suka sketsa Kabar baik! Sketsa kasar Anda dapat dengan mudah digunakan dalam draf infografis Anda. Anda dapat memindai sketsa atau mengambil gambar sketsa Anda dengan telepon Anda dan mengirim e-mail ke komputer Anda sendiri. Mereka tidak perlu diwarnai, cukup jelas bagi Anda untuk ...

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Infografis yang baik (jelas) harus mencakup seni yang bagus. Ilustrasi mempromosikan alur cerita, menentukan elemen secara visual, dan mencerahkan halaman yang mungkin diisi dengan tipe abu-abu. Ilustrasi bisa berupa gambar fisik, semacam bagan atau grafik, atau bahkan garis waktu. Kehidupan sehari-hari Anda dipenuhi dengan contoh bagaimana ilustrasi ...

Pilihan Editor

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

Tentang Penalaran Melalui bagian Seni Bahasa GED, Anda mungkin diminta untuk menjawab pertanyaan tentang bagian teknis. Ini bisa termasuk petunjuk cara melengkapi, seperti berikut. Pertanyaan dalam artikel ini mengacu pada kutipan berikut dari Russell Hart's Photography For Dummies, 2nd Edition (Wiley). Apa Rahasia Untuk ...

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

Di beberapa titik selama bagian Ilmu Pengetahuan dari Tes GEE, Anda akan diminta untuk membuat jawaban singkat. Anda akan diberi sebuah bagian dan mengajukan pertanyaan yang perlu Anda tanggapi. Buat respons Anda jelas dan ringkas. Bagian Jawaban Jawaban Semua orang mengenal keju cheddar. Orang-orang meletakkan ...

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

Di bagian Ilmu Sosial GED, Anda mungkin diminta untuk menjawab pertanyaan tentang berbagai bentuk media, termasuk siaran berita. Lihatlah contoh berikut di bawah ini. Pertanyaan dalam artikel ini mengacu pada siaran berita berikut. Berita Lingkungan Dunia Selamat malam dan selamat datang di World Environmental News. Cerita kami ini ...