Rumah Keuangan Pribadi Hadoop MapReduce for Big Data - dummies

Hadoop MapReduce for Big Data - dummies

Daftar Isi:

Video: MapReduce Tutorial | What is MapReduce | Hadoop MapReduce Tutorial | Edureka 2024

Video: MapReduce Tutorial | What is MapReduce | Hadoop MapReduce Tutorial | Edureka 2024
Anonim

Untuk memahami kemampuan Hadoop MapReduce, penting untuk membedakan antara MapReduce (algoritma) dan sebuah implementasi MapReduce. Hadoop MapReduce adalah implementasi dari algoritma yang dikembangkan dan dikelola oleh proyek Apache Hadoop.

Sangat membantu untuk memikirkan penerapan ini sebagai mesin MapReduce, karena memang itulah cara kerjanya. Anda memberi masukan (bahan bakar), mesin mengubah input menjadi output dengan cepat dan efisien, dan Anda mendapatkan jawaban yang Anda butuhkan.

Peta HadoopReduce mencakup beberapa tahap, masing-masing dengan serangkaian operasi penting yang membantu mencapai tujuan Anda mendapatkan jawaban yang Anda butuhkan dari data besar. Prosesnya dimulai dengan permintaan pengguna untuk menjalankan program MapReduce dan berlanjut sampai hasilnya ditulis kembali ke HDFS.

HDFS dan MapReduce melakukan pekerjaan mereka pada node dalam sebuah cluster yang berada di rak server komoditas. Untuk mempermudah pembahasan, diagram hanya menunjukkan dua simpul.

Dapatkan data besar siap

Saat klien meminta program MapReduce untuk dijalankan, langkah pertama adalah mencari dan membaca file masukan yang berisi data mentah. Format file benar-benar sewenang-wenang, namun datanya harus dikonversi menjadi sesuatu yang bisa diolah program. Ini adalah fungsi InputFormat dan RecordReader. InputFormat memutuskan bagaimana file tersebut akan dipecah menjadi potongan-potongan kecil untuk diproses menggunakan fungsi yang disebut InputSplit.

Kemudian ia memberi RecordReader untuk mengubah data mentah untuk diproses oleh peta. Beberapa jenis RecordReader disertakan bersama Hadoop, menawarkan berbagai pilihan konversi. Fitur ini adalah salah satu cara yang digunakan Hadoop dalam berbagai jenis data yang ditemukan pada masalah data yang besar.

Biarkan peta data besar dimulai

Data Anda sekarang dalam bentuk yang dapat diterima untuk dipetakan. Untuk setiap pasangan input, contoh peta yang berbeda dipanggil untuk memproses data. Tapi apa fungsinya dengan hasil olahan, dan bagaimana Anda bisa melacaknya?

Peta memiliki dua kemampuan tambahan untuk menjawab pertanyaan. Karena peta dan pengurangan perlu bekerja sama untuk mengolah data Anda, program perlu mengumpulkan output dari pemotong independen dan menyebarkannya ke reducer. Tugas ini dilakukan oleh sebuah OutputCollector. Fungsi Reporter juga menyediakan informasi yang dikumpulkan dari tugas peta sehingga Anda tahu kapan atau jika tugas peta selesai.

Semua pekerjaan ini sedang dilakukan pada banyak node di cluster Hadoop secara bersamaan.Anda mungkin memiliki kasus dimana output dari proses pemetaan tertentu perlu diakumulasikan sebelum reduksi dapat dimulai. Atau, beberapa hasil antara mungkin perlu diproses sebelum dikurangi.

Selain itu, beberapa output ini mungkin berada pada simpul yang berbeda dari simpul dimana reduksi untuk output spesifik tersebut akan berjalan. Pengumpulan dan pengocokan hasil antara dilakukan oleh sebuah partisi dan sejenisnya. Tugas peta akan mengantarkan hasilnya ke partisi tertentu sebagai masukan untuk mengurangi tugas.

Setelah semua tugas peta selesai, hasil antara dikumpulkan di partisi dan terjadi pengocokan, memilah output untuk pengolahan optimal dengan mengurangi.

Kurangi dan kombinasikan data besar

Untuk setiap pasangan output, kurangi panggilan untuk melakukan tugasnya. Dengan cara yang sama untuk memetakan, mengurangi mengumpulkan hasilnya sementara semua tugas sedang diproses. Kurangi tidak bisa dimulai sampai semua pemetaan selesai dilakukan. Output dari pengurangan juga merupakan kunci dan nilai. Meskipun hal ini diperlukan untuk mengurangi pekerjaannya, ini mungkin bukan format keluaran yang paling efektif untuk aplikasi Anda.

Hadoop menyediakan fitur OutputFormat, dan bekerja sangat mirip dengan InputFormat. OutputFormat mengambil pasangan kunci-nilai dan mengatur output untuk menulis ke HDFS. Tugas terakhir adalah menulis data ke HDFS. Hal ini dilakukan oleh RecordWriter, dan kinerjanya mirip dengan RecordReader kecuali sebaliknya. Dibutuhkan data OutputFormat dan menuliskannya ke HDFS dalam bentuk yang diperlukan untuk persyaratan program.

Koordinasi semua kegiatan ini dikelola di versi sebelumnya Hadoop oleh seorang penjadwal pekerjaan. Penjadwal ini tidak sempurna, dan saat perpaduan pekerjaan berubah dan berkembang, jelas bahwa diperlukan pendekatan yang berbeda. Kekurangan utama pada penjadwal lama adalah kurangnya pengelolaan sumber daya. Versi terbaru dari Hadoop memiliki kemampuan baru ini.

Peta HadoopReduce adalah jantung dari sistem Hadoop. Ini menyediakan semua kemampuan yang Anda butuhkan untuk memecahkan data besar ke dalam potongan yang dapat diatur, memproses data secara paralel di cluster terdistribusi Anda, dan kemudian membuat data tersedia untuk konsumsi pengguna atau pemrosesan tambahan. Dan semua ini bekerja dengan cara yang sangat tahan banting dan toleransi kesalahan. Ini baru permulaan.

Hadoop MapReduce for Big Data - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...