Rumah Keuangan Pribadi Hadoop MapReduce for Big Data - dummies

Hadoop MapReduce for Big Data - dummies

Daftar Isi:

Video: MapReduce Tutorial | What is MapReduce | Hadoop MapReduce Tutorial | Edureka 2025

Video: MapReduce Tutorial | What is MapReduce | Hadoop MapReduce Tutorial | Edureka 2025
Anonim

Untuk memahami kemampuan Hadoop MapReduce, penting untuk membedakan antara MapReduce (algoritma) dan sebuah implementasi MapReduce. Hadoop MapReduce adalah implementasi dari algoritma yang dikembangkan dan dikelola oleh proyek Apache Hadoop.

Sangat membantu untuk memikirkan penerapan ini sebagai mesin MapReduce, karena memang itulah cara kerjanya. Anda memberi masukan (bahan bakar), mesin mengubah input menjadi output dengan cepat dan efisien, dan Anda mendapatkan jawaban yang Anda butuhkan.

Peta HadoopReduce mencakup beberapa tahap, masing-masing dengan serangkaian operasi penting yang membantu mencapai tujuan Anda mendapatkan jawaban yang Anda butuhkan dari data besar. Prosesnya dimulai dengan permintaan pengguna untuk menjalankan program MapReduce dan berlanjut sampai hasilnya ditulis kembali ke HDFS.

HDFS dan MapReduce melakukan pekerjaan mereka pada node dalam sebuah cluster yang berada di rak server komoditas. Untuk mempermudah pembahasan, diagram hanya menunjukkan dua simpul.

Dapatkan data besar siap

Saat klien meminta program MapReduce untuk dijalankan, langkah pertama adalah mencari dan membaca file masukan yang berisi data mentah. Format file benar-benar sewenang-wenang, namun datanya harus dikonversi menjadi sesuatu yang bisa diolah program. Ini adalah fungsi InputFormat dan RecordReader. InputFormat memutuskan bagaimana file tersebut akan dipecah menjadi potongan-potongan kecil untuk diproses menggunakan fungsi yang disebut InputSplit.

Kemudian ia memberi RecordReader untuk mengubah data mentah untuk diproses oleh peta. Beberapa jenis RecordReader disertakan bersama Hadoop, menawarkan berbagai pilihan konversi. Fitur ini adalah salah satu cara yang digunakan Hadoop dalam berbagai jenis data yang ditemukan pada masalah data yang besar.

Biarkan peta data besar dimulai

Data Anda sekarang dalam bentuk yang dapat diterima untuk dipetakan. Untuk setiap pasangan input, contoh peta yang berbeda dipanggil untuk memproses data. Tapi apa fungsinya dengan hasil olahan, dan bagaimana Anda bisa melacaknya?

Peta memiliki dua kemampuan tambahan untuk menjawab pertanyaan. Karena peta dan pengurangan perlu bekerja sama untuk mengolah data Anda, program perlu mengumpulkan output dari pemotong independen dan menyebarkannya ke reducer. Tugas ini dilakukan oleh sebuah OutputCollector. Fungsi Reporter juga menyediakan informasi yang dikumpulkan dari tugas peta sehingga Anda tahu kapan atau jika tugas peta selesai.

Semua pekerjaan ini sedang dilakukan pada banyak node di cluster Hadoop secara bersamaan.Anda mungkin memiliki kasus dimana output dari proses pemetaan tertentu perlu diakumulasikan sebelum reduksi dapat dimulai. Atau, beberapa hasil antara mungkin perlu diproses sebelum dikurangi.

Selain itu, beberapa output ini mungkin berada pada simpul yang berbeda dari simpul dimana reduksi untuk output spesifik tersebut akan berjalan. Pengumpulan dan pengocokan hasil antara dilakukan oleh sebuah partisi dan sejenisnya. Tugas peta akan mengantarkan hasilnya ke partisi tertentu sebagai masukan untuk mengurangi tugas.

Setelah semua tugas peta selesai, hasil antara dikumpulkan di partisi dan terjadi pengocokan, memilah output untuk pengolahan optimal dengan mengurangi.

Kurangi dan kombinasikan data besar

Untuk setiap pasangan output, kurangi panggilan untuk melakukan tugasnya. Dengan cara yang sama untuk memetakan, mengurangi mengumpulkan hasilnya sementara semua tugas sedang diproses. Kurangi tidak bisa dimulai sampai semua pemetaan selesai dilakukan. Output dari pengurangan juga merupakan kunci dan nilai. Meskipun hal ini diperlukan untuk mengurangi pekerjaannya, ini mungkin bukan format keluaran yang paling efektif untuk aplikasi Anda.

Hadoop menyediakan fitur OutputFormat, dan bekerja sangat mirip dengan InputFormat. OutputFormat mengambil pasangan kunci-nilai dan mengatur output untuk menulis ke HDFS. Tugas terakhir adalah menulis data ke HDFS. Hal ini dilakukan oleh RecordWriter, dan kinerjanya mirip dengan RecordReader kecuali sebaliknya. Dibutuhkan data OutputFormat dan menuliskannya ke HDFS dalam bentuk yang diperlukan untuk persyaratan program.

Koordinasi semua kegiatan ini dikelola di versi sebelumnya Hadoop oleh seorang penjadwal pekerjaan. Penjadwal ini tidak sempurna, dan saat perpaduan pekerjaan berubah dan berkembang, jelas bahwa diperlukan pendekatan yang berbeda. Kekurangan utama pada penjadwal lama adalah kurangnya pengelolaan sumber daya. Versi terbaru dari Hadoop memiliki kemampuan baru ini.

Peta HadoopReduce adalah jantung dari sistem Hadoop. Ini menyediakan semua kemampuan yang Anda butuhkan untuk memecahkan data besar ke dalam potongan yang dapat diatur, memproses data secara paralel di cluster terdistribusi Anda, dan kemudian membuat data tersedia untuk konsumsi pengguna atau pemrosesan tambahan. Dan semua ini bekerja dengan cara yang sangat tahan banting dan toleransi kesalahan. Ini baru permulaan.

Hadoop MapReduce for Big Data - dummies

Pilihan Editor

Kantor 2011 untuk Mac: Membuat Tabel dengan Kotak Dialog atau Teks - dummies

Kantor 2011 untuk Mac: Membuat Tabel dengan Kotak Dialog atau Teks - dummies

Sementara ada cara baru untuk membuat tabel di Office 2011 untuk Mac, Anda masih bisa menggunakan teknik stand-by. Menu yang familiar masih bekerja di Office 2011 untuk Mac, dan inilah buktinya. Dialog meja semuanya masih ada di sana: Di Word, pilih Table → Insert → Table; Sebagai alternatif, pada tab Tabel Ribbon, di Tabel Pilihan ...

Kantor 2011 untuk Mac: Melepaskan Command Toolbar - dummies

Kantor 2011 untuk Mac: Melepaskan Command Toolbar - dummies

Apakah Anda menggunakan Office 2011 untuk Mac atau Produk Microsoft Office lainnya, toolbar Anda bisa sangat berantakan. Setiap kali Anda merasa perlu untuk men-tweak antarmuka aplikasi Microsoft Office, Anda perlu memanggil dialog Customize Toolbars and Menus. Ini adalah dialog super kuat di Word, Excel, dan PowerPoint yang memungkinkan Anda ...

Kantor 2011 untuk Mac: Berbagi Toolbar dan Menu - dummies

Kantor 2011 untuk Mac: Berbagi Toolbar dan Menu - dummies

Setelah Anda menyesuaikan Office 2011 Anda bilah alat dan antarmuka, Anda dapat berbagi penyesuaian dengan orang lain. Namun, pastikan bahwa Anda menasihati orang-orang yang telah Anda lakukan sebelum membagikan dokumen Anda dengannya; Jika tidak, mereka mungkin akan terkejut saat mereka membuka dokumen Anda dan melihat susunan toolbar atau menu yang berbeda dari pada apa ...

Pilihan Editor

Penting Office 2007 Commands - dummies

Penting Office 2007 Commands - dummies

Anda dapat membuat program Office 2007 lebih mudah jika Anda menggunakan pintasan sederhana ini. Perintah-perintah ini, seperti mengurungkan kesalahan dan memperbesar dan memperkecil akan membantu Anda menghemat waktu. Memasuki simbol: Untuk memasukkan simbol atau karakter asing yang tidak ada pada keyboard Anda, masuk ke tab Insert dan klik Symbol ...

Menyesuaikan Perintah Menu di Office 2003 - dummies

Menyesuaikan Perintah Menu di Office 2003 - dummies

Office 2003 menyediakan dua teknik untuk menyesuaikan menu dan perintah menu. Anda bisa memulai dari kotak dialog Rearrange Commands atau menggunakan metode drag-and-drop. Teruslah membaca. Menangani perintah menu di kotak dialog Rearrange Commands Teknik tombol Options Toolbar untuk menangani tombol toolbar bagus dan keren, tapi bagaimana jika Anda ingin ...

Pilihan Editor

Bagaimana memecahkan kesalahan logis dalam analisis argumen Pertanyaan GRE - dummies

Bagaimana memecahkan kesalahan logis dalam analisis argumen Pertanyaan GRE - dummies

Ketika Anda menjawab Argument Analysis Pertanyaan di GRE, argumen mungkin tampak logis dan adil di permukaan tapi sebenarnya keliru (keliru, cacat). Alasan melingkar, penalaran sebab-akibat yang keliru, dan generalisasi sweeping adalah tiga tanda argumen lemah. Dengan melihat beberapa kesalahan logis yang lebih umum, Anda dapat mengidentifikasi kelemahan dalam argumen dan ...

Pilihan ganda, Beberapa Jawaban tentang Tes Matematika GRE - Pertanyaan Praktik - dummies

Pilihan ganda, Beberapa Jawaban tentang Tes Matematika GRE - Pertanyaan Praktik - dummies

Meskipun pertanyaan matematika biasanya hanya memiliki satu jawaban yang benar, ini tidak selalu terjadi. Akibatnya, beberapa pertanyaan pilihan ganda pada tes GRE Math akan memberi Anda daftar jawaban dan meminta Anda untuk memilih lebih dari satu. Pertanyaan praktik berikut meminta Anda untuk menemukan nilai kemungkinan yang berbeda secara berurutan dan ...

Pilihan ganda, Beberapa Jawaban tentang Tes Verbal GRE - Pertanyaan Praktik - dummies

Pilihan ganda, Beberapa Jawaban tentang Tes Verbal GRE - Pertanyaan Praktik - dummies

Pada tes GRE Verbal, beberapa pertanyaan pilihan ganda akan memiliki lebih dari satu jawaban yang benar. Untuk pertanyaan ini, Anda akan diminta untuk melihat-lihat pilihan jawaban dan memilih semua yang menurut Anda benar. Dalam pertanyaan praktik berikut, Anda diminta untuk membaca bagian yang disertakan, dan kemudian ...