Video: Hadoop Processing Frameworks 2024
Pada intinya, MapReduce adalah model pemrograman untuk mengolah kumpulan data yang disimpan secara terdistribusi melintasi simpul budak kelompok Hadoop. Konsep kunci di sini adalah membagi dan menaklukkan. Secara khusus, Anda ingin memecahkan kumpulan data yang besar menjadi beberapa bagian yang lebih kecil dan memprosesnya secara paralel dengan algoritma yang sama.
Dengan Hadoop Distributed File System (HDFS), file-file tersebut sudah terbagi menjadi potongan berukuran gigitan. MapReduce adalah apa yang Anda gunakan untuk memproses semua bagian.
Aplikasi MapReduce memiliki beberapa fase, seperti yang terbilang dalam daftar ini:
-
Tentukan kumpulan data yang tepat untuk diproses dari blok data. Ini melibatkan perhitungan dimana catatan yang akan diproses berada di dalam blok data.
-
Jalankan algoritma yang ditentukan terhadap setiap record dalam kumpulan data sampai semua record diproses.
Contoh individu dari aplikasi yang berjalan melawan satu blok data dalam kumpulan data dikenal sebagai tugas mapper . (Ini adalah bagian pemetaan dari MapReduce.)
-
Secara lokal melakukan pengurangan sementara dari keluaran masing-masing mapper.
(Keluaran digabungkan secara sementara, dengan kata lain.) Fase ini bersifat opsional karena, dalam beberapa kasus umum, tidak diinginkan.
-
Berdasarkan persyaratan partisi, kelompokkan data partisi yang berlaku dari masing-masing kumpulan hasil pemetaan.
-
Turunkan hasil set dari mappers menjadi satu set hasil - Mengurangi bagian dari MapReduce.
Contoh aplikasi individual yang berjalan melawan data keluaran mapper dikenal sebagai tugas