Video: Introduction to Amazon Web Services by Leo Zhadanovsky 2024
Fase Reduksi memproses kunci dan daftar nilai masing-masing sehingga apa yang biasanya dikembalikan ke aplikasi klien adalah sekumpulan pasangan kunci / nilai. Inilah blow-by-hembusannya sejauh ini: Kumpulan data yang besar telah dipecah menjadi potongan-potongan yang lebih kecil, yang disebut input split, dan contoh masing-masing tugas mapper telah memprosesnya masing-masing.
Dalam beberapa kasus, fase pemrosesan tunggal ini adalah semua yang dibutuhkan untuk menghasilkan keluaran aplikasi yang diinginkan. Misalnya, jika Anda menjalankan operasi transformasi dasar pada data - mengubah semua teks menjadi huruf kapital, misalnya, atau mengekstrak bingkai kunci dari file video - fase tunggal adalah semua yang Anda butuhkan. (Ini dikenal sebagai pekerjaan map-only , ngomong ngomong.)
Tapi dalam banyak kasus lain, pekerjaan hanya setengah dilakukan ketika tugas pengumpul telah menuliskan hasilnya. Tugas yang tersisa adalah merebus semua hasil sementara menjadi satu jawaban terpadu.
Serupa dengan tugas pengumpul, yang memproses setiap rekaman satu per satu, peredam memproses setiap kunci secara terpisah. Biasanya, reducer mengembalikan sepasang kunci / nilai tunggal untuk setiap tombol yang diolahnya. Namun, pasangan kunci / nilai ini bisa begitu ekspansif atau sekecil yang Anda butuhkan.
Saat tugas reducer selesai, masing - masing mengembalikan file hasil dan menyimpannya di HDFS (Hadoop Distributed File System). Seperti yang ditunjukkan di sini, sistem HDFS kemudian secara otomatis mereplikasi hasil ini.
Di mana Manajer Sumberdaya (atau JobTracker jika Anda menggunakan Hadoop 1) mencoba yang terbaik untuk menetapkan sumber daya ke tugas mapper untuk memastikan bahwa pemecah masukan diproses secara lokal, tidak ada strategi untuk tugas peredam. Diasumsikan bahwa set hasil tugas pengumpul perlu ditransfer melalui jaringan untuk diproses oleh tugas peredam.
Ini adalah implementasi yang masuk akal karena, dengan ratusan atau bahkan ribuan tugas pengumpul, tidak akan ada cara praktis untuk tugas peredam untuk memiliki prioritas wilayah yang sama.