Video: hadoop yarn architecture 2024
Pengolahan MapReduce di Hadoop 1 ditangani oleh dasbor JobTracker dan TaskTracker. JobTracker menyimpan pandangan tentang semua sumber pemrosesan yang tersedia di cluster Hadoop dan, saat permintaan aplikasi masuk, ia menjadwalkan dan menyebarkannya ke node TaskTracker untuk dieksekusi.
Saat aplikasi dijalankan, JobTracker menerima pembaruan status dari node TaskTracker untuk melacak kemajuan mereka dan, jika perlu, mengkoordinasikan penanganan kegagalan apapun. JobTracker perlu menjalankan node master di cluster Hadoop karena mengkoordinasikan eksekusi semua aplikasi MapReduce di cluster, jadi ini adalah layanan mission-critical.
Sebagai proses slave, TaskTracker menerima permintaan pemrosesan dari JobTracker. Tanggung jawab utamanya adalah untuk melacak pelaksanaan beban kerja MapReduce yang terjadi secara lokal pada node slave-nya dan untuk mengirim update status ke JobTracker.
Saat menyetel cluster Hadoop, mengatur jumlah peta optimal dan mengurangi slot sangat penting. Jumlah slot perlu dikonfigurasi secara hati-hati berdasarkan sumber daya memori, disk, dan CPU yang tersedia pada setiap simpul budak. Memori adalah yang paling kritis dari ketiga sumber daya ini dari perspektif kinerja. Dengan demikian, jumlah total slot tugas perlu diimbangi dengan jumlah maksimum memori yang dialokasikan ke ukuran tumpukan Jawa.
Misalnya, jika Anda memiliki terlalu banyak slot peta dan tidak cukup mengurangi slot untuk beban kerja Anda, slot peta akan cenderung duduk diam, sementara pekerjaan Anda menunggu untuk mengurangi slot agar tersedia.
Kumpulan slot yang berbeda didefinisikan untuk tugas peta dan mengurangi tugas karena mereka menggunakan sumber daya komputasi dengan sangat berbeda.Tugas peta ditetapkan berdasarkan lokasi data, dan sangat bergantung pada disk I / O dan CPU. Mengurangi tugas ditugaskan berdasarkan ketersediaan, bukan di lokalitas, dan sangat bergantung pada bandwidth jaringan karena mereka memerlukan penerimaan dari tugas peta.