Master Nodes di Hadoop Cluster - dummies

Simpul master dalam kelompok Hadoop terdistribusi menyelenggarakan berbagai layanan pengelolaan penyimpanan dan pemrosesan, yang dijelaskan dalam daftar ini, untuk keseluruhan cluster Hadoop. Redundansi sangat penting dalam menghindari satu titik kegagalan, jadi Anda melihat dua sakelar dan tiga simpul master.

NameNode: Mengatur penyimpanan HDFS. Untuk memastikan ketersediaan tinggi, Anda memiliki NameNode yang aktif dan NameNode standby. Masing-masing berjalan dengan sendirinya, simpul master yang berdedikasi.
Simpul pos pemeriksaan (atau simpul cadangan): Menyediakan checkpointing layanan untuk NameNode. Ini melibatkan membaca log edit NameNode untuk mengubah file di file HDFS (baru, dihapus, dan ditambahkan) sejak pos pemeriksaan terakhir, dan menerapkannya ke file induk NameNode yang memetakan file ke blok data.

Selain itu, Node Cadangan menyimpan salinan namespace sistem berkas di memori dan menyimpannya selaras dengan status NameNode. Untuk penyebaran ketersediaan tinggi, jangan gunakan node pos pemeriksaan atau node cadangan - gunakan Standby NameNode. Selain menjadi siaga aktif untuk NameNode, Standby NameNode mempertahankan layanan pemeriksaan dan menyimpan salinan up-to-date dari namespace sistem berkas di memori.
JournalNode: Menerima modifikasi edit log yang menunjukkan perubahan pada file dalam HDFS dari NameNode. Setidaknya tiga layanan JournalNode (dan itu selalu angka ganjil) harus berjalan dalam sebuah cluster, dan mereka cukup ringan sehingga bisa colocation dengan layanan lain pada node master.
Resource Manager: Mengawasi penjadwalan tugas aplikasi dan pengelolaan sumber daya cluster Hadoop. Layanan ini adalah jantung dari BENANG.
JobTracker: Untuk server Hadoop 1, menangani pengelolaan sumber daya cluster dan penjadwalan. Dengan YARN, JobTracker sudah usang dan tidak digunakan. Sejumlah penyebaran Hadoop masih belum bermigrasi ke Hadoop 2 dan YARN.
HMaster: Memantau server wilayah HBase dan menangani semua perubahan metadata. Untuk memastikan ketersediaan tinggi, pastikan untuk menggunakan contoh HMaster kedua. Layanan HMaster cukup ringan untuk colocated dengan layanan lain pada node master. Dalam Hadoop 1, contoh layanan HMaster dijalankan pada node induk. Dalam Hadoop 2, dengan Hoya (HBase on Benang), HMaster berjalan dalam wadah pada node budak.
Zookeeper: Koordinat komponen terdistribusi dan berikan mekanisme untuk membuatnya tetap sinkron. Zookeeper digunakan untuk mendeteksi kegagalan NameNode dan memilih NameNode baru.Ini juga digunakan dengan HBase untuk mengelola negara bagian HMaster dan RegionServer.

Seperti halnya dengan JournalNode, Anda memerlukan setidaknya tiga contoh simpul Zookeeper (dan selalu angka ganjil), dan warnanya cukup ringan untuk dihubungkan dengan layanan lain pada node induk.

Di sini, Anda memiliki tiga node utama (dengan perangkat keras yang sama), di mana layanan utama Active NameNode, Standby NameNode, dan Resource Manager masing-masing memiliki server sendiri. Ada layanan JournalNode dan Zookeeper yang berjalan di setiap server juga, tapi ini ringan dan tidak akan menjadi sumber pertengkaran sumber daya dengan layanan NameNode dan Resource Manager.

Prinsipnya sama untuk Hadoop 1, di mana Anda memerlukan simpul master khusus untuk layanan NameNode, Secondary NameNode, dan JobTracker.

Jika Anda berencana menggunakan HBase dengan Hoya di Hadoop 2, Anda tidak memerlukan layanan tambahan. Untuk pemasangan Hadoop 1 menggunakan HBase, periksa gambar berikut untuk penyebaran layanan di cluster master Hadoop cluster. Ada dua perbedaan saat membandingkan server master ini dengan server master Hadoop 1 tanpa dukungan HBase: di sini Anda memerlukan dua layanan HMaster (satu untuk mengkoordinasikan HBase, dan satu untuk bertindak sebagai siaga) dan layanan penjaga rumah di ketiga node utama untuk menangani failover

Jika Anda berniat menggunakan cluster Hadoop 1 hanya untuk HBase, Anda dapat melakukannya tanpa layanan JobTracker, karena HBase tidak bergantung pada infrastruktur Hadoop 1 MapReduce.

Ketika orang membicarakan perangkat keras untuk Hadoop, mereka umumnya menekankan penggunaan komponen

komoditas - yang murah. Karena Anda harus memilah-milah hanya beberapa node master (biasanya, tiga atau empat), Anda tidak terpukul dengan mengalikan biaya jika, misalnya, Anda memutuskan untuk menggunakan hard disk drive mahal. Ingatlah bahwa, tanpa node utama, tidak ada cluster Hadoop. Master nodes melayani fungsi mission-critical, dan meskipun Anda membutuhkan redundansi, Anda harus merancangnya dengan ketersediaan dan ketahanan tinggi.

Penyimpanan yang disarankan

Untuk node master Hadoop, berapa pun jumlah node slave atau penggunaan cluster, karakteristik penyimpanannya konsisten. Gunakan empat drive SAS 900GB, bersama dengan pengendali RAID HDD yang dikonfigurasi untuk RAID 1 + 0. Drive SAS lebih mahal daripada drive SATA, dan memiliki kapasitas penyimpanan lebih rendah, namun lebih cepat dan jauh lebih dapat diandalkan.

Menyebarkan drive SAS Anda sebagai array RAID memastikan bahwa layanan manajemen Hadoop memiliki toko yang berlebihan untuk data mission-critical mereka. Ini memberi Anda penyimpanan yang cukup stabil, cepat, dan berlebihan untuk mendukung pengelolaan cluster Hadoop Anda.

Recommended processors

Pada saat penulisan ini, kebanyakan arsitektur referensi merekomendasikan penggunaan motherboard dengan dua soket CPU, masing-masing memiliki enam atau delapan inti. Arsitektur Intel Ivy Bridge biasa digunakan.

Memori yang disarankan

Kebutuhan memori sangat bervariasi tergantung pada skala cluster Hadoop.Memori merupakan faktor penting bagi node master Hadoop karena server NameNode yang aktif dan siaga sangat bergantung pada RAM untuk mengelola HDFS. Dengan demikian, gunakan error-correcting memory (ECC) untuk node master Hadoop. Biasanya, node master membutuhkan RAM antara 64GB dan 128GB.

Kebutuhan memori NameNode adalah fungsi langsung dari jumlah blok file yang tersimpan dalam HDFS. Sebagai aturan, NameNode menggunakan sekitar 1GB RAM per juta blok HDFS. (Ingatlah bahwa file dipecah menjadi blok individual dan direplikasi sehingga Anda memiliki tiga salinan dari setiap blok.)

Permintaan memori server Resource Manager, HMaster, Zookeeper, dan JournalNode kurang dari server NameNode. Namun, praktik yang baik untuk mengukur simpul master dengan cara yang konsisten sehingga bisa dipertukarkan apabila terjadi kegagalan perangkat keras.

Komunikasi yang disarankan