Video: Technology Stacks - Computer Science for Business Leaders 2016 2024
Jadi apa sebenarnya hal ini dengan nama yang lucu - Hadoop? Intinya, Hadoop adalah kerangka kerja untuk menyimpan data pada kelompok besar < barang dagangan perangkat keras - perangkat keras komputer sehari-hari yang terjangkau dan mudah tersedia - dan menjalankan aplikasi terhadap data tersebut. A cluster adalah sekelompok komputer yang saling berhubungan (dikenal sebagai node ) yang bisa bekerja sama dalam masalah yang sama.
Untuk nama itu, Hadoop, jangan mencari arti penting di sana, ini hanyalah nama yang diberikan anak Doug Cutting kepada gajahnya yang boneka. (Doug Cutting adalah, tentu saja, co-creator dari Hadoop.) Nama itu unik dan mudah diingat - karakteristik yang menjadikannya pilihan yang bagus. Hordeop terdiri dari dua komponen utama: kerangka pemrosesan terdistribusi bernama MapReduce (yang sekarang didukung oleh komponen yang disebut YARN) dan sistem file terdistribusi yang dikenal sebagai sistem file terdistribusi Hadoop, atau HDFS.
Aplikasi yang berjalan di Hadoop mendapat pekerjaan dibagi di antara node (mesin) di cluster, dan HDFS menyimpan data yang akan diproses. Sebuah cluster Hadoop dapat menjangkau ribuan mesin, di mana HDFS menyimpan data, dan pekerjaan MapReduce melakukan pemrosesan mereka di dekat data, yang membuat I / O tetap rendah. MapReduce sangat fleksibel, dan memungkinkan pengembangan berbagai macam aplikasi.
Seperti yang mungkin Anda duga, sebuah cluster Hadoop adalah bentuk cluster penghitungan
jenis cluster yang digunakan terutama untuk keperluan komputasi. Dalam kelompok komputasi, banyak komputer (menghitung node ) dapat berbagi beban kerja komputasi dan memanfaatkan bandwidth agregat yang sangat besar di cluster. Kelompok hadoop biasanya terdiri dari beberapa node induk, yang mengendalikan sistem penyimpanan dan pemrosesan di Hadoop, dan banyak simpul budak, yang menyimpan semua data cluster dan juga di mana data akan diproses