Video: Aditya Riaddy - Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks 2024
Hadoop adalah alat pengolahan data open source yang dikembangkan oleh Apache Software Foundation. Hadoop saat ini merupakan program go-to untuk menangani volume dan variasi data yang besar karena dirancang untuk membuat komputasi berskala besar lebih terjangkau dan fleksibel. Dengan kedatangan Hadoop, pemrosesan data massal telah diperkenalkan kepada lebih banyak orang dan lebih banyak organisasi.
Hadoop dapat menawarkan solusi terbaik untuk menangani, memproses, dan mengelompokkan aliran massal data terstruktur, semi terstruktur, dan tidak terstruktur. Dengan mengatur dan menerapkan Hadoop, Anda mendapatkan cara yang relatif terjangkau untuk mulai menggunakan dan menggambar wawasan dari semua data organisasi Anda, bukan hanya terus bergantung hanya pada kumpulan data transaksional yang Anda miliki di gudang data lama di suatu tempat.
Hadoop adalah salah satu program terpopuler yang tersedia untuk kebutuhan komputasi berskala besar. Hadoop menyediakan lapisan peta dan-pengurangan yang mampu menangani persyaratan pemrosesan data dari sebagian besar proyek data besar.
Terkadang data menjadi terlalu besar dan cepat bahkan untuk ditangani oleh Hadoop. Dalam kasus ini, organisasi beralih ke penerapan MapReduce alternatif yang lebih disesuaikan.
Hadoop menggunakan kumpulan perangkat keras komoditas untuk menyimpan data. Perangkat keras di setiap cluster terhubung, dan perangkat keras ini terdiri dari komoditas server - server generik dengan biaya rendah dan berkinerja rendah yang menawarkan kemampuan komputasi yang kuat saat dijalankan sejajar di cluster bersama. Server komoditas ini juga disebut node . Komputasi komoditi secara dramatis menurunkan biaya yang diperlukan untuk menangani dan menyimpan data yang besar.
Hadoop terdiri dari dua komponen berikut:
-
Kerangka proses terdistribusi: Hadoop menggunakan Hadoop MapReduce sebagai kerangka pemrosesan terdistribusinya. Sekali lagi, kerangka pemrosesan terdistribusi adalah kerangka kerja yang kuat dimana tugas pemrosesan didistribusikan melintasi sekelompok node sehingga volume data yang besar dapat diproses dengan sangat cepat di seluruh sistem secara keseluruhan.
-
Sistem berkas terdistribusi: Hadoop menggunakan Hadoop Distributed File System (HDFS) sebagai sistem berkas terdistribusinya.
Beban kerja aplikasi yang berjalan di Hadoop dibagi di antara node cluster Hadoop, dan kemudian hasilnya disimpan di HDFS. Cluster Hadoop dapat terdiri dari ribuan node. Untuk menjaga agar biaya proses input / output (I / O) rendah, pekerjaan Hadoop MapReduce dilakukan sedekat mungkin dengan data.
Ini berarti bahwa pengurangan tugas prosesor diposisikan sedekat mungkin dengan data tugas peta keluar yang perlu diolah. Desain ini memfasilitasi pembagian persyaratan komputasi dalam pemrosesan data yang besar.
Hadoop juga mendukung organisasi hierarkis. Beberapa nodanya diklasifikasikan sebagai node induk, dan yang lainnya dikategorikan sebagai budak. Layanan master, yang dikenal sebagai JobTracker , dirancang untuk mengendalikan beberapa layanan budak. Layanan slave (juga disebut TaskTrackers ) didistribusikan satu ke setiap node. JobTracker mengendalikan TaskTracker dan memberikan tugas kepada Hadoop MapReduce kepada mereka.
Dalam versi yang lebih baru dari Hadoop, yang dikenal sebagai Hadoop 2, seorang manajer sumber daya yang disebut Hadoop YARN ditambahkan. Sehubungan dengan MapReduce di Hadoop, YARN bertindak sebagai sistem terpadu yang melakukan fungsi pengelolaan dan penjadwalan sumber daya.
Hadoop memproses data secara batch. Akibatnya, jika Anda bekerja dengan data streaming real-time, Anda tidak dapat menggunakan Hadoop untuk menangani masalah data besar Anda. Ini mengatakan, ini sangat berguna untuk memecahkan banyak jenis masalah data besar lainnya.