Video: Crystal Widjaja - Pemanfaatan Big Data di dalam Bisnis GO-JEK | BukaTalks 2024
Search engine inovator seperti Yahoo! dan Google dihadapkan dengan masalah data rawa. Mereka perlu menemukan cara untuk memahami sejumlah besar data yang dikumpulkan oleh mesin mereka. Perusahaan-perusahaan ini perlu memahami informasi apa yang mereka kumpulkan dan bagaimana mereka dapat menguangkan data tersebut untuk mendukung model bisnis mereka.
Hadoop dikembangkan karena merupakan cara yang paling pragmatis untuk memungkinkan perusahaan mengatur volume data yang besar dengan mudah. Hadoop membiarkan masalah besar dipecah menjadi elemen yang lebih kecil sehingga analisis bisa dilakukan dengan cepat dan hemat biaya.
Hadoop awalnya dibangun oleh Yahoo! insinyur bernama Doug Cutting dan sekarang merupakan proyek open source yang dikelola oleh Apache Software Foundation. Ini tersedia di bawah Lisensi Apache v2. 0.Hadoop adalah blok bangunan mendasar dalam keinginan kita untuk menangkap dan memproses data besar. Hadoop dirancang untuk memparalelkan pemrosesan data di seluruh node komputasi untuk mempercepat perhitungan dan menyembunyikan latensi. Intinya, Hadoop memiliki dua komponen utama:
-
Cluster penyimpanan data yang andal, berbiaya tinggi dan berbiaya rendah yang memudahkan pengelolaan file terkait di seluruh mesin. Mesin MapReduce:
-
Implementasi pemrosesan data paralel / terdistribusi dengan kinerja tinggi dari algoritma MapReduce. Hadoop dirancang untuk memproses sejumlah besar data terstruktur dan tidak terstruktur (terabyte to petabyte) dan diimplementasikan di rak server komoditas sebagai cluster Hadoop. Server dapat ditambahkan atau dihapus dari cluster secara dinamis karena Hadoop dirancang untuk menjadi "penyembuhan diri sendiri. "Dengan kata lain, Hadoop mampu mendeteksi perubahan, termasuk kegagalan, dan menyesuaikan diri terhadap perubahan tersebut dan terus beroperasi tanpa gangguan.