Video: Introduction to Amazon Web Services by Leo Zhadanovsky 2024
Alasannya orang sampel data mereka sebelum menjalankan analisis statistik di Hadoop adalah bahwa jenis analisis ini sering membutuhkan sumber daya komputasi yang signifikan. Ini bukan hanya tentang volume data: ada lima faktor utama yang mempengaruhi skala analisis statistik:
-
Yang mudah ini, tapi kami harus menyebutkannya: volume data yang akan Anda analisis pasti menentukan skala analisis.
-
Jumlah transformasi yang dibutuhkan pada kumpulan data sebelum menerapkan model statistik jelas merupakan faktor.
-
Jumlah korelasi berpasangan yang Anda perlukan untuk menghitung berperan.
-
Tingkat kerumitan perhitungan statistik yang akan diterapkan adalah faktor.
-
Jumlah model statistik yang akan diterapkan pada kumpulan data Anda memainkan peran penting.
Hadoop menawarkan jalan keluar dari dilema ini dengan menyediakan sebuah platform untuk melakukan pemrosesan paralel secara massal pada data di Hadoop.
Dengan melakukannya, ia dapat membalik aliran data analitik; daripada memindahkan data dari repositori ke server analisis, Hadoop memberikan analisis langsung ke data. Lebih khusus lagi, HDFS memungkinkan Anda menyimpan data pegunungan Anda dan kemudian membawa perhitungan (dalam bentuk tugas MapReduce) ke simpul budak.
Tantangan umum yang diajukan dengan beralih dari sistem statistik multi-pengolahan simetris tradisional (SMP) ke arsitektur Hadoop adalah wilayah data. Pada platform SMP tradisional, beberapa prosesor berbagi akses ke satu sumber memori utama.
Di Hadoop, HDFS mereplikasi partisi data di beberapa node dan mesin. Selain itu, algoritma statistik yang dirancang untuk memproses data dalam memori sekarang harus disesuaikan dengan kumpulan data yang mencakup beberapa node / rak dan tidak dapat berharap untuk muat dalam satu blok memori.