Cara Menggunakan Apache Hadoop untuk Prediktif Analytics - dummies

Video: Aditya Riaddy - Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks 2024

Apache Hadoop adalah platform perangkat lunak open source gratis untuk menulis dan menjalankan aplikasi yang memproses sejumlah besar data untuk analisis prediktif. Ini memungkinkan pemrosesan paralel terdistribusi dari dataset besar yang dihasilkan dari sumber yang berbeda. Intinya, ini alat yang ampuh untuk menyimpan dan mengolah data besar.

Hadoop menyimpan semua jenis data, terstruktur atau tidak terstruktur, dari sumber yang berbeda - dan kemudian mengumpulkan data itu hampir sesuai keinginan Anda. Hadoop menangani data heterogen dengan menggunakan pemrosesan paralel terdistribusi - yang membuatnya menjadi kerangka kerja yang sangat efisien untuk digunakan dalam perangkat lunak analitik yang menangani data besar. Tak heran beberapa perusahaan besar mengadopsi Hadoop, termasuk Facebook, Yahoo!., Google, IBM, Twitter, dan LinkedIn.

Hadoop, di sisi lain, membuat tugas itu tetap mulus - dengan biaya yang sedikit - memungkinkan perusahaan menemukan wawasan berharga tentang data berlimpah yang mereka dapatkan dan terakumulasi.

Anda tidak perlu membuat skema sebelum bisa memahami data Anda; Hadoop memungkinkan Anda untuk query data dalam format aslinya.

Hadoop menggunakan dua komponen utama (subproyek) untuk melakukan tugasnya: MapReduce dan Hadoop Distributed File System. Dua komponen bekerja secara kooperatif:

MapReduce

: Penerapan Hadoop terhadap MapReduce didasarkan pada penelitian Google mengenai model pemrograman untuk memproses dataset besar dengan membaginya menjadi beberapa blok tugas kecil. MapReduce menggunakan algoritma terdistribusi, pada sekelompok komputer dalam sebuah cluster, untuk memproses dataset besar.Ini terdiri dari dua fungsi:

Fungsi

Map ()
- yang berada pada master node (komputer berjejaring). Ini membagi kueri masukan atau tugas ke subtask yang lebih kecil, yang kemudian didistribusikan ke node pekerja yang memproses tugas yang lebih kecil dan lulus jawaban kembali ke node induk. Submenu dijalankan secara paralel pada banyak komputer. Fungsi Reduce ()
- mengumpulkan hasil semua subtugas dan menggabungkannya untuk menghasilkan hasil akhir gabungan - yang mengembalikannya sebagai jawaban atas kueri besar yang asli. Hadoop Distributed File System (HDFS) : HDFS mereplikasi blok data yang berada di komputer lain di pusat data Anda (untuk memastikan keandalan) dan mengelola transfer data ke berbagai bagian sistem terdistribusi Anda. Pertimbangkan database dua miliar orang, dan anggap Anda ingin menghitung jumlah teman sosial Mr. X dan mengaturnya sesuai dengan lokasi geografis mereka. Itu perintah yang tinggi.
Data untuk dua miliar orang bisa berasal dari sumber yang sangat berbeda seperti jaringan sosial, daftar alamat kontak e-mail, posting, tweet, riwayat penjelajahan - dan itu hanya untuk pembuka. Hadoop dapat menggabungkan keseluruhan data yang sangat beragam sehingga Anda dapat menyelidikinya dengan sebuah pertanyaan sederhana. Anda akan menggunakan kemampuan pemrograman MapReduce untuk memecahkan kueri ini. Mendefinisikan Peta dan Mengurangi prosedur membuat dataset besar ini dapat dikelola. Dengan menggunakan alat yang ditawarkan kerangka Hadoop, Anda akan membuat implementasi MapReduce yang akan melakukan perhitungan sebagai dua subtugas:

Hitunglah jumlah rata-rata teman sosial Mr. X.

Atur teman Tuan X berdasarkan lokasi geografis.

Program implementasi MapReduce Anda akan menjalankan subtugas ini secara paralel, mengelola komunikasi antara subtugas, dan mengumpulkan hasilnya. Dari dua miliar orang, Anda akan tahu teman online Mr. X yang mana.

Hadoop menyediakan berbagai prosesor Peta; yang mana yang Anda pilih tergantung pada infrastruktur Anda.
Masing-masing prosesor Anda akan menangani sejumlah catatan. Misalkan setiap prosesor menangani satu juta record data. Setiap prosesor mengeksekusi prosedur Peta yang menghasilkan beberapa catatan pasangan nilai kunci dimana

(kunci) adalah lokasi geografis seseorang (negara) dan

N (nilai) adalah jumlah kontak yang dimiliki orang tersebut. Misalkan setiap prosesor Peta menghasilkan banyak pasang dari bentuk, seperti berikut ini: Peta Prosesor # 1: Peta Prosesor # 2:

Peta Prosesor # 3:

Peta Prosesor # 4:

Peta Prosesor # 5:

Peta Prosesor # 6:

Pada fase Mengurangi, Hadoop memberikan tugas ke sejumlah prosesor: Jalankan prosedur Mengurangi yang menggabungkan nilai dari kunci yang sama untuk diproduksi. hasil akhir Untuk contoh ini, kurangi penerapan meringkas jumlah nilai untuk setiap lokasi geografis utama. Jadi, setelah fase Peta, fase Mengurangi menghasilkan hal berikut:

------ ----

Jelas, Mr.X adalah orang yang populer - tapi ini adalah contoh sederhana bagaimana MapReduce dapat digunakan. Bayangkan Anda sedang berhadapan dengan dataset besar di mana Anda ingin melakukan operasi yang kompleks seperti mengelompokkan miliaran dokumen tempat operasi dan datanya terlalu besar untuk menangani satu mesin tunggal. Hadoop adalah alat yang perlu dipertimbangkan.