Rumah Keuangan Pribadi Cara Menggunakan Apache Hadoop untuk Prediktif Analytics - dummies

Cara Menggunakan Apache Hadoop untuk Prediktif Analytics - dummies

Video: Aditya Riaddy - Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks 2024

Video: Aditya Riaddy - Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks 2024
Anonim

Apache Hadoop adalah platform perangkat lunak open source gratis untuk menulis dan menjalankan aplikasi yang memproses sejumlah besar data untuk analisis prediktif. Ini memungkinkan pemrosesan paralel terdistribusi dari dataset besar yang dihasilkan dari sumber yang berbeda. Intinya, ini alat yang ampuh untuk menyimpan dan mengolah data besar.

Hadoop menyimpan semua jenis data, terstruktur atau tidak terstruktur, dari sumber yang berbeda - dan kemudian mengumpulkan data itu hampir sesuai keinginan Anda. Hadoop menangani data heterogen dengan menggunakan pemrosesan paralel terdistribusi - yang membuatnya menjadi kerangka kerja yang sangat efisien untuk digunakan dalam perangkat lunak analitik yang menangani data besar. Tak heran beberapa perusahaan besar mengadopsi Hadoop, termasuk Facebook, Yahoo!., Google, IBM, Twitter, dan LinkedIn.

Hadoop, di sisi lain, membuat tugas itu tetap mulus - dengan biaya yang sedikit - memungkinkan perusahaan menemukan wawasan berharga tentang data berlimpah yang mereka dapatkan dan terakumulasi.

Anda tidak perlu membuat skema sebelum bisa memahami data Anda; Hadoop memungkinkan Anda untuk query data dalam format aslinya.

Hadoop menggunakan dua komponen utama (subproyek) untuk melakukan tugasnya: MapReduce dan Hadoop Distributed File System. Dua komponen bekerja secara kooperatif:

MapReduce

: Penerapan Hadoop terhadap MapReduce didasarkan pada penelitian Google mengenai model pemrograman untuk memproses dataset besar dengan membaginya menjadi beberapa blok tugas kecil. MapReduce menggunakan algoritma terdistribusi, pada sekelompok komputer dalam sebuah cluster, untuk memproses dataset besar.Ini terdiri dari dua fungsi:

Fungsi

  • Map ()

    • yang berada pada master node (komputer berjejaring). Ini membagi kueri masukan atau tugas ke subtask yang lebih kecil, yang kemudian didistribusikan ke node pekerja yang memproses tugas yang lebih kecil dan lulus jawaban kembali ke node induk. Submenu dijalankan secara paralel pada banyak komputer. Fungsi Reduce ()

    • mengumpulkan hasil semua subtugas dan menggabungkannya untuk menghasilkan hasil akhir gabungan - yang mengembalikannya sebagai jawaban atas kueri besar yang asli. Hadoop Distributed File System (HDFS) : HDFS mereplikasi blok data yang berada di komputer lain di pusat data Anda (untuk memastikan keandalan) dan mengelola transfer data ke berbagai bagian sistem terdistribusi Anda. Pertimbangkan database dua miliar orang, dan anggap Anda ingin menghitung jumlah teman sosial Mr. X dan mengaturnya sesuai dengan lokasi geografis mereka. Itu perintah yang tinggi.

  • Data untuk dua miliar orang bisa berasal dari sumber yang sangat berbeda seperti jaringan sosial, daftar alamat kontak e-mail, posting, tweet, riwayat penjelajahan - dan itu hanya untuk pembuka. Hadoop dapat menggabungkan keseluruhan data yang sangat beragam sehingga Anda dapat menyelidikinya dengan sebuah pertanyaan sederhana. Anda akan menggunakan kemampuan pemrograman MapReduce untuk memecahkan kueri ini. Mendefinisikan Peta dan Mengurangi prosedur membuat dataset besar ini dapat dikelola. Dengan menggunakan alat yang ditawarkan kerangka Hadoop, Anda akan membuat implementasi MapReduce yang akan melakukan perhitungan sebagai dua subtugas:

Hitunglah jumlah rata-rata teman sosial Mr. X.

Atur teman Tuan X berdasarkan lokasi geografis.

Program implementasi MapReduce Anda akan menjalankan subtugas ini secara paralel, mengelola komunikasi antara subtugas, dan mengumpulkan hasilnya. Dari dua miliar orang, Anda akan tahu teman online Mr. X yang mana.

  • Hadoop menyediakan berbagai prosesor Peta; yang mana yang Anda pilih tergantung pada infrastruktur Anda.

  • Masing-masing prosesor Anda akan menangani sejumlah catatan. Misalkan setiap prosesor menangani satu juta record data. Setiap prosesor mengeksekusi prosedur Peta yang menghasilkan beberapa catatan pasangan nilai kunci dimana

G

(kunci) adalah lokasi geografis seseorang (negara) dan

N (nilai) adalah jumlah kontak yang dimiliki orang tersebut. Misalkan setiap prosesor Peta menghasilkan banyak pasang dari bentuk, seperti berikut ini: Peta Prosesor # 1: Peta Prosesor # 2:

Peta Prosesor # 3:

Peta Prosesor # 4:

Peta Prosesor # 5:

Peta Prosesor # 6:

Pada fase Mengurangi, Hadoop memberikan tugas ke sejumlah prosesor: Jalankan prosedur Mengurangi yang menggabungkan nilai dari kunci yang sama untuk diproduksi. hasil akhir Untuk contoh ini, kurangi penerapan meringkas jumlah nilai untuk setiap lokasi geografis utama. Jadi, setelah fase Peta, fase Mengurangi menghasilkan hal berikut:

------ ----

Jelas, Mr.X adalah orang yang populer - tapi ini adalah contoh sederhana bagaimana MapReduce dapat digunakan. Bayangkan Anda sedang berhadapan dengan dataset besar di mana Anda ingin melakukan operasi yang kompleks seperti mengelompokkan miliaran dokumen tempat operasi dan datanya terlalu besar untuk menangani satu mesin tunggal. Hadoop adalah alat yang perlu dipertimbangkan.

Cara Menggunakan Apache Hadoop untuk Prediktif Analytics - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...