Rumah Keuangan Pribadi Cara Menggunakan Apache Hadoop untuk Prediktif Analytics - dummies

Cara Menggunakan Apache Hadoop untuk Prediktif Analytics - dummies

Video: Aditya Riaddy - Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks 2024

Video: Aditya Riaddy - Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks 2024
Anonim

Apache Hadoop adalah platform perangkat lunak open source gratis untuk menulis dan menjalankan aplikasi yang memproses sejumlah besar data untuk analisis prediktif. Ini memungkinkan pemrosesan paralel terdistribusi dari dataset besar yang dihasilkan dari sumber yang berbeda. Intinya, ini alat yang ampuh untuk menyimpan dan mengolah data besar.

Hadoop menyimpan semua jenis data, terstruktur atau tidak terstruktur, dari sumber yang berbeda - dan kemudian mengumpulkan data itu hampir sesuai keinginan Anda. Hadoop menangani data heterogen dengan menggunakan pemrosesan paralel terdistribusi - yang membuatnya menjadi kerangka kerja yang sangat efisien untuk digunakan dalam perangkat lunak analitik yang menangani data besar. Tak heran beberapa perusahaan besar mengadopsi Hadoop, termasuk Facebook, Yahoo!., Google, IBM, Twitter, dan LinkedIn.

Hadoop, di sisi lain, membuat tugas itu tetap mulus - dengan biaya yang sedikit - memungkinkan perusahaan menemukan wawasan berharga tentang data berlimpah yang mereka dapatkan dan terakumulasi.

Anda tidak perlu membuat skema sebelum bisa memahami data Anda; Hadoop memungkinkan Anda untuk query data dalam format aslinya.

Hadoop menggunakan dua komponen utama (subproyek) untuk melakukan tugasnya: MapReduce dan Hadoop Distributed File System. Dua komponen bekerja secara kooperatif:

MapReduce

: Penerapan Hadoop terhadap MapReduce didasarkan pada penelitian Google mengenai model pemrograman untuk memproses dataset besar dengan membaginya menjadi beberapa blok tugas kecil. MapReduce menggunakan algoritma terdistribusi, pada sekelompok komputer dalam sebuah cluster, untuk memproses dataset besar.Ini terdiri dari dua fungsi:

Fungsi

  • Map ()

    • yang berada pada master node (komputer berjejaring). Ini membagi kueri masukan atau tugas ke subtask yang lebih kecil, yang kemudian didistribusikan ke node pekerja yang memproses tugas yang lebih kecil dan lulus jawaban kembali ke node induk. Submenu dijalankan secara paralel pada banyak komputer. Fungsi Reduce ()

    • mengumpulkan hasil semua subtugas dan menggabungkannya untuk menghasilkan hasil akhir gabungan - yang mengembalikannya sebagai jawaban atas kueri besar yang asli. Hadoop Distributed File System (HDFS) : HDFS mereplikasi blok data yang berada di komputer lain di pusat data Anda (untuk memastikan keandalan) dan mengelola transfer data ke berbagai bagian sistem terdistribusi Anda. Pertimbangkan database dua miliar orang, dan anggap Anda ingin menghitung jumlah teman sosial Mr. X dan mengaturnya sesuai dengan lokasi geografis mereka. Itu perintah yang tinggi.

  • Data untuk dua miliar orang bisa berasal dari sumber yang sangat berbeda seperti jaringan sosial, daftar alamat kontak e-mail, posting, tweet, riwayat penjelajahan - dan itu hanya untuk pembuka. Hadoop dapat menggabungkan keseluruhan data yang sangat beragam sehingga Anda dapat menyelidikinya dengan sebuah pertanyaan sederhana. Anda akan menggunakan kemampuan pemrograman MapReduce untuk memecahkan kueri ini. Mendefinisikan Peta dan Mengurangi prosedur membuat dataset besar ini dapat dikelola. Dengan menggunakan alat yang ditawarkan kerangka Hadoop, Anda akan membuat implementasi MapReduce yang akan melakukan perhitungan sebagai dua subtugas:

Hitunglah jumlah rata-rata teman sosial Mr. X.

Atur teman Tuan X berdasarkan lokasi geografis.

Program implementasi MapReduce Anda akan menjalankan subtugas ini secara paralel, mengelola komunikasi antara subtugas, dan mengumpulkan hasilnya. Dari dua miliar orang, Anda akan tahu teman online Mr. X yang mana.

  • Hadoop menyediakan berbagai prosesor Peta; yang mana yang Anda pilih tergantung pada infrastruktur Anda.

  • Masing-masing prosesor Anda akan menangani sejumlah catatan. Misalkan setiap prosesor menangani satu juta record data. Setiap prosesor mengeksekusi prosedur Peta yang menghasilkan beberapa catatan pasangan nilai kunci dimana

G

(kunci) adalah lokasi geografis seseorang (negara) dan

N (nilai) adalah jumlah kontak yang dimiliki orang tersebut. Misalkan setiap prosesor Peta menghasilkan banyak pasang dari bentuk, seperti berikut ini: Peta Prosesor # 1: Peta Prosesor # 2:

Peta Prosesor # 3:

Peta Prosesor # 4:

Peta Prosesor # 5:

Peta Prosesor # 6:

Pada fase Mengurangi, Hadoop memberikan tugas ke sejumlah prosesor: Jalankan prosedur Mengurangi yang menggabungkan nilai dari kunci yang sama untuk diproduksi. hasil akhir Untuk contoh ini, kurangi penerapan meringkas jumlah nilai untuk setiap lokasi geografis utama. Jadi, setelah fase Peta, fase Mengurangi menghasilkan hal berikut:

------ ----

Jelas, Mr.X adalah orang yang populer - tapi ini adalah contoh sederhana bagaimana MapReduce dapat digunakan. Bayangkan Anda sedang berhadapan dengan dataset besar di mana Anda ingin melakukan operasi yang kompleks seperti mengelompokkan miliaran dokumen tempat operasi dan datanya terlalu besar untuk menangani satu mesin tunggal. Hadoop adalah alat yang perlu dipertimbangkan.

Cara Menggunakan Apache Hadoop untuk Prediktif Analytics - dummies

Pilihan Editor

Perancang Minigame Minigame - dummies

Perancang Minigame Minigame - dummies

Sebelum menulis semua kode untuk membuat Minecraft Minigame, Anda perlu merancang permainan Anda. The Gameplay Loop adalah proses sederhana yang bisa Anda ikuti untuk memastikan permainan Anda menyenangkan, menantang, dan lengkap. The Gameplay Loop memiliki empat bagian: Start: Buat adegan dasar. Tujuan: Menambahkan cara untuk menang dan ...

Menciptakan Efek Air dan Es di Minecraft - dummies

Menciptakan Efek Air dan Es di Minecraft - dummies

Satu hal yang rapi tentang Minecraft adalah bahwa beberapa fisika realistis sedang dimainkan dalam permainan. Misalnya, jika Anda memiliki air dan Anda memasukkan es ke dalamnya, itu akan membeku! Oke, mungkin di dunia nyata, menambahkan es tidak membuat air membeku, tapi memang membuatnya lebih dingin. Anda dapat melihat ini ...

Mendapatkan Minecraft Experience Points - dummies

Mendapatkan Minecraft Experience Points - dummies

Di Minecraft, experience points, XP untuk jangka pendek, dikumpulkan dari bola pengalaman bercahaya. Sebagai pemain mengumpulkan cukup bola dan meningkatkan tingkat pengalaman mereka, mereka akan dapat menggunakan tabel dan landasan yang mempesona untuk meningkatkan kemampuan banyak item seperti senjata, baju besi, dan peralatan. Jadi, bagaimana Anda bisa cepat mendapatkan ini ...

Pilihan Editor

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Infomasi editorial sama dengan artikel berita karena tujuan utamanya adalah untuk mengirimkan informasi. Di bawah payung grafis editorial, ada beberapa tipe yang berbeda, dengan keseimbangan bias dan objektivitas yang berbeda. Berikut adalah beberapa melihat: Badai salju menghantam kota Anda. Koran lokal menciptakan grafik yang menunjukkan hujan salju ...

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bahkan di dunia kabel ini, seniman masih suka sketsa Kabar baik! Sketsa kasar Anda dapat dengan mudah digunakan dalam draf infografis Anda. Anda dapat memindai sketsa atau mengambil gambar sketsa Anda dengan telepon Anda dan mengirim e-mail ke komputer Anda sendiri. Mereka tidak perlu diwarnai, cukup jelas bagi Anda untuk ...

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Infografis yang baik (jelas) harus mencakup seni yang bagus. Ilustrasi mempromosikan alur cerita, menentukan elemen secara visual, dan mencerahkan halaman yang mungkin diisi dengan tipe abu-abu. Ilustrasi bisa berupa gambar fisik, semacam bagan atau grafik, atau bahkan garis waktu. Kehidupan sehari-hari Anda dipenuhi dengan contoh bagaimana ilustrasi ...

Pilihan Editor

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

Tentang Penalaran Melalui bagian Seni Bahasa GED, Anda mungkin diminta untuk menjawab pertanyaan tentang bagian teknis. Ini bisa termasuk petunjuk cara melengkapi, seperti berikut. Pertanyaan dalam artikel ini mengacu pada kutipan berikut dari Russell Hart's Photography For Dummies, 2nd Edition (Wiley). Apa Rahasia Untuk ...

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

Di beberapa titik selama bagian Ilmu Pengetahuan dari Tes GEE, Anda akan diminta untuk membuat jawaban singkat. Anda akan diberi sebuah bagian dan mengajukan pertanyaan yang perlu Anda tanggapi. Buat respons Anda jelas dan ringkas. Bagian Jawaban Jawaban Semua orang mengenal keju cheddar. Orang-orang meletakkan ...

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

Di bagian Ilmu Sosial GED, Anda mungkin diminta untuk menjawab pertanyaan tentang berbagai bentuk media, termasuk siaran berita. Lihatlah contoh berikut di bawah ini. Pertanyaan dalam artikel ini mengacu pada siaran berita berikut. Berita Lingkungan Dunia Selamat malam dan selamat datang di World Environmental News. Cerita kami ini ...