Rumah Keuangan Pribadi Cara Menggunakan MapReduce untuk Data Big - dummies

Cara Menggunakan MapReduce untuk Data Big - dummies

Daftar Isi:

Video: Aditya Riaddy - Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks 2024

Video: Aditya Riaddy - Apa itu Apache Spark dan Penggunaanya untuk Big Data Analytics | BukaTalks 2024
Anonim

MapReduce adalah kerangka kerja perangkat lunak yang ideal untuk data besar karena memungkinkan pengembang menulis program yang dapat memproses data dalam jumlah besar secara tidak terstruktur secara paralel di seluruh kelompok prosesor terdistribusi.

Fungsi peta untuk data besar

Fungsi map telah menjadi bagian dari banyak bahasa pemrograman fungsional selama bertahun-tahun. Peta telah diregruasi sebagai teknologi inti untuk memproses daftar elemen data.

Keuntungan lain untuk pemrograman fungsional tidak harus secara tegas mengatur pergerakan atau arus data. Ini membebaskan programmer dari pengelolaan data dan penempatan data secara eksplisit. Akhirnya, urutan operasi pada data tidak diresepkan.

Salah satu cara untuk menyelesaikan solusinya adalah dengan mengidentifikasi data masukan dan membuat daftar:

mylist = ("semua kabupaten di AS yang berpartisipasi dalam pemilihan umum paling akhir") > Buat fungsi howManyPeople menggunakan fungsi peta

.

Ini hanya memilih kabupaten dengan lebih dari 50.000 orang: peta howManyPeople (mylist) = [howManyPeople "county 1"; howManyPeople "county 2"; howManyPeople "county 3"; howManyPeople "county 4"; …] Sekarang buat daftar keluaran baru dari semua negara dengan populasi lebih dari 50.000:


(tidak, county 1; ya, county 2; tidak, county 3; yes, county 4;?, County nnn)

Fungsi dijalankan tanpa membuat perubahan pada daftar aslinya. Selain itu, Anda dapat melihat bahwa setiap elemen dari daftar keluaran memetakan ke elemen yang sesuai dari daftar input, dengan ya atau tidak terpasang. Jika county telah memenuhi persyaratan lebih dari 50.000 orang, fungsi peta mengidentifikasikannya dengan iya. Jika tidak, tidak ada indikasi.

Tambahkan fungsi pengurangan untuk data besar

Seperti fungsi peta,

reduce

telah menjadi fitur bahasa pemrograman fungsional selama bertahun-tahun. Fungsi mengurangi mengambil output dari fungsi peta dan "mengurangi" daftar dengan cara apa pun yang diinginkan pemrogram. Langkah pertama yang dibutuhkan fungsi pengurangan adalah memberi nilai pada sesuatu yang disebut akumulator, yang memegang nilai awal. Setelah menyimpan nilai awal pada akumulator, fungsi mengurangi kemudian memproses setiap elemen dari daftar dan melakukan operasi yang Anda butuhkan di seluruh daftar.

Di akhir daftar, fungsi pengurangan mengembalikan nilai berdasarkan operasi yang ingin Anda lakukan pada daftar output.

Misalkan Anda perlu mengidentifikasi negara di mana mayoritas suara adalah untuk kandidat Demokrat. Ingatlah bahwa fungsi peta howManyPeople Anda melihat setiap elemen dari daftar masukan dan membuat daftar keluaran negara dengan lebih dari 50.000 orang (ya) dan kabupaten dengan kurang dari 50.000 orang (tidak).

Setelah meminta fungsi peta howManyPeople, Anda akan ditinggalkan dengan daftar output berikut:

(no, county 1; yes, county 2; no, county 3; yes, county 4;, county nnn)

Sekarang ini adalah masukan untuk mengurangi fungsi Anda. Inilah bentuknya:

countylist = (tidak, county 1; ya, county 2; no, county 3; yes, county 4;?, County nnn) reduce isDemocrat (countylist)

Proses pengurangan fungsi setiap elemen daftar dan mengembalikan daftar semua kabupaten dengan populasi lebih dari 50.000, di mana mayoritas memilih Demokrat.

Menempatkan peta data yang besar dan mengurangi bersama

Kadang-kadang menghasilkan daftar output cukup. Demikian juga, terkadang melakukan operasi pada setiap elemen dalam daftar sudah cukup. Paling sering, Anda ingin melihat sejumlah besar data masukan, memilih elemen tertentu dari data, dan kemudian menghitung sesuatu yang bernilai dari potongan data yang relevan.

Anda tidak ingin mengubah daftar masukan itu sehingga Anda dapat menggunakannya dengan cara yang berbeda dengan asumsi dan data baru.

Pengembang perangkat lunak merancang aplikasi berdasarkan algoritma. Algoritma

tidak lebih dari serangkaian langkah yang perlu dilakukan dalam melayani keseluruhan tujuan. Mungkin terlihat sedikit seperti ini: Mulailah dengan sejumlah besar atau data atau catatan. Iterasi atas data.

  1. Gunakan fungsi peta untuk menarik sesuatu yang menarik dan buat daftar keluaran.

  2. Atur daftar output untuk dioptimalkan untuk diproses lebih lanjut.

  3. Gunakan fungsi pengurangan untuk menghitung satu set hasil.

  4. Menghasilkan hasil akhir.

  5. Pemrogram dapat menerapkan semua jenis aplikasi dengan menggunakan pendekatan ini, namun contohnya sampai saat ini sangat sederhana, sehingga nilai sebenarnya dari MapReduce mungkin tidak terlihat. Apa yang terjadi bila Anda memiliki data masukan yang sangat besar? Bisakah Anda menggunakan algoritma yang sama pada terabyte data? Kabar baiknya adalah ya.

  6. Semua operasi tampak independen. Itu karena memang begitu. Kekuatan sesungguhnya dari MapReduce adalah kemampuan untuk membagi dan menaklukkan. Ambillah masalah yang sangat besar dan pecahkan menjadi potongan yang lebih kecil dan lebih mudah diatur, beroperasi pada masing-masing potongan secara terpisah, dan kemudian tarik semuanya pada akhirnya. Selanjutnya, fungsi peta bersifat komutatif - dengan kata lain, perintah agar suatu fungsi dijalankan tidak masalah.

Jadi MapReduce dapat melakukan pekerjaannya pada mesin yang berbeda dalam jaringan. Ini juga bisa menarik dari beberapa sumber data, baik internal maupun eksternal. MapReduce melacak karyanya dengan membuat kunci unik untuk memastikan bahwa semua pemrosesan terkait untuk memecahkan masalah yang sama.Kunci ini juga digunakan untuk menarik semua output bersamaan pada akhir semua tugas terdistribusi.

Cara Menggunakan MapReduce untuk Data Big - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...