Rumah Keuangan Pribadi Hadoop Integrasi dengan R - dummies

Hadoop Integrasi dengan R - dummies

Daftar Isi:

Video: Rahmatri Mardiko - Spark Architecture dan Machine Learning di Bukalapak | BukaTalks 2024

Video: Rahmatri Mardiko - Spark Architecture dan Machine Learning di Bukalapak | BukaTalks 2024
Anonim

Pada awalnya, data besar dan R bukan teman alami. Pemrograman R mengharuskan semua benda dimuat ke memori utama satu mesin. Keterbatasan arsitektur ini cepat terealisasi ketika data besar menjadi bagian dari persamaan. Sebaliknya, sistem file terdistribusi seperti Hadoop kehilangan teknik statistik yang kuat namun ideal untuk menskalakan operasi dan tugas yang kompleks. Solusi penskalaan vertikal - yang memerlukan investasi pada perangkat keras superkomputer mahal - seringkali tidak dapat bersaing dengan pengembalian biaya-nilai yang ditawarkan oleh kelompok perangkat keras komoditas terdistribusi.

Agar sesuai dengan keterbatasan bahasa dalam memori, single-engine dari bahasa R, ilmuwan data seringkali harus membatasi analisis hanya pada subset dari data sampel yang tersedia. Sebelum integrasi yang lebih dalam dengan Hadoop, pemrogram bahasa R menawarkan strategi skala untuk mengatasi tantangan dalam memori yang diajukan oleh kumpulan data yang besar pada mesin tunggal.

Ini dicapai dengan menggunakan sistem pesan-passing dan paging. Teknik ini mampu mempermudah kerja kumpulan data yang terlalu besar untuk disimpan dalam memori utama secara simultan; Namun, pendekatan pemrograman tingkat rendahnya menyajikan kurva belajar yang curam bagi mereka yang tidak terbiasa dengan paradigma pemrograman paralel.

Pendekatan alternatif berusaha mengintegrasikan kemampuan statistik R dengan kelompok terdistribusi Hadoop dengan dua cara: berinteraksi dengan bahasa query SQL, dan integrasi dengan Hadoop Streaming. Dengan yang pertama, tujuannya adalah untuk memanfaatkan platform data pergudangan SQL yang ada seperti Hive and Pig. Skema ini menyederhanakan pemrograman pekerjaan Hadoop menggunakan pernyataan ala SQL untuk menyediakan pemrograman tingkat tinggi untuk melakukan pekerjaan statistik melalui data Hadoop.

Bagi programmer yang ingin memprogram pekerjaan MapReduce dalam bahasa (termasuk R) selain Java, pilihan kedua adalah memanfaatkan API Streaming Hadoop. Pekerjaan MapReduce yang dikirim oleh pengguna mengalami transformasi data dengan bantuan aliran standar dan serial UNIX, yang menjamin masukan sesuai Java untuk Hadoop - terlepas dari bahasa yang awalnya dimasukkan oleh pemrogram.

Pengembang terus mengeksplorasi berbagai strategi untuk memanfaatkan kemampuan komputasi terdistribusi MapReduce dan kapasitas penyimpanan HDFS yang hampir tak terbatas dengan cara yang dapat dimanfaatkan oleh R.

Integrasi Hadoop with R sedang berlangsung, dengan penawaran tersedia dari IBM (Big R sebagai bagian dari BigInsights) dan Revolution Analytics (Revolution R Enterprise). Solusi menjembatani yang mengintegrasikan pemrograman tingkat tinggi dan bahasa query dengan Hadoop, seperti RHive dan RHadoop, juga tersedia.

Pada dasarnya, setiap sistem bertujuan untuk memberikan kemampuan analisis mendalam bahasa R ke kumpulan data yang jauh lebih besar.

RHive

Kerangka kerja RHive berfungsi sebagai jembatan antara bahasa R dan Sarang. RHive memberikan perpustakaan statistik kaya dan algoritma R ke data yang tersimpan di Hadoop dengan memperluas bahasa query Sual seperti HiveQL (HiveQL) dengan fungsi R-spesifik. Melalui fungsi RHive, Anda dapat menggunakan HiveQL untuk menerapkan model statistik R ke data di cluster Hadoop Anda yang telah Anda katalogkan dengan menggunakan Hive.

RHadoop

Kerangka open source lain yang tersedia untuk pemrogram R adalah RHadoop, kumpulan paket yang dimaksudkan untuk membantu mengelola distribusi dan analisis data dengan Hadoop. Tiga paket catatan - rmr2, rhdfs, dan rhbase - menyediakan sebagian besar fungsionalitas RHadoop:

rmr2:

  • Paket rmr2 mendukung terjemahan bahasa R ke dalam pekerjaan MapReduce yang sesuai dengan Hadoop (menghasilkan kode MapReduce tingkat rendah yang efisien dari kode R tingkat yang lebih tinggi). rhdfs:

  • Paket rhdfs menyediakan API bahasa R untuk pengelolaan file melalui toko HDFS. Dengan menggunakan rhdfs, pengguna dapat membaca dari toko HDFS ke frame data R (matriks), dan juga menulis data dari matriks R ini kembali ke penyimpanan HDFS. rhbase:

  • paket rhbase menyediakan API bahasa R juga, namun tujuan mereka dalam hidup adalah menangani pengelolaan database untuk toko HBase, bukan file HDFS. Revolusi R

Revolusi R (oleh Revolusi Analytics) adalah penawaran R komersial dengan dukungan untuk integrasi R pada sistem terdistribusi Hadoop. Revolution R berjanji untuk memberikan peningkatan kinerja, fungsi, dan kegunaan R on Hadoop. Untuk memberikan analisis mendalam seperti R, Revolution R memanfaatkan perpustakaan ScaleR perusahaan - kumpulan algoritma analisis statistik yang dikembangkan secara khusus untuk koleksi data besar skala enterprise.

ScaleR bertujuan untuk memberikan eksekusi cepat kode program R pada cluster Hadoop, yang memungkinkan pengembang R untuk fokus secara eksklusif pada algoritma statistik mereka dan bukan pada MapReduce. Selanjutnya, ia menangani banyak tugas analisis, seperti persiapan data, visualisasi, dan uji statistik. Big R menawarkan integrasi end-to-end antara R dan penawaran Hadoop IBM, BigInsights, yang memungkinkan pengembang R untuk menganalisis data Hadoop. Tujuannya adalah untuk mengeksploitasi sintaks pemrograman dan pengkodean pemrograman R, sekaligus memastikan agar data tetap beroperasi di HDFS. R datatypes berfungsi sebagai proxy untuk penyimpanan data ini, yang berarti pengembang R tidak perlu memikirkan konstruksi MapReduce tingkat rendah atau bahasa scripting Hadoop tertentu (seperti Babi).

Teknologi BigInsights Big R mendukung beberapa sumber data - termasuk file flat, HBase, dan format penyimpanan Sarang - sambil memberikan eksekusi kode R yang paralel dan terpisah di cluster Hadoop. Ini menyembunyikan banyak kerumitan kerangka kerja HDFS dan MapReduce yang mendasari, memungkinkan Big R berfungsi untuk melakukan analisis data komprehensif - baik pada data terstruktur maupun tidak terstruktur.

Akhirnya, skalabilitas mesin statistik Big R memungkinkan pengembang R memanfaatkan teknik statistik yang telah ditentukan sebelumnya, dan juga algoritma baru penulis.

Hadoop Integrasi dengan R - dummies

Pilihan Editor

Perancang Minigame Minigame - dummies

Perancang Minigame Minigame - dummies

Sebelum menulis semua kode untuk membuat Minecraft Minigame, Anda perlu merancang permainan Anda. The Gameplay Loop adalah proses sederhana yang bisa Anda ikuti untuk memastikan permainan Anda menyenangkan, menantang, dan lengkap. The Gameplay Loop memiliki empat bagian: Start: Buat adegan dasar. Tujuan: Menambahkan cara untuk menang dan ...

Menciptakan Efek Air dan Es di Minecraft - dummies

Menciptakan Efek Air dan Es di Minecraft - dummies

Satu hal yang rapi tentang Minecraft adalah bahwa beberapa fisika realistis sedang dimainkan dalam permainan. Misalnya, jika Anda memiliki air dan Anda memasukkan es ke dalamnya, itu akan membeku! Oke, mungkin di dunia nyata, menambahkan es tidak membuat air membeku, tapi memang membuatnya lebih dingin. Anda dapat melihat ini ...

Mendapatkan Minecraft Experience Points - dummies

Mendapatkan Minecraft Experience Points - dummies

Di Minecraft, experience points, XP untuk jangka pendek, dikumpulkan dari bola pengalaman bercahaya. Sebagai pemain mengumpulkan cukup bola dan meningkatkan tingkat pengalaman mereka, mereka akan dapat menggunakan tabel dan landasan yang mempesona untuk meningkatkan kemampuan banyak item seperti senjata, baju besi, dan peralatan. Jadi, bagaimana Anda bisa cepat mendapatkan ini ...

Pilihan Editor

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Infomasi editorial sama dengan artikel berita karena tujuan utamanya adalah untuk mengirimkan informasi. Di bawah payung grafis editorial, ada beberapa tipe yang berbeda, dengan keseimbangan bias dan objektivitas yang berbeda. Berikut adalah beberapa melihat: Badai salju menghantam kota Anda. Koran lokal menciptakan grafik yang menunjukkan hujan salju ...

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bahkan di dunia kabel ini, seniman masih suka sketsa Kabar baik! Sketsa kasar Anda dapat dengan mudah digunakan dalam draf infografis Anda. Anda dapat memindai sketsa atau mengambil gambar sketsa Anda dengan telepon Anda dan mengirim e-mail ke komputer Anda sendiri. Mereka tidak perlu diwarnai, cukup jelas bagi Anda untuk ...

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Infografis yang baik (jelas) harus mencakup seni yang bagus. Ilustrasi mempromosikan alur cerita, menentukan elemen secara visual, dan mencerahkan halaman yang mungkin diisi dengan tipe abu-abu. Ilustrasi bisa berupa gambar fisik, semacam bagan atau grafik, atau bahkan garis waktu. Kehidupan sehari-hari Anda dipenuhi dengan contoh bagaimana ilustrasi ...

Pilihan Editor

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

Tentang Penalaran Melalui bagian Seni Bahasa GED, Anda mungkin diminta untuk menjawab pertanyaan tentang bagian teknis. Ini bisa termasuk petunjuk cara melengkapi, seperti berikut. Pertanyaan dalam artikel ini mengacu pada kutipan berikut dari Russell Hart's Photography For Dummies, 2nd Edition (Wiley). Apa Rahasia Untuk ...

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

Di beberapa titik selama bagian Ilmu Pengetahuan dari Tes GEE, Anda akan diminta untuk membuat jawaban singkat. Anda akan diberi sebuah bagian dan mengajukan pertanyaan yang perlu Anda tanggapi. Buat respons Anda jelas dan ringkas. Bagian Jawaban Jawaban Semua orang mengenal keju cheddar. Orang-orang meletakkan ...

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

Di bagian Ilmu Sosial GED, Anda mungkin diminta untuk menjawab pertanyaan tentang berbagai bentuk media, termasuk siaran berita. Lihatlah contoh berikut di bawah ini. Pertanyaan dalam artikel ini mengacu pada siaran berita berikut. Berita Lingkungan Dunia Selamat malam dan selamat datang di World Environmental News. Cerita kami ini ...