Rumah Keuangan Pribadi Zona Pendaratan Berbasis Hadoop - dummies

Zona Pendaratan Berbasis Hadoop - dummies

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024

Video: Technology Stacks - Computer Science for Business Leaders 2016 2024
Anonim

Saat Anda mencoba memecahkan masalah lingkungan analisis Mungkin akan terlihat seperti di masa depan, Anda menemukan pola zona pendaratan berbasis Hadoop berkali-kali. Sebenarnya, ini bukan lagi diskusi yang berorientasi pada masa depan karena zona pendaratan telah menjadi cara yang tepat sehingga perusahaan yang mencari masa depan sekarang mencoba menghemat biaya TI dan menyediakan platform untuk analisis data inovatif. Jadi, apa tepatnya zona pendaratan? Pada tingkat yang paling dasar, zona pendaratan hanya sebagai tempat utama dimana data akan mendarat di perusahaan Anda - ekstraksi data mingguan dari database operasional, misalnya, atau dari sistem yang menghasilkan file log. Hadoop adalah repositori yang berguna untuk data tanah, karena alasan berikut:

Ini bisa menangani semua jenis data. Ini mudah terukur.

harganya murah.
  • Setelah data tanah Anda di Hadoop, Anda memiliki fleksibilitas untuk bertanya, menganalisis, atau memproses data dengan berbagai cara.

  • Diagram ini hanya menunjukkan bagian dari cerita dan sama sekali tidak lengkap. Setelah semua, Anda perlu tahu bagaimana data bergerak dari zona pendaratan ke gudang data, dan seterusnya.

  • Titik awal untuk diskusi mengenai modernisasi data warehouse adalah bagaimana organisasi menggunakan gudang data dan tantangan yang dihadapi departemen TI dengan mereka.

Pada tahun 1980an, begitu organisasi menjadi pandai menyimpan informasi operasional mereka di database relasional (transaksi penjualan, misalnya, atau status rantai pasokan), para pemimpin bisnis mulai menginginkan laporan yang dihasilkan dari data relasional ini. Toko relasional paling awal adalah database operasional dan dirancang untuk Online Transaction Processing (OLTP), sehingga catatan dapat disisipkan, diperbarui, atau dihapus secepat mungkin.

Ini adalah arsitektur yang tidak praktis untuk pelaporan dan analisis skala besar, sehingga database Relational Online Analytical Processing (ROLAP) dikembangkan untuk memenuhi kebutuhan ini. Hal ini menyebabkan evolusi tipe RDBMS yang baru: gudang data

yang merupakan entitas terpisah dan tinggal di samping toko data operasional organisasi.

Ini turun menggunakan alat yang dirancang khusus untuk efisiensi yang lebih besar: Anda memiliki toko data operasional, yang dirancang untuk memproses transaksi secara efisien, dan gudang data, yang dirancang untuk mendukung analisis dan pelaporan berulang. Gudang data mengalami tekanan yang meningkat, karena alasan berikut: Meningkatnya permintaan untuk menyimpan data online yang lebih lama.

Meningkatnya permintaan akan sumber daya pengolahan untuk mentransformasikan data untuk digunakan di gudang lain dan data mart.

Meningkatnya permintaan akan analisis inovatif, yang mengharuskan analis mengajukan pertanyaan pada data gudang, di atas laporan reguler yang sudah selesai dilakukan. Hal ini dapat menimbulkan proses tambahan yang signifikan.

  • Pada gambar tersebut, Anda dapat melihat gudang data yang disajikan sebagai sumber utama untuk berbagai jenis analisis yang tercantum di sisi kanan gambar. Disini Anda juga melihat konsep landing zone yang diwakili, dimana Hadoop akan menyimpan data dari berbagai sumber data yang masuk.

  • Untuk mengaktifkan zona pendaratan Hadoop, Anda harus memastikan bahwa Anda dapat menulis data dari berbagai sumber data ke HDFS. Untuk database relasional, solusi yang bagus adalah menggunakan Sqoop.

  • Tapi pendaratan data hanyalah permulaan.

Bila Anda memindahkan data dari banyak sumber ke zona pendaratan Anda, satu masalah yang pasti akan Anda hadapi adalah kualitas data. Sudah umum bagi perusahaan untuk memiliki banyak basis data operasional yang rincian utamanya berbeda, misalnya, bahwa pelanggan mungkin dikenal sebagai "D. deRoos "dalam satu database, dan" Dirk deRoos "di tempat lain.

Masalah kualitas lainnya terletak pada sistem di mana ada ketergantungan yang tinggi pada entri data manual, baik dari pelanggan atau staf - di sini, tidak biasa menemukan nama depan dan nama belakang diaktifkan atau informasi salah lainnya di bidang data.

Masalah kualitas data adalah masalah besar untuk lingkungan data warehouse, dan oleh karena itu banyak usaha menuju tahap pembersihan dan validasi karena data dari sistem lain diproses karena dimuat ke gudang. Semuanya turun ke

kepercayaan

: jika data yang Anda ajukan bertentangan adalah kotor, Anda tidak dapat mempercayai jawaban dalam laporan Anda.

Jadi, sementara ada potensi besar untuk memiliki akses ke berbagai kumpulan data dari berbagai sumber di zona pendaratan Hadoop Anda, Anda harus mempertimbangkan kualitas data dan seberapa besar Anda dapat mempercayai data.

Zona Pendaratan Berbasis Hadoop - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...