Video: Technology Stacks - Computer Science for Business Leaders 2016 2024
Saat Anda mencoba memecahkan masalah lingkungan analisis Mungkin akan terlihat seperti di masa depan, Anda menemukan pola zona pendaratan berbasis Hadoop berkali-kali. Sebenarnya, ini bukan lagi diskusi yang berorientasi pada masa depan karena zona pendaratan telah menjadi cara yang tepat sehingga perusahaan yang mencari masa depan sekarang mencoba menghemat biaya TI dan menyediakan platform untuk analisis data inovatif. Jadi, apa tepatnya zona pendaratan? Pada tingkat yang paling dasar, zona pendaratan hanya sebagai tempat utama dimana data akan mendarat di perusahaan Anda - ekstraksi data mingguan dari database operasional, misalnya, atau dari sistem yang menghasilkan file log. Hadoop adalah repositori yang berguna untuk data tanah, karena alasan berikut:
-
Setelah data tanah Anda di Hadoop, Anda memiliki fleksibilitas untuk bertanya, menganalisis, atau memproses data dengan berbagai cara.
-
Diagram ini hanya menunjukkan bagian dari cerita dan sama sekali tidak lengkap. Setelah semua, Anda perlu tahu bagaimana data bergerak dari zona pendaratan ke gudang data, dan seterusnya.
-
-
Titik awal untuk diskusi mengenai modernisasi data warehouse adalah bagaimana organisasi menggunakan gudang data dan tantangan yang dihadapi departemen TI dengan mereka.
Pada tahun 1980an, begitu organisasi menjadi pandai menyimpan informasi operasional mereka di database relasional (transaksi penjualan, misalnya, atau status rantai pasokan), para pemimpin bisnis mulai menginginkan laporan yang dihasilkan dari data relasional ini. Toko relasional paling awal adalah database operasional dan dirancang untuk Online Transaction Processing (OLTP), sehingga catatan dapat disisipkan, diperbarui, atau dihapus secepat mungkin.
Ini adalah arsitektur yang tidak praktis untuk pelaporan dan analisis skala besar, sehingga database Relational Online Analytical Processing (ROLAP) dikembangkan untuk memenuhi kebutuhan ini. Hal ini menyebabkan evolusi tipe RDBMS yang baru: gudang data
yang merupakan entitas terpisah dan tinggal di samping toko data operasional organisasi.Ini turun menggunakan alat yang dirancang khusus untuk efisiensi yang lebih besar: Anda memiliki toko data operasional, yang dirancang untuk memproses transaksi secara efisien, dan gudang data, yang dirancang untuk mendukung analisis dan pelaporan berulang. Gudang data mengalami tekanan yang meningkat, karena alasan berikut: Meningkatnya permintaan untuk menyimpan data online yang lebih lama.
Meningkatnya permintaan akan sumber daya pengolahan untuk mentransformasikan data untuk digunakan di gudang lain dan data mart.
Meningkatnya permintaan akan analisis inovatif, yang mengharuskan analis mengajukan pertanyaan pada data gudang, di atas laporan reguler yang sudah selesai dilakukan. Hal ini dapat menimbulkan proses tambahan yang signifikan.
-
Pada gambar tersebut, Anda dapat melihat gudang data yang disajikan sebagai sumber utama untuk berbagai jenis analisis yang tercantum di sisi kanan gambar. Disini Anda juga melihat konsep landing zone yang diwakili, dimana Hadoop akan menyimpan data dari berbagai sumber data yang masuk.
-
Untuk mengaktifkan zona pendaratan Hadoop, Anda harus memastikan bahwa Anda dapat menulis data dari berbagai sumber data ke HDFS. Untuk database relasional, solusi yang bagus adalah menggunakan Sqoop.
-
Tapi pendaratan data hanyalah permulaan.
Bila Anda memindahkan data dari banyak sumber ke zona pendaratan Anda, satu masalah yang pasti akan Anda hadapi adalah kualitas data. Sudah umum bagi perusahaan untuk memiliki banyak basis data operasional yang rincian utamanya berbeda, misalnya, bahwa pelanggan mungkin dikenal sebagai "D. deRoos "dalam satu database, dan" Dirk deRoos "di tempat lain.
Masalah kualitas lainnya terletak pada sistem di mana ada ketergantungan yang tinggi pada entri data manual, baik dari pelanggan atau staf - di sini, tidak biasa menemukan nama depan dan nama belakang diaktifkan atau informasi salah lainnya di bidang data.
Masalah kualitas data adalah masalah besar untuk lingkungan data warehouse, dan oleh karena itu banyak usaha menuju tahap pembersihan dan validasi karena data dari sistem lain diproses karena dimuat ke gudang. Semuanya turun ke
kepercayaan
: jika data yang Anda ajukan bertentangan adalah kotor, Anda tidak dapat mempercayai jawaban dalam laporan Anda.
Jadi, sementara ada potensi besar untuk memiliki akses ke berbagai kumpulan data dari berbagai sumber di zona pendaratan Hadoop Anda, Anda harus mempertimbangkan kualitas data dan seberapa besar Anda dapat mempercayai data.