Hadoop sebagai Data Tujuan Arsip - dummies

Biaya penyimpanan yang murah untuk Hadoop ditambah kemampuan untuk mengurutkan data Hadoop dengan SQL menjadikan Hadoop sebagai tujuan utama untuk data arsip. Kasus penggunaan ini berdampak rendah pada organisasi Anda karena Anda dapat mulai membangun keahlian Hadoop Anda pada data yang tidak tersimpan dalam sistem mission-critical.

Terlebih lagi, Anda tidak harus bekerja keras untuk mendapatkan data. (Karena data yang diarsipkan biasanya disimpan pada sistem yang memiliki penggunaan rendah, lebih mudah untuk mendapatkan daripada data yang ada di "pusat perhatian" pada sistem mission-critical kinerja, seperti gudang data.) Jika Anda sudah menggunakan Hadoop sebagai pendaratan zona, Anda memiliki dasar untuk arsip Anda! Anda hanya menyimpan apa yang ingin Anda arsipkan dan hapus apa yang tidak Anda inginkan.

Jika Anda memikirkan zona pendaratan Hadoop, arsip queryable, yang ditunjukkan pada gambar, memperluas nilai Hadoop dan mulai mengintegrasikan potongan yang mungkin sudah ada di perusahaan Anda. Ini adalah contoh bagus untuk menemukan peluang skala ekonomi dan peluang take-out dengan menggunakan Hadoop.

Di sini, komponen arsip menghubungkan zona pendaratan dan gudang data. Data yang diarsipkan berasal dari gudang dan kemudian disimpan di cluster Hadoop, yang juga menyediakan zona pendaratan. Singkatnya, Anda dapat menggunakan cluster Hadoop yang sama untuk mengarsipkan data dan bertindak sebagai zona pendaratan Anda.

Teknologi kunci Hadoop yang akan Anda gunakan untuk melakukan pengarsipan adalah Sqoop, yang dapat memindahkan data yang akan diarsipkan dari gudang data ke dalam Hadoop. Anda perlu mempertimbangkan bentuk yang Anda inginkan agar data diambil di cluster Hadoop Anda. Secara umum, file Hive yang dikompres adalah pilihan yang tepat.

Anda dapat, tentu saja, mengubah data dari struktur gudang menjadi bentuk lain (misalnya, bentuk yang dinormalisasi untuk mengurangi redundansi), namun ini umumnya bukan ide bagus. Menjaga data dalam struktur yang sama seperti apa yang ada di gudang akan mempermudah pencarian kueri data lengkap di data arsip di Hadoop dan data aktif yang ada di gudang.

Konsep query baik kumpulan data yang aktif dan arsip membawa pertimbangan lain: berapa banyak data yang harus Anda arsipkan? Sebenarnya ada dua pilihan umum: mengarsipkan semuanya sebagai data yang ditambahkan dan diubah di gudang data, atau hanya mengarsipkan data yang Anda anggap kedinginan.

Mengarsipkan semuanya bermanfaat untuk memungkinkan Anda dengan mudah mengeluarkan kueri dari satu antarmuka tunggal di seluruh kumpulan data - tanpa arsip lengkap, Anda harus mencari solusi kueri federasi di mana Anda harus menyatukan hasil dari arsip dan gudang data aktif.

Tapi downside di sini adalah bahwa update reguler data data gudang data Anda akan menyebabkan sakit kepala untuk arsip berbasis Hadoop. Ini karena setiap perubahan pada data pada masing-masing baris dan kolom akan memerlukan penghapusan grosir dan pengatalogan ulang kumpulan data yang ada.

Sekarang data arsip disimpan di zona pendaratan berbasis Hadoop Anda (dengan asumsi Anda menggunakan opsi seperti file Hive yang dikompres yang disebutkan sebelumnya), Anda dapat mengisinya. Di sinilah solusi SQL on Hadoop bisa menjadi menarik.

Contoh yang bagus tentang apa yang mungkin adalah alat analisis (di sebelah kanan gambar) untuk langsung menjalankan laporan atau analisis pada data arsip yang tersimpan di Hadoop. Ini bukan untuk mengganti gudang data - bagaimanapun juga, Hadoop tidak akan dapat mencocokkan karakteristik kinerja gudang karena mendukung ratusan pengguna yang mengajukan pertanyaan yang rumit.

Intinya di sini adalah Anda dapat menggunakan alat pelaporan melawan Hadoop untuk bereksperimen dan mengajukan pertanyaan baru untuk dijawab di gudang atau mart khusus.

Saat memulai proyek berbasis Hadoop pertama untuk pengarsipan data gudang, jangan hentikan proses yang ada sampai Anda benar-benar mengujinya pada solusi Hadoop baru Anda. Dengan kata lain, jika strategi pergudangan Anda saat ini adalah arsip ke tape, simpan proses itu di tempat, dan arsipkan data ke dalam Hadoop dan tape sampai Anda benar-benar menguji skenario (yang biasanya mencakup pemulihan data gudang dalam kasus dari kegagalan gudang).

Meskipun Anda mempertahankan (dalam jangka pendek) dua repositori arsip, Anda akan memiliki infrastruktur yang kuat dan diuji sebelum Anda membatalkan proses yang benar dan benar. Proses ini dapat memastikan Anda tetap bekerja - dengan atasan Anda saat ini.

Kasus penggunaan ini sederhana karena tidak ada perubahan pada gudang yang ada. Tujuan bisnisnya tetap sama: biaya penyimpanan dan perizinan yang lebih murah dengan cara memigrasi data yang jarang digunakan ke arsip. Perbedaan dalam kasus ini adalah teknologi di balik arsip tersebut adalah Hadoop daripada penyimpanan offline, seperti tape.

Selain itu, berbagai vendor arsip telah mulai memasukkan Hadoop ke dalam solusi mereka (misalnya, membiarkan arsip arsip milik mereka berada pada HDFS), sehingga diharapkan kemampuan di area ini segera berkembang.

Saat Anda mengembangkan keterampilan Hadoop (seperti bertukar data antara database Hadoop dan relasional dan data kueri di HDFS), Anda dapat menggunakannya untuk mengatasi masalah yang lebih besar, seperti proyek analisis, yang dapat memberikan nilai tambah bagi investasi Hadoop organisasi Anda.