Video: How to Install Hadoop on Windows 2024
HBase adalah database terdistribusi, nonrelasional (kolumnis) yang memanfaatkan HDFS sebagai toko ketekunan untuk proyek data besar. Ini dimodelkan setelah Google BigTable dan mampu meng-host tabel yang sangat besar (miliaran kolom / baris) karena dilapisi pada cluster Hadoop dari perangkat keras komoditas.
HBase menyediakan akses baca / tulis secara acak, real-time ke data besar. HBase sangat dapat dikonfigurasi, memberikan fleksibilitas yang besar untuk menangani sejumlah besar data secara efisien. Sekarang lihat bagaimana HBase dapat membantu menangani tantangan data besar Anda.
HBase adalah database kolom, jadi semua data disimpan ke dalam tabel dengan baris dan kolom yang mirip dengan sistem manajemen basis data relasional (RDBMS). Persimpangan sebuah baris dan kolom disebut sel. Satu perbedaan penting antara tabel HBase dan tabel RDBMS adalah versi.
Setiap nilai sel mencakup atribut "versi", yang tidak lain adalah cap waktu yang mengidentifikasi sel secara unik. Versi melacak perubahan sel dan memungkinkan untuk mengambil versi konten apa pun jika diperlukan. HBase menyimpan data dalam sel dalam urutan menurun (menggunakan timestamp), sehingga membaca akan selalu menemukan nilai paling baru terlebih dahulu.
Kolom di HBase termasuk dalam keluarga kolom. Nama keluarga kolom digunakan sebagai awalan untuk mengidentifikasi anggota keluarganya. Misalnya, buah-buahan: apel dan buah-buahan: pisang adalah anggota keluarga kolom buah. Implementasi HBase disetel pada tingkat keluarga kolom, jadi penting untuk diperhatikan bagaimana Anda akan mengakses data dan seberapa besar Anda mengharapkan kolomnya berada.
Baris dalam tabel HBase juga memiliki kunci yang terkait dengannya. Struktur kuncinya sangat fleksibel. Ini bisa menjadi nilai yang dihitung, string, atau bahkan struktur data lainnya. Kuncinya digunakan untuk mengendalikan akses ke sel-sel di baris, dan kunci tersebut disimpan dari nilai rendah ke nilai tinggi.
Semua fitur ini bersama-sama membentuk skema. Skema didefinisikan dan dibuat sebelum data dapat disimpan. Meski begitu, tabel bisa diubah dan keluarga kolom baru bisa ditambahkan setelah database selesai dan berjalan. Ekstensibilitas ini sangat berguna saat berhadapan dengan data besar karena Anda tidak selalu tahu tentang variasi arus data Anda.