Rumah Keuangan Pribadi Hadoop Distributed File System (HDFS) untuk Proyek Data Besar - dummies

Hadoop Distributed File System (HDFS) untuk Proyek Data Besar - dummies

Daftar Isi:

Video: Sejarah Hadoop 2024

Video: Sejarah Hadoop 2024
Anonim

Sistem File Terdistribusi Hadoop adalah pendekatan serbaguna, tangguh, berkerumun untuk mengelola file di lingkungan data yang besar. HDFS bukan tujuan akhir untuk file. Sebaliknya, ini adalah layanan data yang menawarkan seperangkat kemampuan unik yang dibutuhkan saat volume data dan kecepatan tinggi. Karena datanya ditulis sekali dan kemudian dibaca berkali-kali sesudahnya, daripada membaca-tulis konstan dari sistem file lain, HDFS adalah pilihan tepat untuk mendukung analisis data yang besar.

Data besar NameNodes

HDFS bekerja dengan memecah file berukuran besar menjadi potongan kecil yang disebut blok . Blok-blok disimpan pada node data, dan merupakan tanggung jawab NameNode untuk mengetahui blok mana di mana simpul data membentuk file yang lengkap. NameNode juga bertindak sebagai "polisi lalu lintas", mengelola semua akses ke file.

Kumpulan lengkap semua file dalam cluster kadang disebut sebagai namespace sistem berkas . Ini adalah tugas NameNode untuk mengelola namespace ini.

Meskipun ada hubungan yang kuat antara NameNode dan node data, mereka beroperasi dengan mode "longgar digabungkan". Hal ini memungkinkan elemen cluster untuk berperilaku dinamis, menambahkan server seiring permintaan meningkat. Dalam konfigurasi yang khas, Anda menemukan satu NameNode dan mungkin sebuah node data yang berjalan pada satu server fisik di rak. Server lain hanya menjalankan simpul data.

Simpul data berkomunikasi di antara mereka sendiri sehingga mereka dapat bekerja sama selama operasi sistem berkas normal. Hal ini diperlukan karena blok untuk satu file cenderung disimpan pada banyak node data. Karena NameNode sangat penting untuk pengoperasian cluster yang benar, hal itu dapat dan harus direplikasi untuk mencegah satu titik kegagalan.

Simpul data besar

Simpul data tidak cerdas, namun tahan lama. Dalam cluster HDFS, blok data direplikasi di beberapa node data dan akses dikelola oleh NameNode. Mekanisme replikasi dirancang untuk efisiensi optimal bila semua simpul cluster dikumpulkan ke dalam rak. Sebenarnya, NameNode menggunakan "rack ID" untuk melacak node data dalam cluster.

Simpul data juga menyediakan pesan "detak jantung" untuk mendeteksi dan memastikan konektivitas antara NameNode dan node data. Ketika detak jantung tidak lagi ada, NameNode melepaskan simpul data dari cluster dan terus beroperasi seolah tidak terjadi apa-apa. Ketika detak jantung kembali, ditambahkan ke cluster secara transparan sehubungan dengan pengguna atau aplikasi.

Integritas data adalah fitur utama. HDFS mendukung sejumlah kemampuan yang dirancang untuk memberikan integritas data. Seperti yang Anda duga, ketika file dipecah menjadi blok dan kemudian didistribusikan ke server yang berbeda di cluster, variasi dalam pengoperasian elemen apapun dapat mempengaruhi integritas data. HDFS menggunakan log transaksi dan validasi checksum untuk memastikan integritas di cluster.

Log transaksi melacak setiap operasi dan efektif dalam mengaudit atau membangun kembali sistem berkas jika terjadi sesuatu yang tidak diinginkan.

Validitas checksum digunakan untuk menjamin isi file dalam HDFS. Saat klien meminta file, ia dapat memverifikasi isinya dengan memeriksa checksumnya. Jika checksum cocok, operasi file bisa berlanjut. Jika tidak, kesalahan dilaporkan. File checksum tersembunyi untuk membantu menghindari gangguan.

Data node menggunakan disk lokal di server komoditas untuk ketekunan. Semua blok data disimpan secara lokal, terutama untuk alasan kinerja. Blok data direplikasi di beberapa node data, sehingga kegagalan satu server mungkin tidak harus merusak file. Tingkat replikasi, jumlah node data, dan namespace HDFS ditetapkan saat cluster diimplementasikan.

HDFS untuk data besar

HDFS menangani tantangan data yang besar dengan memecah file menjadi kumpulan blok yang lebih kecil. Blok ini didistribusikan di antara node data di cluster HDFS dan dikelola oleh NameNode. Ukuran blok dapat dikonfigurasi dan biasanya berukuran 128 megabyte (MB) atau 256MB, yang berarti file 1GB menghabiskan delapan blok 128MB untuk kebutuhan penyimpanan dasarnya.

HDFS tangguh, jadi blok ini direplikasi di seluruh cluster jika terjadi kegagalan server. Bagaimana cara HDFS melacak semua potongan ini? Jawaban singkatnya adalah sistem file metadata .

Metadata didefinisikan sebagai "data tentang data. "Pikirkan metadata HDFS sebagai template untuk memberikan penjelasan rinci tentang hal berikut:

  • Saat file dibuat, diakses, dimodifikasi, dihapus, dan seterusnya

  • Tempat blok file disimpan dalam cluster < Siapa yang memiliki hak untuk melihat atau memodifikasi file

  • Berapa banyak file yang tersimpan di cluster

  • Berapa banyak node data ada di cluster

  • Lokasi log transaksi untuk cluster

  • HDFS metadata disimpan di NameNode, dan sementara cluster beroperasi, semua metadata dimasukkan ke dalam memori fisik server NameNode. Seperti yang Anda duga, semakin besar cluster, semakin besar metadata tapaknya.

Apa sebenarnya yang dilakukan server blok? Lihat daftar berikut ini:

Menyimpan blok data dalam sistem file lokal server. HDFS tersedia di berbagai sistem operasi dan berperilaku sama baik di Windows, Mac OS, atau Linux.

  • Menyimpan metadata blok dalam sistem file lokal berdasarkan template metadata di NameNode.

  • Melakukan validasi checksum file secara berkala.

  • Mengirimkan laporan berkala ke NameNode tentang blok yang tersedia untuk operasi file.

  • Menyediakan metadata dan data ke klien sesuai permintaan. HDFS mendukung akses langsung ke node data dari program aplikasi klien.

  • Ke depan data ke node data lain berdasarkan model "pipelining".

  • Blok penempatan pada node data sangat penting untuk replikasi data dan dukungan untuk pipelining data. HDFS menyimpan satu replika dari setiap blok secara lokal. HDFS serius tentang replikasi data dan ketahanan.

Hadoop Distributed File System (HDFS) untuk Proyek Data Besar - dummies

Pilihan Editor

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Menjelajahi Alternatif untuk Jaringan Multichannel - dummies

Ada kekuatan dalam jumlah - atau begitulah kata pepatah. Hal ini dapat membantu saat mengelola saluran YouTube Anda. Pemikiran seperti inilah yang menyebabkan terbentuknya jaringan multichannel (sering disebut dengan singkatan MCNs) di YouTube. MCN pada dasarnya adalah kesepakatan kemitraan yang dibuat oleh pembuat konten independen dengan jumlah yang lebih besar ...

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Apa yang harus dilakukan jika Anda lupa kata kunci atau kata kunci YouTube

Jika Anda lupa nama pengguna atau kata sandi YouTube Anda, jangan panik YouTube memiliki alamat e-mail Anda, dan Anda dapat mengambil nama pengguna atau kata sandi yang terlupakan dari mereka. (Saat pertama kali mendaftar ke YouTube, catat nama pengguna dan kata sandi Anda, terutama jika berbeda dari yang biasa Anda gunakan di situs Web lainnya.) Buka YouTube. com ...

Apa itu YouTube Red? - dummies

Apa itu YouTube Red? - dummies

YouTube Red adalah layanan berlangganan baru yang meningkatkan pengalaman YouTube. Layanan ini mencakup langganan Google Play Musik. YouTube Red bukan hanya layanan streaming video - namun juga membuka fitur hebat membuat YouTube menjadi tempat yang tepat untuk hiburan berjam-jam. Kredit: Gambar milik YouTube. com. Layanan Red YouTube ...

Pilihan Editor

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Dua kolom Kolom Sidebar kiri Desain Gambar - dummies

Gambar cermin dari layout sidebar kanan dua kolom , desain blog dua kolom ini menampilkan konten blog utama Anda di sisi kanan dengan sidebar di sebelah kiri. Memilih sidebar di sebelah kanan pasti pilihan yang lebih umum di blogland, namun menggunakan sidebar kiri tetap bisa memberi dampak. Di sini, Anda ...

Transparansi dalam Komunitas Online - dummies

Transparansi dalam Komunitas Online - dummies

Transparansi adalah kata besar di ruang media sosial saat ini. Ini adalah istilah yang menyenangkan dan menyenangkan untuk kejujuran. Ini berarti mendapatkan kepercayaan komunitas online karena tidak ada yang perlu disembunyikan. Dengan bersikap transparan, Anda memberi pandangan publik pada cara kerja merek Anda. Anda tidak menyapu pers atau ketidakpuasan yang buruk di bawah karpet. ...

Matikan Blog Mom Anda ke Job - dummies

Matikan Blog Mom Anda ke Job - dummies

Dapatkan pekerjaan bukanlah perluasan dari Anda blog, tapi anggap itu lebih sebagai perluasan karir Anda. Beberapa blogger, termasuk ibu, telah membangun begitu banyak kepercayaan dan kredibilitas di media sosial bahwa perusahaan telah mempekerjakan mereka untuk mengisi beberapa pemasaran media sosial yang hebat dan posisi manajemen lainnya. Bila Anda ...

Pilihan Editor

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Cara membuat Lembar Kerja Prakiraan di Excel 2016 - dummies

Fitur Lembar Perkiraan baru di Excel 2016 membuatnya sangat mudah untuk mengubah lembar kerja yang berisi data keuangan historis menjadi lembar kerja ramalan visual yang luar biasa. Yang Anda lakukan adalah membuka lembar kerja dengan data historis Anda, posisi kursor sel dalam satu selnya, lalu klik tombol Forecast Sheet pada Data ...

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Cara membuat Peta Daya 3-D di Excel 2016 - dummies

Power Map adalah nama fitur analisis visual baru yang menarik di Excel 2016 yang memungkinkan Anda menggunakan data geografis, keuangan, dan jenis lainnya bersama dengan bidang tanggal dan waktu dalam model data Excel Anda untuk membuat tur peta 3D animasi. Untuk membuat animasi baru untuk tur pertama di Power ...

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Bagaimana cara Copy Formula dengan IsiOtomatis di Excel 2016 - dummies

Jika Anda hanya perlu menyalin satu formula di Excel 2016, gunakan fitur IsiOtomatis atau perintah Copy and Paste. Jenis salinan formula ini, meski lumrah, tidak bisa dilakukan dengan drag and drop. Jangan lupa pilihan Totals pada alat Quick Analysis. Anda bisa menggunakannya untuk membuat baris ...