Rumah Keuangan Pribadi Hadoop Distributed File System (HDFS) untuk Proyek Data Besar - dummies

Hadoop Distributed File System (HDFS) untuk Proyek Data Besar - dummies

Daftar Isi:

Video: Sejarah Hadoop 2024

Video: Sejarah Hadoop 2024
Anonim

Sistem File Terdistribusi Hadoop adalah pendekatan serbaguna, tangguh, berkerumun untuk mengelola file di lingkungan data yang besar. HDFS bukan tujuan akhir untuk file. Sebaliknya, ini adalah layanan data yang menawarkan seperangkat kemampuan unik yang dibutuhkan saat volume data dan kecepatan tinggi. Karena datanya ditulis sekali dan kemudian dibaca berkali-kali sesudahnya, daripada membaca-tulis konstan dari sistem file lain, HDFS adalah pilihan tepat untuk mendukung analisis data yang besar.

Data besar NameNodes

HDFS bekerja dengan memecah file berukuran besar menjadi potongan kecil yang disebut blok . Blok-blok disimpan pada node data, dan merupakan tanggung jawab NameNode untuk mengetahui blok mana di mana simpul data membentuk file yang lengkap. NameNode juga bertindak sebagai "polisi lalu lintas", mengelola semua akses ke file.

Kumpulan lengkap semua file dalam cluster kadang disebut sebagai namespace sistem berkas . Ini adalah tugas NameNode untuk mengelola namespace ini.

Meskipun ada hubungan yang kuat antara NameNode dan node data, mereka beroperasi dengan mode "longgar digabungkan". Hal ini memungkinkan elemen cluster untuk berperilaku dinamis, menambahkan server seiring permintaan meningkat. Dalam konfigurasi yang khas, Anda menemukan satu NameNode dan mungkin sebuah node data yang berjalan pada satu server fisik di rak. Server lain hanya menjalankan simpul data.

Simpul data berkomunikasi di antara mereka sendiri sehingga mereka dapat bekerja sama selama operasi sistem berkas normal. Hal ini diperlukan karena blok untuk satu file cenderung disimpan pada banyak node data. Karena NameNode sangat penting untuk pengoperasian cluster yang benar, hal itu dapat dan harus direplikasi untuk mencegah satu titik kegagalan.

Simpul data besar

Simpul data tidak cerdas, namun tahan lama. Dalam cluster HDFS, blok data direplikasi di beberapa node data dan akses dikelola oleh NameNode. Mekanisme replikasi dirancang untuk efisiensi optimal bila semua simpul cluster dikumpulkan ke dalam rak. Sebenarnya, NameNode menggunakan "rack ID" untuk melacak node data dalam cluster.

Simpul data juga menyediakan pesan "detak jantung" untuk mendeteksi dan memastikan konektivitas antara NameNode dan node data. Ketika detak jantung tidak lagi ada, NameNode melepaskan simpul data dari cluster dan terus beroperasi seolah tidak terjadi apa-apa. Ketika detak jantung kembali, ditambahkan ke cluster secara transparan sehubungan dengan pengguna atau aplikasi.

Integritas data adalah fitur utama. HDFS mendukung sejumlah kemampuan yang dirancang untuk memberikan integritas data. Seperti yang Anda duga, ketika file dipecah menjadi blok dan kemudian didistribusikan ke server yang berbeda di cluster, variasi dalam pengoperasian elemen apapun dapat mempengaruhi integritas data. HDFS menggunakan log transaksi dan validasi checksum untuk memastikan integritas di cluster.

Log transaksi melacak setiap operasi dan efektif dalam mengaudit atau membangun kembali sistem berkas jika terjadi sesuatu yang tidak diinginkan.

Validitas checksum digunakan untuk menjamin isi file dalam HDFS. Saat klien meminta file, ia dapat memverifikasi isinya dengan memeriksa checksumnya. Jika checksum cocok, operasi file bisa berlanjut. Jika tidak, kesalahan dilaporkan. File checksum tersembunyi untuk membantu menghindari gangguan.

Data node menggunakan disk lokal di server komoditas untuk ketekunan. Semua blok data disimpan secara lokal, terutama untuk alasan kinerja. Blok data direplikasi di beberapa node data, sehingga kegagalan satu server mungkin tidak harus merusak file. Tingkat replikasi, jumlah node data, dan namespace HDFS ditetapkan saat cluster diimplementasikan.

HDFS untuk data besar

HDFS menangani tantangan data yang besar dengan memecah file menjadi kumpulan blok yang lebih kecil. Blok ini didistribusikan di antara node data di cluster HDFS dan dikelola oleh NameNode. Ukuran blok dapat dikonfigurasi dan biasanya berukuran 128 megabyte (MB) atau 256MB, yang berarti file 1GB menghabiskan delapan blok 128MB untuk kebutuhan penyimpanan dasarnya.

HDFS tangguh, jadi blok ini direplikasi di seluruh cluster jika terjadi kegagalan server. Bagaimana cara HDFS melacak semua potongan ini? Jawaban singkatnya adalah sistem file metadata .

Metadata didefinisikan sebagai "data tentang data. "Pikirkan metadata HDFS sebagai template untuk memberikan penjelasan rinci tentang hal berikut:

  • Saat file dibuat, diakses, dimodifikasi, dihapus, dan seterusnya

  • Tempat blok file disimpan dalam cluster < Siapa yang memiliki hak untuk melihat atau memodifikasi file

  • Berapa banyak file yang tersimpan di cluster

  • Berapa banyak node data ada di cluster

  • Lokasi log transaksi untuk cluster

  • HDFS metadata disimpan di NameNode, dan sementara cluster beroperasi, semua metadata dimasukkan ke dalam memori fisik server NameNode. Seperti yang Anda duga, semakin besar cluster, semakin besar metadata tapaknya.

Apa sebenarnya yang dilakukan server blok? Lihat daftar berikut ini:

Menyimpan blok data dalam sistem file lokal server. HDFS tersedia di berbagai sistem operasi dan berperilaku sama baik di Windows, Mac OS, atau Linux.

  • Menyimpan metadata blok dalam sistem file lokal berdasarkan template metadata di NameNode.

  • Melakukan validasi checksum file secara berkala.

  • Mengirimkan laporan berkala ke NameNode tentang blok yang tersedia untuk operasi file.

  • Menyediakan metadata dan data ke klien sesuai permintaan. HDFS mendukung akses langsung ke node data dari program aplikasi klien.

  • Ke depan data ke node data lain berdasarkan model "pipelining".

  • Blok penempatan pada node data sangat penting untuk replikasi data dan dukungan untuk pipelining data. HDFS menyimpan satu replika dari setiap blok secara lokal. HDFS serius tentang replikasi data dan ketahanan.

Hadoop Distributed File System (HDFS) untuk Proyek Data Besar - dummies

Pilihan Editor

Perancang Minigame Minigame - dummies

Perancang Minigame Minigame - dummies

Sebelum menulis semua kode untuk membuat Minecraft Minigame, Anda perlu merancang permainan Anda. The Gameplay Loop adalah proses sederhana yang bisa Anda ikuti untuk memastikan permainan Anda menyenangkan, menantang, dan lengkap. The Gameplay Loop memiliki empat bagian: Start: Buat adegan dasar. Tujuan: Menambahkan cara untuk menang dan ...

Menciptakan Efek Air dan Es di Minecraft - dummies

Menciptakan Efek Air dan Es di Minecraft - dummies

Satu hal yang rapi tentang Minecraft adalah bahwa beberapa fisika realistis sedang dimainkan dalam permainan. Misalnya, jika Anda memiliki air dan Anda memasukkan es ke dalamnya, itu akan membeku! Oke, mungkin di dunia nyata, menambahkan es tidak membuat air membeku, tapi memang membuatnya lebih dingin. Anda dapat melihat ini ...

Mendapatkan Minecraft Experience Points - dummies

Mendapatkan Minecraft Experience Points - dummies

Di Minecraft, experience points, XP untuk jangka pendek, dikumpulkan dari bola pengalaman bercahaya. Sebagai pemain mengumpulkan cukup bola dan meningkatkan tingkat pengalaman mereka, mereka akan dapat menggunakan tabel dan landasan yang mempesona untuk meningkatkan kemampuan banyak item seperti senjata, baju besi, dan peralatan. Jadi, bagaimana Anda bisa cepat mendapatkan ini ...

Pilihan Editor

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Bagaimana Mendidik dengan Infografis Informasi Dokumentual - dummies

Infomasi editorial sama dengan artikel berita karena tujuan utamanya adalah untuk mengirimkan informasi. Di bawah payung grafis editorial, ada beberapa tipe yang berbeda, dengan keseimbangan bias dan objektivitas yang berbeda. Berikut adalah beberapa melihat: Badai salju menghantam kota Anda. Koran lokal menciptakan grafik yang menunjukkan hujan salju ...

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bagaimana Mengimpor Sketsa ke Ilustrator untuk Menciptakan Infografis - dummies

Bahkan di dunia kabel ini, seniman masih suka sketsa Kabar baik! Sketsa kasar Anda dapat dengan mudah digunakan dalam draf infografis Anda. Anda dapat memindai sketsa atau mengambil gambar sketsa Anda dengan telepon Anda dan mengirim e-mail ke komputer Anda sendiri. Mereka tidak perlu diwarnai, cukup jelas bagi Anda untuk ...

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Bagaimana cara memasukkan ilustrasi di Infografis Anda - jeleknya

Infografis yang baik (jelas) harus mencakup seni yang bagus. Ilustrasi mempromosikan alur cerita, menentukan elemen secara visual, dan mencerahkan halaman yang mungkin diisi dengan tipe abu-abu. Ilustrasi bisa berupa gambar fisik, semacam bagan atau grafik, atau bahkan garis waktu. Kehidupan sehari-hari Anda dipenuhi dengan contoh bagaimana ilustrasi ...

Pilihan Editor

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

GED Contoh Pertanyaan: Penalaran Melalui Bahasa Seni Membaca Informasi Teknis - dummies

Tentang Penalaran Melalui bagian Seni Bahasa GED, Anda mungkin diminta untuk menjawab pertanyaan tentang bagian teknis. Ini bisa termasuk petunjuk cara melengkapi, seperti berikut. Pertanyaan dalam artikel ini mengacu pada kutipan berikut dari Russell Hart's Photography For Dummies, 2nd Edition (Wiley). Apa Rahasia Untuk ...

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

GED Contoh Pertanyaan: Pertanyaan singkat tentang Ilmu Pengetahuan - dummies

Di beberapa titik selama bagian Ilmu Pengetahuan dari Tes GEE, Anda akan diminta untuk membuat jawaban singkat. Anda akan diberi sebuah bagian dan mengajukan pertanyaan yang perlu Anda tanggapi. Buat respons Anda jelas dan ringkas. Bagian Jawaban Jawaban Semua orang mengenal keju cheddar. Orang-orang meletakkan ...

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

GED Contoh Pertanyaan: Ilmu Sosial dan Media - dummies

Di bagian Ilmu Sosial GED, Anda mungkin diminta untuk menjawab pertanyaan tentang berbagai bentuk media, termasuk siaran berita. Lihatlah contoh berikut di bawah ini. Pertanyaan dalam artikel ini mengacu pada siaran berita berikut. Berita Lingkungan Dunia Selamat malam dan selamat datang di World Environmental News. Cerita kami ini ...