Video: Sqoop Import and Export data from RDMBS and HDFS 2024
Siap untuk menyelam dalam mengimpor data dengan Sqoop? Mulailah dengan melihat-lihat gambar, yang menggambarkan langkah-langkah dalam operasi impor Sqoop khas dari RDBMS atau sistem data warehouse. Tidak ada yang terlalu rumit di sini - hanya tabel data Produk khas dari perusahaan fiktif (khas) yang diimpor ke cluster Apache Hadoop khas dari sistem pengelolaan data biasa (DMS).
Selama Langkah 1, Sqoop menggunakan konektor yang sesuai untuk mengambil metadata tabel Produk dari DMS target. (Metadata digunakan untuk memetakan tipe data dari tabel Produk ke tipe data dalam bahasa Java.)
Langkah 2 kemudian menggunakan metadata ini untuk menghasilkan dan mengkompilasi kelas Java yang akan digunakan oleh satu atau lebih tugas peta ke impor baris sebenarnya dari tabel Produk. Sqoop menyimpan kelas Java yang dihasilkan ke ruang temp atau ke direktori yang Anda tentukan sehingga Anda dapat memanfaatkannya untuk pemrosesan selanjutnya dari catatan data Anda.
Sqoop menghasilkan kode Java yang tersimpan untuk Anda seperti hadiah yang terus memberi! Dengan kode ini, Sqoop mengimpor catatan dari DMS dan menyimpannya ke HDFS menggunakan salah satu dari tiga format yang dapat Anda pilih: data Avro biner, file urutan biner, atau file teks yang dibatasi. Setelah itu, kode ini tersedia bagi Anda untuk pemrosesan data selanjutnya.
Urutan file adalah pilihan alami jika Anda mengimpor tipe data biner dan Anda memerlukan kelas Java yang dihasilkan untuk membuat cerita bersambung dan deserialize data Anda nanti - mungkin untuk pemrosesan dan pengarahan MapReduce. Data avro - berdasarkan kerangka serialisasi Apache sendiri - berguna jika Anda perlu berinteraksi dengan aplikasi lain setelah mengimpor HDFS.
Jika Anda memilih untuk menyimpan data yang diimpor dalam format teks yang dibatasi, Anda mungkin menemukan kode Java yang dihasilkan berharga nantinya saat Anda mengurai dan melakukan konversi format data pada data baru Anda. Anda akan melihat bahwa kode yang dihasilkan juga membantu Anda menggabungkan kumpulan data setelah operasi impor Sqoop, dan kode Java yang dihasilkan dapat membantu menghindari ketidakjelasan saat memproses data teks yang dibatasi.
Akhirnya, selama Langkah 3, Sqoop membagi catatan data di tabel Produk di sejumlah tugas peta (dengan jumlah mappers yang ditentukan secara opsional oleh pengguna) dan impor data tabel ke dalam HDFS, Hive, atau HBase.