Video: 1.1. Getting started with Tableau Desktop 2024
Anda akan menemukan bahwa ekosistem Hadoop memiliki banyak komponen, semuanya ada sebagai proyek Apache mereka sendiri. Karena Hadoop telah berkembang pesat, dan menghadapi beberapa perubahan lebih lanjut, berbagai versi komponen komunitas open source ini mungkin tidak sepenuhnya kompatibel dengan komponen lainnya. Hal ini menimbulkan banyak kesulitan bagi orang yang ingin memulai bisnis dengan Hadoop dengan mendownload dan mengumpulkan proyek langsung dari Apache.
Red Hat adalah, bagi banyak orang, model bagaimana berhasil menghasilkan uang di pasar perangkat lunak open source. Apa yang dilakukan Red Hat adalah dengan membawa Linux (sistem operasi open source), bundel semua komponen yang dibutuhkannya, bangun installer sederhana, dan berikan dukungan berbayar kepada pelanggan manapun.
Dengan cara yang sama bahwa Red Hat telah menyediakan kemasan praktis untuk Linux, sejumlah perusahaan telah membundel Hadoop dan beberapa teknologi terkait ke dalam distribusi Hadoop mereka sendiri. Daftar ini menjelaskan yang lebih menonjol:
: Mungkin pemain paling terkenal di lapangan, Cloudera mampu mengklaim Doug Cutting, pendiri bersama Hadoop, sebagai arsitek utamanya. Cloudera dipandang oleh banyak orang sebagai pemimpin pasar di ruang Hadoop karena merilis distribusi Hadoop komersial pertama dan merupakan kontributor kode yang sangat aktif ke ekosistem Hadoop. Cloudera Enterprise, produk yang diposisikan oleh Cloudera di pusat dari apa yang disebutnya sebagai "Hub Data Enterprise", mencakup Distribusi Cloudera untuk Hadoop (CDH), distribusi berbasis sumber terbuka Hadoop dan proyek terkaitnya juga. sebagai Manajer Cloudera miliknya. Juga disertakan adalah langganan dukungan teknis untuk komponen inti CDH.
Juga, Cloudera telah membuatnya menjadi praktik umum untuk mempercepat penerapan kode sumber terbuka alfa dan beta untuk rilis Hadoop yang lebih baru. Pendekatannya adalah mengambil komponen yang dianggap matang dan menguatkannya ke perpustakaan open source siap produksi yang ada yang disertakan dalam distribusinya. HD yang sangat penting, distribusi Apache Hadoop dari EMC, secara native mengintegrasikan teknologi database pemrosesan paralel Massive Massive (MPP) (sebelumnya dikenal sebagai Greenplum, dan sekarang dikenal sebagai HAWQ) dengan Apache Hadoop.Hasilnya adalah distribusi Hadoop berkinerja tinggi dengan pemrosesan SQL yang benar untuk Hadoop. Query berbasis SQL dan alat intelijen bisnis lainnya dapat digunakan untuk menganalisis data yang tersimpan dalam HDFS.
Hortonworks
: Pemain utama lainnya di pasar Hadoop, Hortonworks memiliki jumlah kontributor dan kontributor kode terbesar untuk komponen ekosistem Hadoop. (Committers adalah penjaga gerbang proyek Apache dan memiliki kekuatan untuk menyetujui perubahan kode.) Hortonworks adalah spin-off dari Yahoo!, yang merupakan pendorong perusahaan asli proyek Hadoop karena membutuhkan platform berskala besar untuk mendukung bisnis mesin pencarinya. Dari semua vendor distribusi Hadoop, Hortonworks adalah yang paling berkomitmen terhadap gerakan open source, berdasarkan volume pekerjaan pembangunan yang ia berikan kepada masyarakat, dan karena semua upaya pengembangannya (akhirnya) dilipat ke dalam basis kode sumber terbuka.
Model bisnis Hortonworks didasarkan pada kemampuannya untuk memanfaatkan distribusi HDP yang populer dan memberikan layanan dan dukungan berbayar. Namun, itu tidak menjual perangkat lunak berpemilik. Sebaliknya, perusahaan dengan antusias mendukung gagasan untuk bekerja dalam komunitas open source untuk mengembangkan solusi yang memenuhi persyaratan fitur perusahaan (misalnya, pemrosesan kueri yang lebih cepat dengan Hive). Hortonworks telah menjalin sejumlah hubungan dengan perusahaan mapan di industri pengelolaan data: Teradata, Microsoft, Informatica, dan SAS, misalnya. Meskipun perusahaan-perusahaan ini tidak memiliki penawaran Hadoop sendiri, mereka berkolaborasi dengan Hortonworks untuk menyediakan solusi Hadoop terintegrasi dengan produk mereka sendiri.
Penawaran Hadoop Hortonworks adalah Platform Data Hortonworks (HDP), yang mencakup Hadoop serta perkakas dan proyek terkait. Juga tidak seperti Cloudera, Hortonworks hanya merilis versi HDP dengan kode tingkat produksi dari komunitas open source.
IBM
: Big Blue menawarkan berbagai penawaran Hadoop, dengan fokus di sekitar nilai tambah di atas tumpukan sumber Hadoop.
Intel:
Distribusi Intel untuk Apache Hadoop (Intel Distribution) menyediakan pemrosesan terdistribusi dan pengelolaan data untuk aplikasi perusahaan yang menganalisis data besar. Fitur utama mencakup kinerja yang sangat baik dengan pengoptimalan untuk prosesor Intel Xeon, penyimpanan Intel SSD, dan jaringan Intel 10GbE; keamanan data melalui enkripsi dan dekripsi dalam HDFS, dan kontrol akses berbasis peran dengan granularity tingkat-sel di dalam HBase; meningkatkan kinerja query siku; dukungan untuk analisis statistik dengan konektor untuk R, paket statistik open source yang populer; dan grafis analitis melalui Intel Graph Builder.
MapR : Untuk distribusi lengkap untuk Apache Hadoop dan proyek terkait yang independen dari Apache Software Foundation, tidak terlihat lagi dari MapR. Tanpa mengandalkan ketergantungan Java atau ketergantungan pada sistem file Linux, MapR dipromosikan sebagai satu-satunya distribusi Hadoop yang memberikan perlindungan data penuh, tidak ada satu titik kegagalan, dan keuntungan kemudahan penggunaan yang signifikan.
Tiga edisi MapR tersedia: M3, M5, dan M7. Edisi M3 gratis dan tersedia untuk penggunaan produksi tak terbatas; MapR M5 adalah penawaran perangkat lunak tingkat menengah; dan MapR M7 adalah distribusi lengkap untuk Apache Hadoop dan HBase yang mencakup Pig, Hive, Sqoop, dan masih banyak lagi.