Video: Nonot Harsono & Onno W. Purbo at IoT, Big Data & Industry 4.0 Workshop & Seminar | Part 1 2024
Dengan memiliki komputer yang lebih cepat tidak cukup untuk memastikan tingkat kinerja yang tepat untuk menangani data yang besar. Anda harus dapat mendistribusikan komponen layanan data besar Anda ke serangkaian node. Dalam komputasi terdistribusi, node adalah elemen yang terdapat dalam cluster sistem atau dalam rak.
Sebuah simpul biasanya mencakup CPU, memori, dan beberapa jenis disk. Namun, sebuah node juga bisa menjadi CPU dan memori pisau yang mengandalkan penyimpanan terdekat di dalam rak.
Dalam lingkungan data yang besar, simpul ini biasanya saling berkelompok untuk memberi skala. Misalnya, Anda mungkin memulai dengan analisis data yang besar dan terus menambahkan lebih banyak sumber data. Untuk mengakomodasi pertumbuhan, sebuah organisasi menambahkan lebih banyak simpul ke dalam sebuah cluster sehingga dapat ditingkatkan untuk mengakomodasi kebutuhan tumbuh.
Namun, tidak cukup hanya untuk memperluas jumlah node dalam cluster. Sebaliknya, penting untuk bisa mengirim sebagian analisis data besar ke lingkungan fisik yang berbeda. Di mana Anda mengirim tugas ini dan bagaimana Anda mengelolanya, membuat perbedaan antara kesuksesan dan kegagalan.
Dalam beberapa situasi yang kompleks, Anda mungkin ingin melakukan banyak algoritma berbeda secara paralel, bahkan di dalam cluster yang sama, untuk mencapai kecepatan analisis yang diperlukan. Mengapa Anda mengeksekusi algoritma data besar yang berbeda secara paralel di dalam rak yang sama? Semakin dekat distribusi fungsi, semakin cepat mereka bisa mengeksekusi.
Meskipun memungkinkan untuk mendistribusikan analisis data yang besar ke seluruh jaringan untuk memanfaatkan kapasitas yang tersedia, Anda harus melakukan distribusi jenis ini berdasarkan persyaratan kinerja. Dalam beberapa situasi, kecepatan pemrosesan membutuhkan tempat duduk belakang. Namun, dalam situasi lain, mendapatkan hasil dengan cepat adalah persyaratannya. Dalam situasi ini, Anda ingin memastikan bahwa fungsi jaringan saling berdekatan satu sama lain.
Secara umum, lingkungan data yang besar harus dioptimalkan untuk jenis tugas analisis. Oleh karena itu, skalabilitas adalah lynchpin yang membuat data besar berhasil beroperasi. Meskipun secara teoritis memungkinkan untuk mengoperasikan lingkungan data yang besar dalam lingkungan yang besar, tidak praktis.
Untuk memahami kebutuhan skalabilitas dalam data besar, seseorang hanya harus melihat skalabilitas awan dan memahami persyaratan dan pendekatannya. Seperti komputasi awan, data besar memerlukan penyertaan jaringan cepat dan kelompok perangkat keras murah yang dapat digabungkan dalam rak untuk meningkatkan kinerja. Cluster ini didukung oleh otomasi perangkat lunak yang memungkinkan penskalaan dinamis dan load balancing.
Desain dan implementasi MapReduce adalah contoh bagus bagaimana komputasi terdistribusi dapat membuat data besar terlihat dan terjangkau secara operasional. Intinya, perusahaan berada di salah satu titik balik unik dalam komputasi di mana konsep teknologi berkumpul pada saat yang tepat untuk menyelesaikan masalah yang benar. Menggabungkan komputasi terdistribusi, memperbaiki sistem perangkat keras, dan solusi praktis seperti MapReduce dan Hadoop adalah mengubah pengelolaan data dengan cara yang mendalam.