Video: Statistical paradises and paradoxes in Big Data 2024
Anda akan menemukan nuansa tentang analisis data yang besar. Ini benar-benar tentang data kecil. Meskipun hal ini mungkin membingungkan dan bertentangan dengan keseluruhan premis, data kecil adalah produk dari analisis data yang besar. Ini bukan konsep baru, juga tidak asing bagi orang-orang yang telah melakukan analisis data untuk jangka waktu tertentu. Ruang kerja keseluruhan lebih besar, tapi jawabannya terletak di suatu tempat di "kecil. "
Analisis data tradisional dimulai dengan database yang berisi informasi pelanggan, informasi produk, transaksi, data telemetri, dan sebagainya. Bahkan saat itu, terlalu banyak data yang tersedia untuk dianalisis secara efisien. Sistem, jaringan, dan perangkat lunak tidak memiliki kinerja atau kapasitas untuk menangani skala. Sebagai industri, kekurangannya ditangani dengan membuat kumpulan data yang lebih kecil.
Kumpulan data yang lebih kecil ini masih cukup substantif, kekurangan lainnya segera ditemukan; Yang paling mencolok adalah ketidakcocokan antara data dan konteks kerja. Jika Anda bekerja di Accounts Payable, Anda harus melihat sejumlah besar data yang tidak terkait untuk melakukan pekerjaan Anda. Sekali lagi, industri merespons dengan menciptakan kumpulan data yang lebih kecil dan kontekstual - besar hingga kecil hingga yang lebih kecil.
Anda mungkin mengenali ini sebagai migrasi dari database ke gudang data ke data mart. Lebih sering daripada tidak, data untuk gudang dan gudang dipilih secara acak atau eksperimental sehingga menghasilkan banyak trial and error. Bisnis tidak mendapatkan perspektif yang mereka butuhkan atau mungkin dilakukan karena pengurangan kapasitas tidak didasarkan pada fakta komputasi.
Masukkan data yang besar, dengan semua volume, kecepatan, dan varietasnya, dan masalahnya tetap atau mungkin memburuk. Kekurangan infrastruktur telah ditangani dan dapat menyimpan dan memproses sejumlah besar data tambahan, namun teknologi baru dibutuhkan secara khusus untuk membantu mengelola data besar.
Terlepas dari penampilan luarnya, ini adalah hal yang luar biasa. Hari ini dan di masa depan, perusahaan akan memiliki lebih banyak data daripada yang bisa mereka bayangkan dan mereka memiliki sarana untuk menangkap dan mengelolanya. Apa yang lebih penting dari sebelumnya adalah kemampuan untuk menganalisis data benar dengan cara yang tepat untuk membuat keputusan dan mengambil tindakan.
Bisnis masih akan mengecilkan kumpulan data menjadi "fighting trim", namun bisa melakukannya secara komputasi. Mereka mengolah data yang besar dan mengubahnya menjadi data kecil sehingga lebih mudah untuk dipahami. Ini lebih tepat dan, karena berasal dari titik awal yang jauh lebih besar, ini lebih relevan secara kontekstual.