Daftar Isi:
- Data besar terdiri dari data terstruktur, semi terstruktur, dan tidak terstruktur. Anda sering memiliki banyak, dan itu bisa sangat kompleks. Bila Anda memikirkan untuk menganalisanya, Anda perlu mengetahui karakteristik potensial dari data Anda:
- refactored,
- Mengintegrasikan teknologi:
Video: IOHK | Cardano whiteboard; overview with Charles Hoskinson 2024
Produk intelijen bisnis tradisional tidak benar-benar dirancang untuk menangani data yang besar, sehingga mungkin memerlukan beberapa modifikasi. Mereka dirancang untuk bekerja dengan data yang sangat terstruktur dan dipahami dengan baik, sering disimpan dalam gudang data relasional dan ditampilkan di komputer desktop atau laptop Anda. Analisis intelijen bisnis tradisional ini biasanya diterapkan pada snapshot data daripada keseluruhan jumlah data yang tersedia. Apa bedanya dengan analisa data yang besar?
Data besar terdiri dari data terstruktur, semi terstruktur, dan tidak terstruktur. Anda sering memiliki banyak, dan itu bisa sangat kompleks. Bila Anda memikirkan untuk menganalisanya, Anda perlu mengetahui karakteristik potensial dari data Anda:
Itu bisa berasal dari sumber yang tidak tepercaya.
-
Analisis data yang besar sering melibatkan penggabungan data dari berbagai sumber. Ini mungkin termasuk sumber data internal dan eksternal. Seberapa terpercaya sumber informasi eksternal ini? Misalnya, bagaimana bisa dipercaya adalah data media sosial seperti tweet? Informasi mungkin berasal dari sumber yang tidak terverifikasi. Integritas data ini perlu dipertimbangkan dalam analisis.
-
Data kotor mengacu pada data yang tidak akurat, tidak lengkap, atau salah. Ini mungkin termasuk salah mengeja kata-kata; sebuah sensor yang rusak, tidak dikalibrasi dengan benar, atau rusak dalam beberapa cara; atau bahkan data terduplikasi. Data ilmuwan berdebat tentang tempat untuk membersihkan data - baik yang dekat dengan sumber maupun secara real time. Tentu saja, salah satu aliran pemikiran mengatakan bahwa data kotor seharusnya tidak dibersihkan sama sekali karena mungkin mengandung outlier yang menarik. Strategi pembersihan mungkin tergantung pada sumber dan jenis data dan tujuan analisis Anda. Misalnya, jika Anda mengembangkan filter spam, sasarannya adalah mendeteksi elemen buruk dalam data, jadi Anda tidak ingin membersihkannya.
Rasio signal-to-noise bisa rendah.
Dengan kata lain, sinyal (informasi yang dapat digunakan) mungkin hanya sebagian kecil dari data; Kebisingan adalah sisanya. Mampu mengekstrak sinyal kecil dari data berisik merupakan bagian dari analisis data yang besar, namun Anda harus sadar bahwa sinyal mungkin memang kecil. -
Ini bisa real-time. Dalam banyak kasus, Anda akan mencoba menganalisis aliran data real-time.
-
Tata kelola data yang besar akan menjadi bagian penting dari persamaan analisis. Di bawah analisis bisnis, penyempurnaan perlu dilakukan pada solusi tata kelola untuk memastikan kebenaran yang diperoleh dari sumber data baru, terutama karena digabungkan dengan data terpercaya yang ada yang tersimpan di gudang.Keamanan data dan solusi privasi juga perlu ditingkatkan untuk mendukung pengelolaan / pengelolaan data besar yang tersimpan dalam teknologi baru. Analisis data analitis besar
Bila Anda mempertimbangkan analisis data yang besar, Anda harus sadar bahwa ketika Anda meluaskan melampaui desktop, algoritme yang Anda gunakan sering perlu
refactored,
mengubah kode internal tanpa mempengaruhi fungsi eksternalnya. Keindahan infrastruktur data yang besar adalah Anda bisa menjalankan model yang biasa berjam-jam atau berhari-hari dalam hitungan menit. Ini memungkinkan Anda mengulangi model ratusan kali. Namun, jika Anda menjalankan regresi pada satu miliar baris data di lingkungan terdistribusi, Anda perlu mempertimbangkan persyaratan sumber daya yang berkaitan dengan volume data dan lokasinya di cluster. Algoritma Anda perlu disadari data. Selain itu, vendor mulai menawarkan analisis baru yang dirancang agar ditempatkan dekat dengan sumber data yang besar untuk menganalisis data yang ada. Pendekatan analisis berjalan ini mendekati sumber data meminimalkan jumlah data yang tersimpan dengan hanya mempertahankan data bernilai tinggi. Hal ini juga memungkinkan Anda untuk menganalisis data lebih cepat, yang penting untuk pengambilan keputusan secara real-time.
Tentu saja, analytics akan terus berkembang. Misalnya, Anda mungkin memerlukan kemampuan visualisasi real-time untuk menampilkan data real-time yang terus berubah. Bagaimana Anda bisa merencanakan satu miliar poin di plot grafik? Atau, bagaimana Anda bekerja dengan algoritma prediktif sehingga mereka melakukan analisis cukup cepat dan cukup dalam untuk memanfaatkan kumpulan data kompleks yang terus berkembang? Ini adalah bidang penelitian aktif.
Dukungan infrastruktur data yang besar
Cukuplah dikatakan bahwa jika Anda mencari platform, perlu untuk mencapai hal-hal berikut:
Mengintegrasikan teknologi:
Infrastruktur perlu mengintegrasikan teknologi data baru yang besar dengan teknologi tradisional untuk dapat memproses semua jenis data besar dan membuatnya dapat dikonsumsi oleh analisis tradisional.
-
Simpan data dalam jumlah besar yang berbeda: Sistem Hadoop yang mengeras perusahaan mungkin diperlukan yang dapat memproses / menyimpan / mengelola sejumlah besar data saat istirahat, apakah terstruktur, semi terstruktur, atau tidak terstruktur.
-
Mengolah data yang sedang berjalan: Kemampuan komputasi arus mungkin diperlukan untuk memproses data dalam gerak yang terus dihasilkan oleh sensor, perangkat cerdas, video, audio, dan log untuk mendukung pengambilan keputusan secara real-time.
-
Data gudang: Anda mungkin memerlukan solusi yang dioptimalkan untuk beban kerja analitik operasional atau dalam untuk menyimpan dan mengelola data terpercaya yang terus bertambah.
-
Dan tentu saja, Anda memerlukan kemampuan untuk mengintegrasikan data yang telah Anda miliki beserta hasil analisis data yang besar.