Daftar Isi:
Video: The history of our world in 18 minutes | David Christian 2024
Data tidak terstruktur adalah data yang tidak mengikuti format yang ditentukan untuk data besar. Jika 20 persen data yang tersedia untuk perusahaan adalah data terstruktur, 80 persen lainnya tidak terstruktur. Data terstruktur sebenarnya adalah sebagian besar data yang akan Anda hadapi. Sampai saat ini, bagaimanapun, teknologi tidak benar-benar mendukung melakukan banyak hal kecuali mengunduhnya atau menganalisisnya secara manual.
Sumber data besar yang tidak terstruktur
Data tidak terstruktur ada dimana - mana. Sebenarnya, kebanyakan individu dan organisasi melakukan kehidupan mereka di sekitar data tidak terstruktur. Sama seperti data terstruktur, data tidak terstruktur adalah mesin yang dihasilkan atau buatan manusia.
Berikut adalah beberapa contoh data tidak terstruktur yang dihasilkan mesin:
-
Gambar satelit: Ini mencakup data cuaca atau data yang ditangkap pemerintah dalam citra pengawasan satelitnya. Pikirkan saja Google Earth, dan Anda mendapatkan fotonya.
-
Data ilmiah: Ini mencakup citra seismik, data atmosfer, dan fisika energi tinggi.
-
Foto dan video: Ini mencakup keamanan, pengawasan, dan video lalu lintas.
-
Data radar atau sonar: Ini mencakup profil seismik kendaraan bermotor, meteorologi, dan oseanografi.
Daftar berikut menunjukkan beberapa contoh data tidak terstruktur buatan manusia:
-
Teks internal untuk perusahaan Anda: Pikirkan semua teks dalam dokumen, log, hasil survei, dan e-mail. Informasi perusahaan benar-benar mewakili sebagian besar informasi teks di dunia saat ini.
-
Data media sosial: Data ini dihasilkan dari platform media sosial seperti YouTube, Facebook, Twitter, LinkedIn, dan Flickr.
-
Data mobile: Ini mencakup data seperti pesan teks dan informasi lokasi.
-
konten situs web: Ini berasal dari situs yang mengirimkan konten tidak terstruktur, seperti YouTube, Flickr, atau Instagram.
Dan daftarnya terus berlanjut.
Beberapa orang percaya bahwa kata data tidak terstruktur menyesatkan karena setiap dokumen mungkin berisi struktur atau pemformatannya sendiri berdasarkan perangkat lunak yang menciptakannya. Namun, apa yang internal dokumen itu benar-benar tidak terstruktur.
Sejauh ini, data tidak terstruktur adalah bagian terbesar dari data persamaan, dan kasus penggunaan untuk data tidak terstruktur berkembang dengan cepat. Di sisi teks saja, analisis teks dapat digunakan untuk menganalisis teks tidak terstruktur dan mengekstrak data yang relevan dan mengubah data tersebut menjadi informasi terstruktur yang dapat digunakan dengan berbagai cara.
Misalnya, kasus penggunaan data populer yang populer adalah analisis media sosial untuk digunakan dengan percakapan pelanggan dengan volume tinggi. Selain itu, data tidak terstruktur dari catatan call center, e-mail, komentar tertulis dalam sebuah survei, dan dokumen lainnya dianalisis untuk memahami perilaku pelanggan. Hal ini dapat dikombinasikan dengan media sosial dari puluhan juta sumber untuk memahami pengalaman pelanggan.
Peran CMS dalam pengelolaan data yang besar
Organisasi menyimpan beberapa data tidak terstruktur di database. Namun, mereka juga memanfaatkan sistem manajemen konten perusahaan (CMS) yang dapat mengelola siklus konten lengkap. Ini bisa termasuk konten web, konten dokumen, dan media bentuk lainnya.
Menurut Asosiasi Informasi dan Pengelolaan Gambar (AIIM), sebuah organisasi nirlaba yang menyediakan pendidikan, penelitian, dan praktik terbaik, Enterprise Content Management (ECM) terdiri dari "strategi, metode, dan alat yang digunakan untuk menangkap, mengelola, menyimpan, melestarikan, dan mengirimkan konten dan dokumen yang terkait dengan proses organisasi. "Teknologi yang termasuk dalam ECM mencakup pengelolaan dokumen, pengelolaan arsip, pencitraan, pengelolaan alur kerja, pengelolaan konten web, dan kolaborasi.
Seluruh industri berkembang di seputar pengelolaan konten, dan banyak vendor pengelolaan konten menskalakan solusi mereka untuk menangani data terstruktur dalam jumlah besar. Namun, teknologi baru juga berkembang untuk membantu mendukung data tidak terstruktur dan analisis data tidak terstruktur. Beberapa di antaranya mendukung data terstruktur dan tidak terstruktur. Beberapa mendukung arus real-time. Ini termasuk teknologi seperti Hadoop, MapReduce, dan streaming.
Sistem yang dirancang untuk menyimpan konten dalam bentuk sistem manajemen konten bukan lagi solusi yang berdiri sendiri. Sebaliknya, mereka cenderung menjadi bagian dari solusi pengelolaan data secara keseluruhan. Misalnya, organisasi Anda dapat memantau umpan Twitter yang kemudian dapat memicu pemunculan CMS secara terprogram.
Sekarang, orang yang memicu tweet mendapat jawaban kembali yang menawarkan lokasi di mana individu dapat menemukan produk yang mungkin dia cari. Manfaat terbesar adalah ketika jenis interaksi ini bisa terjadi secara real time. Ini juga menggambarkan nilai dari data real-time yang tidak terstruktur, terstruktur (data pelanggan tentang data orang yang di-tweet), dan semi-terstruktur (konten sebenarnya dalam CMS).
Kenyataannya adalah bahwa Anda mungkin akan menggunakan pendekatan hibrida untuk memecahkan masalah data besar Anda. Misalnya, tidak masuk akal untuk memindahkan semua konten berita Anda, misalnya ke Hadoop di tempat Anda karena ini seharusnya membantu mengelola data tidak terstruktur.