Rumah Keuangan Pribadi Dasar-dasar data terstruktur dan tidak terstruktur dalam data prediktif - dummies

Dasar-dasar data terstruktur dan tidak terstruktur dalam data prediktif - dummies

Video: Webinar: Modern GIS sebagai Solusi Tantangan Masa Kini 2025

Video: Webinar: Modern GIS sebagai Solusi Tantangan Masa Kini 2025
Anonim

Data yang terdapat dalam database, dokumen, e-mail, dan file data lainnya untuk analisis prediktif dapat dikategorikan sebagai data terstruktur atau tidak terstruktur. Data terstruktur terorganisasi dengan baik, mengikuti urutan yang konsisten, relatif mudah untuk dicari dan query, dan dapat diakses dan dipahami dengan mudah oleh seseorang atau program komputer.

Contoh klasik dari data terstruktur adalah spreadsheet Excel dengan kolom berlabel. Data terstruktur semacam itu konsisten; tajuk kolom - biasanya deskripsi singkat dan akurat dari konten di setiap kolom - memberi tahu persis jenis konten yang Anda harapkan.

Data terstruktur biasanya disimpan dalam skema yang didefinisikan dengan baik seperti database. Biasanya tabular, dengan kolom dan baris yang secara jelas menentukan atributnya. Data yang tidak terstruktur, sebaliknya, cenderung berbentuk bebas, tidak berbentuk tabel, tersebar, dan tidak mudah ditemukan; Data semacam itu memerlukan intervensi yang disengaja untuk memahaminya. Miscellaneous e-mail, dokumen, halaman web, dan file (baik teks, audio, dan / atau video) di lokasi yang tersebar adalah contoh data tidak terstruktur.

Sulit untuk mengkategorikan isi data tidak terstruktur. Ini cenderung sebagian besar teks, biasanya dibuat dengan gado-gado gaya bebas, dan menemukan atribut yang dapat Anda gunakan untuk menggambarkan atau mengelompokkannya bukanlah tugas kecil.

Isi data tidak terstruktur sulit dilakukan dengan atau masuk akal secara pemrograman. Program komputer tidak dapat menganalisa atau menghasilkan laporan mengenai data semacam itu, hanya karena kekurangan struktur, tidak memiliki karakteristik dominan yang mendasari, dan setiap item data tidak memiliki kesamaan.

Secara umum, ada persentase data terstruktur yang lebih tinggi daripada data terstruktur di dunia. Data yang tidak terstruktur membutuhkan lebih banyak pekerjaan untuk membuatnya berguna, sehingga mendapat perhatian lebih - sehingga cenderung menghabiskan lebih banyak waktu.

Jangan meremehkan pentingnya data terstruktur dan kekuatan yang diberikannya pada analisis Anda. Ini jauh lebih efisien untuk menganalisis data terstruktur daripada menganalisis data tidak terstruktur. Data yang tidak terstruktur juga mahal untuk proses preprocess untuk analisis karena Anda sedang membangun proyek analisis prediktif. Pemilihan data yang relevan, pembersihannya, dan transformasi selanjutnya bisa berlangsung lama dan membosankan.

Data yang baru saja disusun dari langkah-langkah preprocessing yang diperlukan kemudian dapat digunakan dalam model analisis prediktif. Transformasi besar data terstruktur bagaimanapun, mungkin harus menunggu sampai Anda memiliki model analisis prediktif Anda dan berjalan.

Analisis data mining and text adalah dua pendekatan untuk menyusun dokumen teks, menghubungkan isinya, mengelompokkan dan meringkas data mereka, dan mengungkap pola dalam data tersebut. Kedua disiplin menyediakan kerangka algoritme dan teknik yang kaya untuk menambang teks yang tersebar di lautan dokumen.

Perlu dicatat juga bahwa platform mesin pencari menyediakan alat yang tersedia untuk mengindeks data dan membuatnya dapat ditelusuri.

Mari bandingkan data terstruktur dan tidak terstruktur.

Karakteristik

Terstruktur Tidak terstruktur Asosiasi
Terorganisir Tersebar dan terdispersi Penampilan
Secara formal didefinisikan Formulir Bebas Aksesibilitas
Mudah untuk akses dan permintaan Sulit untuk mengakses dan query Ketersediaan
Percentagewise lower Percentagewise higher Analisis
Efisien untuk menganalisis Preprocessing tambahan diperlukan Data tidak terstruktur tidak sepenuhnya Kurang struktur - Anda hanya perlu mencari tahu. Bahkan teks di dalam file digital masih memiliki beberapa struktur yang terkait dengannya, sering muncul dalam metadata - misalnya, judul dokumen, tanggal file terakhir diubah, dan nama pengarangnya.

Hal yang sama berlaku untuk e-mail: Isinya mungkin tidak terstruktur, namun data terstruktur dikaitkan dengan mereka - misalnya tanggal dan waktu pengiriman, nama pengirim dan penerima mereka, apakah itu berisi lampiran.

Garis pemisah antara kedua tipe data tidak selalu jelas. Secara umum, Anda selalu dapat menemukan beberapa atribut data tidak terstruktur yang dapat dianggap sebagai data terstruktur. Apakah struktur itu mencerminkan isi data itu - atau berguna dalam analisis data - tidak jelas.

Untuk itu, data terstruktur dapat menyimpan data tidak terstruktur di dalamnya. Dalam bentuk web, misalnya, pengguna mungkin diminta memberikan umpan balik mengenai produk dengan memilih jawaban dari banyak pilihan - namun juga dilengkapi dengan kotak komentar di mana mereka dapat memberikan masukan tambahan.

Jawaban dari banyak pilihan disusun; bidang komentar tidak terstruktur karena bentuknya yang bebas. Kasus seperti ini paling baik dipahami sebagai gabungan data terstruktur dan tidak terstruktur. Sebagian besar data merupakan komposit keduanya.

Untuk proyek analisis prediktif yang sukses, data terstruktur dan tidak terstruktur Anda harus digabungkan dalam format logis yang dapat dianalisis.

Dasar-dasar data terstruktur dan tidak terstruktur dalam data prediktif - dummies

Pilihan Editor

SharePoint 2010 Edit Menu - dummies

SharePoint 2010 Edit Menu - dummies

SharePoint 2010 menyediakan dua metode untuk bekerja dengan dokumen. Setiap dokumen memiliki menu Edit yang dapat Anda gunakan untuk mengambil beberapa tindakan pada dokumen itu, seperti memeriksanya untuk diedit. Ribbon juga menampilkan serangkaian tindakan yang dapat dilakukan pada masing-masing dokumen atau sekelompok dokumen yang dipilih. Mengakses ...

SharePoint 2010 Halaman Master dan Galeri Tata Letak Halaman - dummies

SharePoint 2010 Halaman Master dan Galeri Tata Letak Halaman - dummies

Jika Anda berada di situs kolaborasi SharePoint 2010 koleksi, Anda bisa mencatat galeri Master Page di Galeri, namun tidak ada link untuk menerapkan halaman utama di bagian Look and Feel. Di situs penerbitan, Anda memiliki galeri Halaman Utama dan Galeri Page Layout serta pilihan Master Page di ...

Kerangka situs Business Intelligence Center SharePoint 2010 - dummies

Kerangka situs Business Intelligence Center SharePoint 2010 - dummies

Template situs Business Intelligence Center yang baru di SharePoint 2010 menyatukan semuanya untuk Anda guna memantau, menganalisis, dan mewakili data kinerja dan hasil dalam organisasi Anda. Untuk membuat situs berdasarkan template Business Intelligence Center, Anda harus memiliki fitur PerformancePoint Services Site Collection yang diaktifkan. Jika Anda bukan ...

Pilihan Editor

Manfaat Memotret di Alam pada masa siang hari

Manfaat Memotret di Alam pada masa siang hari

Jika Anda kebetulan melakukan pemotretan di alam tengah hari, maka Anda mungkin memiliki waktu yang lebih sulit menemukan cahaya yang memiliki arah atau kualitas yang Anda inginkan. Matahari bertumpu tinggi di langit untuk sebagian besar hari itu, berseri lurus ke bawah pada subjek Anda ...

Manfaat Kamera Digital Kompak untuk Fotografi HDR

Manfaat Kamera Digital Kompak untuk Fotografi HDR

(Kadang disebut titik digital - dan - kamera shoot) adalah yang termurah masuk ke fotografi dengan rentang dinamis tinggi. Anda bisa membelinya seharga sekitar $ 100 dan memulai karir Anda tanpa harus mendapatkan hipotek kedua di rumah Anda. Berikut adalah beberapa model yang bisa sesuai dengan tagihan. Nikon Coolpix S220 dan Canon PowerShot A480 ...

HDR hitam-putih: Berwarna dengan Elemen Variasi Warna Alat - dummies

HDR hitam-putih: Berwarna dengan Elemen Variasi Warna Alat - dummies

Salah satu pilihan untuk mewarnai gambar kisaran dinamis hitam-putih tinggi (HDR) di Photoshop Elements adalah dengan menggunakan alat Variasi Warna. Beberapa kontrol tersedia di sini dimana Anda dapat menambah atau mengurangi warna pada daerah nada tertentu. Dengan kata lain, jika Anda ingin meningkatkan warna hijau dalam bayang-bayang, Anda bisa. Kelemahannya adalah bahwa ...

Pilihan Editor

Membangun Swift Outlets and Actions with Xcode - dummies

Membangun Swift Outlets and Actions with Xcode - dummies

Xcode memiliki Interface Builder yang terpasang di dalamnya sehingga Anda dapat merancang antarmuka Anda secara grafis Kunci untuk membuat semuanya bekerja adalah menghubungkan elemen grafis dari Interface Builder ke file Swift Anda. Xcode memudahkan - cukup ikuti langkah berikut: Buka Utama. storyboard Papan cerita utama Anda mungkin memiliki nama yang berbeda; ini ...

Memilih Bagaimana Melaksanakan Fungsi di Swift - dummies

Memilih Bagaimana Melaksanakan Fungsi di Swift - dummies

Saat Anda sedang berpikir untuk membuat sebuah aplikasi, bagaimana caranya? Anda memutuskan bagaimana menerapkan fungsinya? Swift, bersama dengan kerangka Cocoa and Cocoa Touch, menyediakan berbagai macam alat untuk membantu Anda. Berikut adalah daftar beberapa pertanyaan untuk diajukan kepada diri sendiri saat menentukan mana yang akan digunakan: Apakah ini sesuatu yang ...

Memoles Alat Pengembangan Anda untuk Pemasar Kakao - dummies

Memoles Alat Pengembangan Anda untuk Pemasar Kakao - dummies

Kakao adalah salah satu jenis program yang dapat Anda lakukan dengan Apple's Alat pengembang. Kakao adalah kumpulan alat dan perpustakaan yang memungkinkan Anda mendapatkan hasil maksimal dari pemrograman Mac OS X. Banyak fitur membuat Cocoa hebat, termasuk yang berikut: Desain berorientasi objek modular Penggunaan kerangka kerja Desain antarmuka visual Mengapa program dengan ...