Rumah Keuangan Pribadi Dasar-dasar data terstruktur dan tidak terstruktur dalam data prediktif - dummies

Dasar-dasar data terstruktur dan tidak terstruktur dalam data prediktif - dummies

Video: Webinar: Modern GIS sebagai Solusi Tantangan Masa Kini 2025

Video: Webinar: Modern GIS sebagai Solusi Tantangan Masa Kini 2025
Anonim

Data yang terdapat dalam database, dokumen, e-mail, dan file data lainnya untuk analisis prediktif dapat dikategorikan sebagai data terstruktur atau tidak terstruktur. Data terstruktur terorganisasi dengan baik, mengikuti urutan yang konsisten, relatif mudah untuk dicari dan query, dan dapat diakses dan dipahami dengan mudah oleh seseorang atau program komputer.

Contoh klasik dari data terstruktur adalah spreadsheet Excel dengan kolom berlabel. Data terstruktur semacam itu konsisten; tajuk kolom - biasanya deskripsi singkat dan akurat dari konten di setiap kolom - memberi tahu persis jenis konten yang Anda harapkan.

Data terstruktur biasanya disimpan dalam skema yang didefinisikan dengan baik seperti database. Biasanya tabular, dengan kolom dan baris yang secara jelas menentukan atributnya. Data yang tidak terstruktur, sebaliknya, cenderung berbentuk bebas, tidak berbentuk tabel, tersebar, dan tidak mudah ditemukan; Data semacam itu memerlukan intervensi yang disengaja untuk memahaminya. Miscellaneous e-mail, dokumen, halaman web, dan file (baik teks, audio, dan / atau video) di lokasi yang tersebar adalah contoh data tidak terstruktur.

Sulit untuk mengkategorikan isi data tidak terstruktur. Ini cenderung sebagian besar teks, biasanya dibuat dengan gado-gado gaya bebas, dan menemukan atribut yang dapat Anda gunakan untuk menggambarkan atau mengelompokkannya bukanlah tugas kecil.

Isi data tidak terstruktur sulit dilakukan dengan atau masuk akal secara pemrograman. Program komputer tidak dapat menganalisa atau menghasilkan laporan mengenai data semacam itu, hanya karena kekurangan struktur, tidak memiliki karakteristik dominan yang mendasari, dan setiap item data tidak memiliki kesamaan.

Secara umum, ada persentase data terstruktur yang lebih tinggi daripada data terstruktur di dunia. Data yang tidak terstruktur membutuhkan lebih banyak pekerjaan untuk membuatnya berguna, sehingga mendapat perhatian lebih - sehingga cenderung menghabiskan lebih banyak waktu.

Jangan meremehkan pentingnya data terstruktur dan kekuatan yang diberikannya pada analisis Anda. Ini jauh lebih efisien untuk menganalisis data terstruktur daripada menganalisis data tidak terstruktur. Data yang tidak terstruktur juga mahal untuk proses preprocess untuk analisis karena Anda sedang membangun proyek analisis prediktif. Pemilihan data yang relevan, pembersihannya, dan transformasi selanjutnya bisa berlangsung lama dan membosankan.

Data yang baru saja disusun dari langkah-langkah preprocessing yang diperlukan kemudian dapat digunakan dalam model analisis prediktif. Transformasi besar data terstruktur bagaimanapun, mungkin harus menunggu sampai Anda memiliki model analisis prediktif Anda dan berjalan.

Analisis data mining and text adalah dua pendekatan untuk menyusun dokumen teks, menghubungkan isinya, mengelompokkan dan meringkas data mereka, dan mengungkap pola dalam data tersebut. Kedua disiplin menyediakan kerangka algoritme dan teknik yang kaya untuk menambang teks yang tersebar di lautan dokumen.

Perlu dicatat juga bahwa platform mesin pencari menyediakan alat yang tersedia untuk mengindeks data dan membuatnya dapat ditelusuri.

Mari bandingkan data terstruktur dan tidak terstruktur.

Karakteristik

Terstruktur Tidak terstruktur Asosiasi
Terorganisir Tersebar dan terdispersi Penampilan
Secara formal didefinisikan Formulir Bebas Aksesibilitas
Mudah untuk akses dan permintaan Sulit untuk mengakses dan query Ketersediaan
Percentagewise lower Percentagewise higher Analisis
Efisien untuk menganalisis Preprocessing tambahan diperlukan Data tidak terstruktur tidak sepenuhnya Kurang struktur - Anda hanya perlu mencari tahu. Bahkan teks di dalam file digital masih memiliki beberapa struktur yang terkait dengannya, sering muncul dalam metadata - misalnya, judul dokumen, tanggal file terakhir diubah, dan nama pengarangnya.

Hal yang sama berlaku untuk e-mail: Isinya mungkin tidak terstruktur, namun data terstruktur dikaitkan dengan mereka - misalnya tanggal dan waktu pengiriman, nama pengirim dan penerima mereka, apakah itu berisi lampiran.

Garis pemisah antara kedua tipe data tidak selalu jelas. Secara umum, Anda selalu dapat menemukan beberapa atribut data tidak terstruktur yang dapat dianggap sebagai data terstruktur. Apakah struktur itu mencerminkan isi data itu - atau berguna dalam analisis data - tidak jelas.

Untuk itu, data terstruktur dapat menyimpan data tidak terstruktur di dalamnya. Dalam bentuk web, misalnya, pengguna mungkin diminta memberikan umpan balik mengenai produk dengan memilih jawaban dari banyak pilihan - namun juga dilengkapi dengan kotak komentar di mana mereka dapat memberikan masukan tambahan.

Jawaban dari banyak pilihan disusun; bidang komentar tidak terstruktur karena bentuknya yang bebas. Kasus seperti ini paling baik dipahami sebagai gabungan data terstruktur dan tidak terstruktur. Sebagian besar data merupakan komposit keduanya.

Untuk proyek analisis prediktif yang sukses, data terstruktur dan tidak terstruktur Anda harus digabungkan dalam format logis yang dapat dianalisis.

Dasar-dasar data terstruktur dan tidak terstruktur dalam data prediktif - dummies

Pilihan Editor

Asisten Dokter Ujian: Tipe 1 dan Tipe 2 Diabetes - dummies

Asisten Dokter Ujian: Tipe 1 dan Tipe 2 Diabetes - dummies

Sebagai masalah yang lebih umum , Asisten Dokter Ujian (PANCE) akan mengharapkan Anda untuk mengetahui perbedaan antara diabetes tipe 1 dan tipe 2. Diabetes mellitus (DM) adalah karena metabolisme insulin yang abnormal di dalam tubuh. Pada diabetes mellitus tipe 1, pankreas tidak memproduksi insulin, dan pada tipe 2, tubuh menahan tindakan ...

Asisten Dokter Asisten: Testis dan Sekitarnya - dummies

Asisten Dokter Asisten: Testis dan Sekitarnya - dummies

Banyak kondisi kesehatan dapat mempengaruhi testis dan ini akan dibahas di Asisten Dokter Ujian. Tidak hanya kondisi penting secara klinis, tapi juga hasil tinggi untuk tes. Dari torsi hingga kanker hingga infeksi, waspadai kondisi ini. Torsion Testicular torsion adalah kondisi yang tidak Anda inginkan pada kondisi terburuk Anda ...

Praktek Pertanyaan Dermatologi pada Asisten Dokter - dummies

Praktek Pertanyaan Dermatologi pada Asisten Dokter - dummies

Dari ruam sampai eksim dan infeksi bakteri terhadap virus exanthems, pertanyaan latihan ini serupa dengan pertanyaan dermatologi pada Physician Assistant Exam (PANCE). Contoh Pertanyaan PANCE Salah satu dari berikut ini dapat berkembang menjadi karsinoma sel skuamosa dari waktu ke waktu? (A) Onikomikosis (B) Keratosis aktinik (C) Keratosis seboroik (D) Psoriasis (E) Impetigo Anda sedang mengevaluasi ...

Pilihan Editor

GED Test Prep: Penalaran Melalui Bahasa Membaca Seni Pertanyaan Drag-and-Drop

GED Test Prep: Penalaran Melalui Bahasa Membaca Seni Pertanyaan Drag-and-Drop

Bagian Penalaran Melalui Bahasa Seni GED menggunakan jenis pertanyaan drag-and-drop, antara lain. Item ini mengharuskan Anda menyeret dan melepaskan informasi dari satu lokasi ke layar lainnya. Biasanya, tujuannya adalah agar Anda menyusun ulang sesuatu dari yang paling tidak penting bagi kebanyakan orang, untuk menempatkan peristiwa ke dalam urutan, atau hanya ...

Tips Uji GED: Pertanyaan Mengatasi dan Menjawab - dummies

Tips Uji GED: Pertanyaan Mengatasi dan Menjawab - dummies

Saat Anda memulai GED, Anda ingin memiliki rencana permainan di tempat untuk bagaimana menjawab pertanyaan. Ingatlah tips berikut ini untuk membantu Anda mengatasi setiap pertanyaan: Kapan pun Anda membaca sebuah pertanyaan, tanyakan pada diri Anda, "Apa yang saya minta? "Melakukannya membantu Anda tetap fokus pada apa yang Anda butuhkan ...

GED Test Prep: Penalaran Melalui Bahasa Penulisan Seni Pertanyaan Tanggapan yang Diperluas - dummies

GED Test Prep: Penalaran Melalui Bahasa Penulisan Seni Pertanyaan Tanggapan yang Diperluas - dummies

Ketika Anda menyelesaikan bagian pertama dari bagian Reasoning Through Language Arts (RLA) dari GED, Anda memulai Respons Extended-di mana Anda menulis esai dengan menganalisis argumen yang disajikan dalam dua lembar teks contoh. Anda mendapatkan 45 menit untuk mengerjakan bagian RLA ini, dan Anda tidak dapat melakukannya ...

Pilihan Editor

Cara Melacak Konten dan Membuat Laporan untuk Otomasi Pemasaran - dummies

Cara Melacak Konten dan Membuat Laporan untuk Otomasi Pemasaran - dummies

Setelah Anda memiliki konten untuk kampanye otomasi pemasaran, saatnya belajar mengelolanya. Melacak konten Anda - mengetahui siapa yang terlibat dengannya dan di mana dia terlibat dengan-membantu Anda mengetahui bagaimana menyajikannya dengan lebih baik pada kesempatan berikutnya. Otomatisasi pemasaran membuat manajemen konten sangat berbeda dari bagaimana ...

Bagaimana Menggunakan Otomasi Pemasaran untuk Melacak Prospek Pemasaran Bergerak - dummies

Bagaimana Menggunakan Otomasi Pemasaran untuk Melacak Prospek Pemasaran Bergerak - dummies

Banyak pemasar diukur pada berapa banyak prospek yang mereka berikan pada penjualan dan persentase prospek tersebut diubah menjadi peluang. Untungnya, otomatisasi pemasaran dapat membantu Anda mengembangkan cara untuk mengukur prospek. Mendapatkan visibilitas ke prospek setelah mengirimkannya ke tim penjualan merupakan kutukan bagi banyak departemen pemasaran. Setelah menerapkan ...

Bagaimana Menggunakan Video Tertanam untuk Keterlibatan Peningkatan dalam Otomasi Pemasaran - dummies

Bagaimana Menggunakan Video Tertanam untuk Keterlibatan Peningkatan dalam Otomasi Pemasaran - dummies

Anda dapat menggunakan video khusus untuk mendorong konversi yang lebih tinggi melalui otomasi pemasaran Anda. Untuk membuat video yang lebih maju, pastikan Anda memiliki beberapa opsi dasar dengan alat video-hosting Anda: Putar otomatis: Opsi ini memungkinkan video Anda untuk mulai bermain saat seseorang mendarat di halaman. Ini bukan pilihan super canggih, tapi ...