Daftar Isi:
Video: Crystal Widjaja - Pemanfaatan Big Data di dalam Bisnis GO-JEK | BukaTalks 2024
Istilah data terstruktur umumnya mengacu pada data yang memiliki panjang dan format yang ditetapkan untuk data besar. Contoh data terstruktur meliputi angka, tanggal, dan kelompok kata dan angka yang disebut string . Sebagian besar ahli sepakat bahwa data semacam ini menyumbang sekitar 20 persen dari data yang ada di luar sana. Data terstruktur adalah data yang mungkin Anda gunakan untuk menangani. Biasanya tersimpan dalam database.
Sumber data terstruktur besar
Meskipun ini mungkin tampak seperti bisnis seperti biasa, pada kenyataannya, data terstruktur mengambil peran baru dalam dunia data besar. Evolusi teknologi menyediakan sumber data terstruktur yang lebih baru - seringkali secara real time dan dalam volume besar. Sumber data dibagi menjadi dua kategori:
-
Komputer atau mesin yang dihasilkan: Data yang dihasilkan oleh mesin umumnya mengacu pada data yang dibuat oleh mesin tanpa campur tangan manusia.
-
Manusia-dihasilkan: Ini adalah data bahwa manusia, dalam interaksi dengan komputer, pasokan.
Beberapa ahli berpendapat bahwa ada kategori ketiga yang merupakan hibrida antara mesin dan manusia. Meskipun demikian, kami memperhatikan dua kategori pertama.
Data terstruktur yang dihasilkan mesin dapat mencakup yang berikut ini:
-
Data sensor: Contohnya termasuk tag ID frekuensi radio, meter cerdas, perangkat medis, dan data Global Positioning System. Perusahaan tertarik pada hal ini untuk manajemen rantai pasokan dan pengendalian persediaan.
-
data log web: Saat server, aplikasi, jaringan, dan sebagainya beroperasi, mereka menangkap semua jenis data tentang aktivitas mereka. Ini bisa mencapai volume data yang besar yang bisa berguna, misalnya, untuk menangani perjanjian tingkat layanan atau untuk memprediksi pelanggaran keamanan.
-
Data titik penjualan: Saat kasir menggeser kode batang dari produk apa pun yang Anda beli, semua data yang terkait dengan produk dihasilkan.
-
Data keuangan: Banyak sistem keuangan sekarang terprogram; mereka dioperasikan berdasarkan aturan yang telah ditetapkan yang mengotomatisasi proses. Data perdagangan saham adalah contoh bagus dari hal ini. Ini berisi data terstruktur seperti simbol perusahaan dan nilai dolar. Beberapa data ini adalah mesin yang dihasilkan, dan ada pula yang dihasilkan manusia.
Contoh data buatan manusia yang terstruktur mungkin termasuk yang berikut ini:
-
Data masukan: Ini adalah data yang mungkin dimasukkan manusia ke komputer, seperti nama, usia, pendapatan, tidak bebas -format tanggapan survei, dan sebagainya. Data ini bisa bermanfaat untuk memahami perilaku konsumen dasar.
-
Data klik-stream: Data dihasilkan setiap kali Anda mengeklik tautan di situs web. Data ini dapat dianalisis untuk mengetahui perilaku pelanggan dan pola beli.
-
Data terkait permainan: Setiap gerakan yang Anda buat dalam permainan dapat direkam. Hal ini dapat berguna dalam memahami bagaimana pengguna akhir bergerak melalui portofolio game.
Bila diambil bersamaan dengan jutaan pengguna lain yang mengirimkan informasi yang sama, ukurannya astronomis. Selain itu, sebagian besar data ini memiliki komponen real-time untuk itu yang dapat berguna untuk memahami pola yang memiliki potensi untuk memprediksi hasil.
Intinya adalah informasi semacam ini bisa sangat kuat dan bisa dimanfaatkan untuk banyak tujuan.
Peran database relasional dalam data besar
Ketekunan data mengacu pada bagaimana database mempertahankan versi dirinya sendiri saat dimodifikasi. Kakek buyut dari data store yang persisten adalah sistem manajemen basis data relasional . Pada masa kanak-kanak, industri komputasi menggunakan teknik yang sekarang dianggap primitif untuk persistensi data.
Model relasional ditemukan oleh Edgar Codd, seorang ilmuwan IBM, pada 1970-an dan digunakan oleh IBM, Oracle, Microsoft, dan lainnya. Hal ini masih dalam penggunaan luas hari ini dan memainkan peran penting dalam evolusi data besar. Pengertian database relasional sangat penting karena database jenis lain digunakan dengan data yang besar.
Dalam model relasional, data disimpan dalam tabel. Database ini berisi skema - yaitu representasi struktural dari apa yang ada dalam database. Sebagai contoh, dalam database relasional, skema mendefinisikan tabel, kolom dalam tabel, dan hubungan antara keduanya.
Data disimpan dalam kolom, masing-masing untuk setiap atribut tertentu. Data juga disimpan di baris. Tabel pertama menyimpan informasi produk; yang kedua menyimpan informasi demografis. Masing-masing memiliki berbagai atribut. Setiap tabel dapat diperbarui dengan data baru, dan data dapat dihapus, dibaca, dan diperbarui. Hal ini sering dilakukan dalam model relasional menggunakan bahasa query terstruktur (SQL).
Aspek lain dari model relasional yang menggunakan SQL adalah tabel dapat ditanyakan menggunakan kunci yang sama. Kunci umum dalam tabel adalah CustomerID.
Anda dapat mengajukan kueri, misalnya, untuk menentukan jenis kelamin pelanggan yang membeli produk tertentu. Mungkin ada yang seperti ini:
Pilih CustomerID, State, Gender, Product dari "tabel demografi", "tabel produk" dimana Product = XXYY