Umat manusia sekarang berada di persimpangan yang luar biasa dari volume data yang belum pernah terjadi sebelumnya, yang dihasilkan oleh perangkat keras yang semakin kecil dan kuat, dan dianalisis oleh algoritma yang sama ini proses membantu berkembang. Ini bukan hanya masalah volume, yang dengan sendirinya adalah tantangan yang sulit.
Seperti yang diresmikan oleh perusahaan riset Gartner pada tahun 2001 dan kemudian direkayasa ulang dan dikembangkan oleh perusahaan lain, seperti IBM, data besar dapat diringkas oleh empat V yang mewakili karakteristik utamanya:
Kecepatan: Kecepatan pembangkitan data
Ragam: Jumlah dan jenis sumber data
Ukuran: Suara kualitas dan otoritatif data (mengkuantifikasi kesalahan, data buruk, dan kebisingan yang dicampur dengan sinyal), ukuran ketidakpastian data
Setiap karakteristik data besar menawarkan tantangan dan peluang. Misalnya, volume mempertimbangkan jumlah data yang berguna. Apa satu organisasi menganggap data besar bisa menjadi data kecil untuk data lain. Ketidakmampuan memproses data pada satu mesin tidak membuat data besar. Apa yang membedakan data besar dari data business-as-usual adalah memaksa organisasi untuk merevisi metode dan solusi yang lazim, dan mendorong teknologi dan algoritme sekarang untuk melihat ke depan.
Variety memungkinkan penggunaan data besar untuk menantang metode ilmiah, seperti yang dijelaskan oleh tonggak ini dan banyak artikel yang dibahas oleh Chris Anderson, editor kepala
Wired
Pada saat itu, seberapa besar jumlah data dapat membantu penemuan ilmiah di luar metode ilmiah. Penulis bergantung pada contoh Google di sektor bisnis periklanan dan penerjemahan, di mana perusahaan dapat mencapai keunggulan tanpa menggunakan model atau teori tertentu, namun dengan menerapkan algoritme untuk belajar dari data. Seperti dalam periklanan, data sains (fisika, biologi) dapat mendukung inovasi yang memungkinkan ilmuwan untuk mendekati masalah tanpa hipotesis namun dengan mempertimbangkan variasi yang ditemukan dalam sejumlah besar data dan algoritma penemuan.
Karakteristik kebenaran membantu demokratisasi data itu sendiri. Dulu, organisasi menimbun data karena sangat berharga dan sulit didapat. Pada titik ini, berbagai sumber membuat data dalam jumlah yang begitu banyak sehingga penimbunan tidak ada artinya (90 persen data dunia telah diciptakan dalam dua tahun terakhir), jadi tidak ada alasan untuk membatasi akses. Data berubah menjadi komoditas seperti itu sehingga banyak program data terbuka yang tersebar di seluruh dunia.(Amerika Serikat memiliki tradisi akses terbuka yang panjang; program data terbuka pertama dimulai pada tahun 1970an ketika Administrasi Oseanik dan Atmosfer Nasional, NOAA, mulai melepaskan data cuaca secara bebas ke masyarakat.) Namun, karena data telah menjadi komoditas, ketidakpastian data tersebut telah menjadi masalah. Anda tidak lagi tahu apakah datanya benar karena Anda mungkin bahkan tidak tahu sumbernya.
Data telah menjadi begitu banyak sehingga nilainya tidak lagi dalam informasi aktual (seperti data yang tersimpan dalam database perusahaan). Nilai data ada pada bagaimana Anda menggunakannya. Disini algoritma ikut bermain dan mengubah permainan. Perusahaan seperti Google memberi umpan sendiri dari data yang tersedia secara bebas, seperti konten situs web atau teks yang terdapat dalam teks dan buku yang tersedia untuk umum. Namun, nilai Google yang diambil dari data sebagian besar berasal dari algoritme. Sebagai contoh, nilai data berada pada algoritma PageRank (diilustrasikan pada Bab 11), yang merupakan dasar dari bisnis Google. Nilai algoritma juga berlaku untuk perusahaan lain. Mesin rekomendasi Amazon menyumbang bagian penting dari pendapatan perusahaan. Banyak perusahaan keuangan menggunakan perdagangan algoritmik dan saran robo, memanfaatkan data saham dan informasi ekonomi yang tersedia secara terbuka untuk investasi.