Rumah Keuangan Pribadi Melihat Dasar-dasar Statistik, Pembelajaran Mesin, dan Metode Matematika dalam Ilmu Data - dummies

Melihat Dasar-dasar Statistik, Pembelajaran Mesin, dan Metode Matematika dalam Ilmu Data - dummies

Daftar Isi:

Video: 14 Rumus Excel Yang Paling Sering Digunakan 2025

Video: 14 Rumus Excel Yang Paling Sering Digunakan 2025
Anonim

Bagian Lembar Data Ilmu Pengetahuan untuk Dummies Cheat > Jika statistik telah digambarkan sebagai ilmu yang mendapatkan wawasan dari data, lalu apa perbedaan antara ahli statistik dan ilmuwan data? Pertanyaan bagus! Sementara banyak tugas dalam ilmu data memerlukan sedikit statistik untuk mengetahui bagaimana, ruang lingkup dan keluasan pengetahuan ilmuwan dan basis pengetahuan data berbeda dari statistik. Perbedaan inti diuraikan di bawah ini.

Keahlian materi pelajaran:
  • Salah satu fitur utama ilmuwan data adalah mereka menawarkan keahlian tingkat tinggi di bidang yang menerapkan metode analisis mereka. Ilmu data membutuhkan ini sehingga mereka dapat benar-benar memahami implikasi dan penerapan wawasan data yang mereka hasilkan. Seorang ilmuwan data harus memiliki keahlian mata pelajaran yang cukup untuk dapat mengidentifikasi signifikansi temuan mereka dan secara independen memutuskan bagaimana melanjutkan analisis.

    Sebaliknya, ahli statistik biasanya memiliki pengetahuan statistik yang sangat dalam, tapi sangat sedikit keahlian dalam masalah yang mereka gunakan untuk metode statistik. Sebagian besar waktu, ahli statistik diminta untuk berkonsultasi dengan pakar materi pelajaran eksternal untuk benar-benar memahami secara tepat pentingnya temuan mereka, dan untuk dapat memutuskan cara terbaik untuk maju dalam analisis.

    Pendekatan pembelajaran matematis dan mesin:
  • Ahli statistik mengandalkan metode statistik dan proses ketika mendapatkan wawasan dari data. Sebaliknya, ilmuwan data diharuskan menarik berbagai teknik untuk memperoleh wawasan data. Ini termasuk metode statistik, namun juga mencakup pendekatan yang tidak berbasis statistik - seperti yang ditemukan dalam pendekatan pembelajaran matematika, clustering, klasifikasi, dan non-statistik mesin. Melihat pentingnya pengetahuan statistik

Anda tidak perlu pergi keluar dan mendapatkan gelar dalam statistik untuk mempraktikkan sains data, namun setidaknya Anda harus terbiasa dengan beberapa metode yang lebih mendasar yang digunakan. dalam analisis data statistik Ini termasuk:

Regresi linier

  • : Regresi linier berguna untuk memodelkan hubungan antara variabel dependen dan satu atau beberapa variabel independen. Tujuan regresi linier adalah untuk mengetahui (dan mengukur kekuatan) korelasi penting antara variabel dependen dan independen. Analisis deret waktu:

  • Analisis deret waktu melibatkan analisis kumpulan data tentang nilai atribut dari waktu ke waktu, untuk memprediksi contoh tindakan berdasarkan data observasional masa lalu. Simulasi Monte Carlo Metode Monte Carlo adalah teknik simulasi yang dapat Anda gunakan untuk menguji hipotesis, untuk menghasilkan perkiraan parameter, untuk memprediksi hasil skenario, dan untuk memvalidasi model. Metode ini sangat kuat karena dapat digunakan untuk mensimulasikan dengan cepat sampel simulasi 1 sampai 10, 000 (atau lebih) untuk setiap proses yang ingin Anda evaluasi.

  • Statistik untuk data spasial: Satu data penting dan penting dari data spasial adalah bahwa itu tidak acak. Ini bergantung secara spasial dan autokorelasi. Saat memodelkan data spasial, hindari metode statistik yang menganggap data Anda acak. Kriging dan krige adalah dua metode statistik yang dapat Anda gunakan untuk memodelkan data spasial. Metode ini memungkinkan Anda menghasilkan permukaan prediksi untuk seluruh area studi berdasarkan kumpulan titik yang diketahui di ruang geografis.

  • Bekerja dengan metode clustering, klasifikasi, dan mesin Pembelajaran mesin adalah penerapan algoritma komputasi untuk belajar dari (atau menyimpulkan pola dalam) dataset mentah.

Clustering

adalah jenis pembelajaran mesin tertentu - belajar mesin yang tidak diawasi, tepatnya, yang berarti bahwa algoritma harus belajar dari data yang tidak berlabel, dan karena itu, mereka harus menggunakan metode inferensial untuk menemukan korelasi. Klasifikasi, di sisi lain, disebut pembelajaran mesin yang diawasi, yang berarti bahwa algoritma belajar dari data berlabel. Deskripsi berikut ini memperkenalkan beberapa pendekatan pengelompokan dan klasifikasi yang lebih mendasar:

k-means clustering: Anda biasanya menyebarkan algoritma k-means untuk membagi titik data dari kumpulan data ke dalam kelompok berdasarkan nilai mean terdekat. Untuk mengetahui pembagian optimal poin data Anda ke dalam kelompok, sehingga jarak antara titik di setiap cluster diminimalkan, Anda bisa menggunakan k-means clustering.

  • Algoritma tetangga yang terdekat: Tujuan analisis tetangga terdekat adalah mencari dan menemukan titik terdekat di ruang angkasa atau nilai numerik terdekat, bergantung pada atribut yang Anda gunakan untuk perbandingan.

  • Perkiraan kepadatan kernel: Cara alternatif untuk mengidentifikasi kelompok dalam data Anda adalah dengan menggunakan fungsi perataan kerapatan. Kernel density estimation (KDE) bekerja dengan menempatkan fungsi bobot yang mengandung

  • yang berguna untuk mengukur kerapatan - pada setiap titik data dalam kumpulan data, dan kemudian menjumlahkan kernel untuk menghasilkan perkiraan kerapatan kernel untuk keseluruhan wilayah. Menjaga metode matematika dalam campuran Banyak yang mengatakan tentang nilai statistik dalam praktik ilmu data, namun metode matematika terapan jarang disebutkan. Sejujurnya, matematika adalah dasar dari semua analisis kuantitatif. Kepentingannya jangan sampai diremehkan. Dua metode matematika berikut ini sangat berguna dalam ilmu data. Multi-criteria decision making (MCDM):

MCDM adalah pendekatan pemodelan keputusan matematis yang dapat Anda gunakan bila Anda memiliki beberapa kriteria atau alternatif yang harus Anda evaluasi secara bersamaan saat membuat keputusan.

Rantai Markov

  • : Rantai Markov adalah metode matematis yang menggabungkan serangkaian variabel acak yang mewakili keadaan sekarang untuk memodelkan bagaimana perubahan dalam variabel keadaan saat ini mempengaruhi keadaan masa depan.

Melihat Dasar-dasar Statistik, Pembelajaran Mesin, dan Metode Matematika dalam Ilmu Data - dummies

Pilihan Editor

HIV Dasar-dasar untuk Asisten Dokter Ujian - dummies

HIV Dasar-dasar untuk Asisten Dokter Ujian - dummies

Untuk Asisten Dokter Ujian (PANCE), Anda harus Kenali beberapa hal umum mengenai HIV, infeksi spesifik yang terkait dengan HIV, dan efek samping dari obat tertentu. HIV adalah singkatan dari human immunodeficiency virus. Faktor risiko untuk tertular HIV termasuk perilaku seksual berisiko tinggi dan penyalahgunaan obat-obatan terlarang, terutama penggunaan intravena dengan jarum kotor. Datang ke kontak dengan ...

Dasar-dasar Kawasan Lambung untuk Asisten Dokter Ujian - dummies

Dasar-dasar Kawasan Lambung untuk Asisten Dokter Ujian - dummies

Setelah melewati kerongkongan, tujuan selanjutnya dalam mempersiapkan Ujian Asisten Dokter (PANCE) adalah daerah lambung yang meriah. Mengandung cardia, fundus, antrum, dan pilorus, area ini baru matang untuk patologi dan pertanyaan PANCE di masa depan. Perut adalah tempat terjadinya dimana banyak pencernaan terjadi. Sel kepala ...

Pilihan Editor

Data Konsultan Pergudangan: Hal-hal yang Harus Diperhatikan - dummies

Data Konsultan Pergudangan: Hal-hal yang Harus Diperhatikan - dummies

Jika Anda pernah bekerja dengan TI konsultan (spesialis pergudangan data), Anda menyadari bahwa tidak semua konsultan sama-sama terampil, setara, atau diperlengkapi dengan hal yang sama, haruskah kita katakan, tingkat etika. Sebelum masuk ke aspek konsultan individual dan peran yang dapat mereka mainkan di tim pergudangan data Anda, cobalah untuk membedakan antara ...

Data Pergudangan di Pengaturan Lintas Perusahaan - dummy

Data Pergudangan di Pengaturan Lintas Perusahaan - dummy

Data pergudangan biasanya merupakan urusan pribadi. Bahkan ketika data eksternal tentang pesaing Anda adalah bagian dari lingkungan Anda, itu masih merupakan gudang data perusahaan Anda, yang dibangun untuk keuntungan dan penggunaan perusahaan Anda. Tren yang menarik - yang pasti terlihat pada tingkat ruang dewan eksekutif, terutama karena orang-orang tersebut mengarahkan perusahaan ke arah ini ...

Data Pergudangan: Dari Data Terstruktur sampai Data Terstruktur

Data Pergudangan: Dari Data Terstruktur sampai Data Terstruktur

Beberapa rencana arsitektur pergudangan data menunjukkan sebuah pendekatan menempatkan data terstruktur terlebih dahulu, di mana seorang analis bisnis menggunakan data warehouse sebagai gateway ke informasi pendukung yang tidak terstruktur. Anda bisa dengan mudah mengambil jalan yang berlawanan menuju pendekatan terpadu terhadap kecerdasan bisnis. Misalkan Anda browsing internet atau intranet perusahaan, ...

Pilihan Editor

Manfaat Virtualisasi Jaringan - dummies

Manfaat Virtualisasi Jaringan - dummies

Jumlah overhead kecil yang dikenakan oleh virtualisasi biasanya lebih dari sekadar untuk yang sederhana. Kenyataan bahwa bahkan server yang paling banyak dimanfaatkan menghabiskan sebagian besar waktu mereka untuk memutar jempol digital mereka, menunggu ada yang harus dilakukan. Sebenarnya, banyak server menghabiskan hampir semua waktu mereka untuk melakukan apa-apa. Sebagai komputer mendapatkan ...

Hacks hacks of phones and tabletlets - dummies

Hacks hacks of phones and tabletlets - dummies

Ini adalah era baru yang berani. Anda harus percaya bahwa pengguna ponsel dan tablet Anda membuat keputusan yang baik tentang keamanan untuk menghindari hacking, dan Anda harus mencari tahu bagaimana mengelola setiap perangkat, platform, dan aplikasi. Tugas manajemen ini bisa dibilang merupakan tantangan terbesar yang dihadapi para profesional TI ...

Sadar akan Kerentanan Password untuk Hindari Mendapatkan Hacked - dummies

Sadar akan Kerentanan Password untuk Hindari Mendapatkan Hacked - dummies

Mempertimbangkan biaya keamanan dan nilai Informasi yang dilindungi, kombinasi ID pengguna dan kata sandi biasanya cukup untuk menghindari hacks. Namun, password memberi rasa aman yang salah. Orang jahat tahu ini dan mencoba untuk memecahkan password sebagai langkah menuju sistem komputer. Satu masalah besar dengan ...