Perbedaan Models - Induction - Prediction







Oke guys sekarang kita masuk ke chapter 3 Introduction to Predictive Modeling : From Corellation to Supeervised Segmentasion. 

Dari buku  Data Science for Business – What you need to know about Data Mining and Data-Analytic Thinking (Foster Provost & Tom Fawcett). Here we go again!.. ^^

Atribut Informatif


Fundamental concepts : Mengidentifikasi atribut informatif; Segmentasikan data dengan pemilihan atribut progresif.

Examplary techniques : Menemukan korelasi; Atribut / pemilihan variabel; Tree Induction..

Dalam proses membahas segmentasi supervised, kami memperkenalkan salah satu ide dasar penambangan data: menemukan atau memilih variabel informatif yang penting atau "atribut" dari entitas yang dijelaskan oleh data. Apa sebenarnya artinya menjadi "informatif" di antara aplikasi yang bervariasi, umumnya, informasi adalah kuantitas yang mengurangi ketidakpastian tentang sesuatu. Jadi, jika seorang bajak laut tua memberi saya informasi tentang di mana hartanya disembunyikan itu tidak berarti bahwa saya tahu pasti di mana itu, itu hanya berarti bahwa ketidakpastian saya tentang di mana harta itu disembunyikan berkurang. Semakin baik informasi, semakin ketidakpastian saya berkurang.

Sekarang, ingat gagasan penambangan data “supervised” dari bab sebelumnya. Kunci untuk penambangan data supervised adalah bahwa kami memiliki sejumlah target yang ingin kami prediksi atau jika tidak kami pahami dengan lebih baik. Seringkali kuantitas ini tidak diketahui atau tidak diketahui pada saat kita ingin membuat keputusan bisnis, seperti apakah pelanggan akan perpaling atau churn segera setelah kontraknya berakhir, atau akun mana yang telah ditipu. Memiliki variabel target mengkristalkan gagasan kami untuk menemukan atribut informatif: apakah ada satu atau lebih variabel lain yang mengurangi ketidakpastian kita tentang nilai target? Ini juga memberikan aplikasi analitik umum dari pengertian umum korelasi yang dibahas di atas: kami ingin menemukan atribut yang dapat dikenali yang berkorelasi dengan target curn yang mengurangi ketidakpastian kami di dalamnya. Hanya menemukan variabel yang berkorelasi ini dapat memberikan wawasan penting ke dalam masalah bisnis.

Menemukan atribut informatif juga berguna untuk membantu kami menangani  database dan data stream yang semakin besar. Kumpulan data yang terlalu besar menimbulkan masalah komputasi untuk teknik analitik, terutama ketika analis tidak memiliki akses ke komputer yang berkinerja tinggi. Satu metode yang benar-benar teruji untuk menganalisis dataset yang sangat besar adalah pertama-tama untuk memilih subset dari data yang akan dianalisis. Memilih atribut informatif menyediakan metode "intelligent" untuk memilih subset informatif dari data. Selain itu, pemilihan atribut sebelum pemodelan berbasis data dapat meningkatkan akurasi pemodelan. Menemukan atribut informatif juga merupakan dasar untuk teknik pemodelan prediktif yang banyak digunakan yang disebut tree induction.

Models, Induction, and Prediction

Secara umum, sebuah model adalah representasi realitas yang disederhanakan yang diciptakan untuk melayani suatu tujuan. Ini disederhanakan berdasarkan pada beberapa asumsi tentang apa yang penting dan tidak penting untuk tujuan tertentu, atau kadang-kadang berdasarkan pada kendala pada informasi atau penertiban. Misalnya, peta adalah model dunia fisik. Ini mengaburkan sejumlah besar informasi yang pembuat peta anggap tidak relevan untuk tujuannya. Itu mempertahankan, dan kadang-kadang lebih menyederhanakan, informasi yang relevan. 

Contohnya road map terus menerus meng-highlights jalan, basic topology nya, hubungan antar tempat yang ingin dikunjungi, dan informasi relevant lainnya. Berbagai jenis profesi terkenal dengan tipe model : architectural blueprint, engineering prototype, Black-Scholes model of option pricing dan lain-lain. Masing-masing abstrak ini mengeluarkan detail yang tidak relevan dengan tujuan utama mereka dan menyimpan yang sudah ada.

Dalam ilmu data, model prediktif adalah rumus untuk memperkirakan nilai minat yang tidak diketahui: target. Rumusnya bisa matematis, atau bisa jadi pernyataan logis seperti aturan. Seringkali itu adalah hibrida dari keduanya. Mengingat pembagian data mining yang diawasi/supervised ke dalam klasifikasi dan regresi, kami akan mempertimbangkan model klasifikasi (dan model estimasi kelas-probability) dan model regresi.



Terminology Data mining untuk masalah klasifikasi supervised. Masalahnya adalah karena memiliki atribut targer dan beberapa “training” data di mana kita tahu nilai untuk atribut target. Ini adalah masalah klasifikasi (bukan regresi) karena target adalah kategori (ya atau tidak) dari pada angka.

Terminologi: Prediksi Dalam penggunaan umum, prediksi berarti meramalkan peristiwa masa depan. Dalam ilmu data, prediksi lebih umum berarti memperkirakan nilai yang tidak diketahui. Nilai ini bisa menjadi sesuatu di masa depan (dalam usia yang sama, prediksi yang benar), tetapi bisa juga sesuatu di masa sekarang atau di masa lalu. Memang, karena penambangan data biasanya berhubungan dengan data historis, model sangat sering dibangun dan diuji menggunakan peristiwa dari masa lalu. Model prediktif untuk penilaian kredit memperkirakan kemungkinan bahwa pelanggan potensial akan menjadi default (become a write-off). Model prediktif untuk memperkirakan pemfilteran spam apakah piece of  email tertentu adalah spam. Model prediktif untuk deteksi penipuan menilai apakah akun telah ditipu. Kuncinya adalah bahwa model ini dimaksudkan untuk digunakan memperkirakan nilai yang tidak diketahui. 

Hal ini berbeda dengan pemodelan deskriptif, di mana tujuan utama dari model ini bukan untuk memperkirakan nilai tetapi untuk mendapatkan wawasan tentang fenomena atau proses yang mendasarinya. Model deskriptif perilaku churn akan memberi tahu kita what customers who churn typically look like. Model prediktif dapat dinilai semata-mata pada kinerja prediktifnya, meskipun kita akan membahas mengapa kejelasan tetap penting. Perbedaan antara jenis model ini tidak seketat yang dapat diimplikasikan; beberapa teknik yang sama dapat digunakan untuk keduanya, dan biasanya satu model dapat melayani dua tujuan (meskipun kadang-kadang buruk). Kadang-kadang banyak nilai model prediktif dalam pemahaman yang diperoleh dari melihatnya daripada dalam prediksi yang dibuatnya.

Sebelum kita membahas pemodelan prediktif lebih lanjut, kita harus memperkenalkan beberapa terminologi. Supervised learning  adalah pembuatan model di mana model menggambarkan hubungan antara sekumpulan variabel yang dipilih (atribut atau fitur) dan variabel standar yang disebut variabel target. Model ini memperkirakan nilai dari variabel target sebagai fungsi (mungkin fungsi probabilistik) dari fitur. Jadi untuk memprediksi masalah churn, kita akan membaut model dari kecenderungan churn sebagai fungsi atribut akun pelanggan, seperti usia, pendapatan, panjang dengan perusahaan, jumlah panggilan ke layanan pelanggan, biaya lebihan, pelanggan demografi, penggunaan data, dan lainnya.


Pembuatan model dari data dikenal sebagai model induksi. Induksi adalah istilah dari filsafat yang mengacu pada generalisasi dari kasus-kasus tertentu ke aturan umum (atau hukum, atau kebenaran). Our models are general rules in a statistical sense (they usually do not hold 100% of the time; often not nearly), and the procedure that creates the model from the data is called the induction algorithm or learner. Kami akan membahas terutama model klasifikasi karena mereka cenderung kurang mendapat perhatian dalam perawatan statistik lainnya, dan karena mereka relevan dengan banyak masalah bisnis (dan dengan demikian banyak bekerja dalam ilmu data berfokus pada klasifikasi).



Comments