Supervised Versus Unsupervised Methods





Supervised Versus Unsupervised Methods

Pertimbangkan dua pertanyaan serupa yang mungkin kita tanyakan tentang populasi pelanggan. Yang pertama adalah: "Apakah pelanggan kami secara alami jatuh ke dalam kelompok yang berbeda?" Di sini tidak ada tujuan atau target khusus yang telah ditentukan untuk pengelompokan. Ketika tidak ada target seperti itu, masalah data mining disebut sebagai unsupervised.

Note : Classification, regression, and causal modeling generally are solved with supervised
methods.

Bandingkan hal ini dengan pertanyaan yang sedikit berbeda: "Dapatkah kita menemukan kelompok pelanggan yang memiliki kemungkinan sangat tinggi untuk membatalkan layanan mereka segera setelah kontrak mereka berakhir?" Di sini ada target spesifik yang ditentukan: apakah pelanggan akan pergi ketika kontraknya berakhir? Dalam hal ini, segmentasi sedang dilakukan untuk alasan tertentu: untuk mengambil tindakan berdasarkan kemungkinan churn. Ini disebut supervised data mining problem.

Note : Similarity matching, link prediction, and data reduction could be either. Clustering, co-occurrence grouping, and profiling generally are unsupervised.

A note of the term : Pembelajaran yang supervised  dan unsupervised. Istilah yang diawasi dan tidak diawasi diwariskan dari bidang pembelajaran mesin. Secara metaforis, seorang guru “supervised” pembelajar dengan secara hati-hati memberikan informasi target bersama dengan serangkaian contoh.
Tugas belajar yang tidak diawasi atau unsupervised mungkin melibatkan serangkaian contoh yang sama tetapi tidak akan menyertakan informasi target. Pelajar tidak akan diberi informasi tentang tujuan pembelajaran, tetapi akan dibiarkan untuk membuat kesimpulan sendiri tentang kesamaan dari semua contoh.

Perbedaan antara pertanyaan-pertanyaan ini tidak kentara tetapi penting. Jika target spesifik dapat diberikan, masalah dapat diungkapkan sebagai yang supervised. Tugas supervised memerlukan teknik yang berbeda dari tugas yang unsupervised, dan hasilnya sering jauh lebih bermanfaat.

Teknik yang diawasi (supervised) diberikan tujuan khusus untuk pengelompokan memprediksi target. Pengelompokan, tugas yang tidak diawasi (unsupervised), menghasilkan pengelompokan berdasarkan kesamaan, tetapi tidak ada jaminan bahwa kesamaan ini bermakna atau akan berguna untuk tujuan tertentu.

Secara teknis, kondisi lain harus dipenuhi untuk penambangan data yang diawasi: harus ada data pada target. Tidaklah cukup bahwa informasi target ada pada prinsipnya; itu juga harus ada dalam data. Sebagai contoh, mungkin berguna untuk mengetahui apakah pelanggan yang diberikan akan tinggal selama setidaknya enam bulan, tetapi jika dalam data historis informasi retensi ini hilang atau tidak lengkap (jika, katakanlah, data hanya dipertahankan selama dua bulan) nilai target tidak dapat disediakan. Mendapatkan data pada target sering merupakan key data science investment. Nilai untuk variabel target untuk individu sering disebut label individu, menekankan bahwa sering (tidak selalu) seseorang harus mengeluarkan biaya untuk secara aktif melabeli data.

Classification, regression, and causal modeling generally di selesaikan dengan metode supervised. Similarity matching, link prediction, and data reduction could be either Clustering, co-occurrence grouping, and profiling generally are unsupervised.
Prinsip dasar penambangan data yang akan kami tunjukkan mendasari semua jenis teknik ini. Dua subclass utama dari penambangan data yang diawasi, klasifikasi dan regresi, dibedakan berdasarkan jenis target. Regresi melibatkan target numerik sementara klasifikasi melibatkan target kategoris (often binary). Pertimbangkan pertanyaan serupa yang mungkin kita bahas dengan penambangan data yang diawasi:

“Will this customer purchase service S1 if given incentive I?”
This is a classification problem because it has a binary target (the customer either purchases or does not).
“Which service package (S1, S2, or none) will a customer likely purchase if given incentive I?”
This is also a classification problem, with a three-valued target.
“How much will this customer use the service?”
This is a regression problem because it has a numeric target. The target variable is the amount of usage (actual or predicted) per customer.

Ada kehalusan di antara pertanyaan-pertanyaan ini yang harus dibawa keluar. Untuk aplikasi bisnis, kami sering menginginkan prediksi numerik atas target kategoris. Dalam contoh churn, prediksi ya / tidak dasar apakah pelanggan akan terus berlangganan layanan mungkin tidak memadai; kami ingin memodelkan probabilitas bahwa pelanggan akan terus berlanjut. Ini masih dianggap pemodelan klasifikasi daripada regresi karena target yang mendasari adalah kategoris. Jika diperlukan untuk kejelasan, ini disebut "class probability estimation."

Bagian penting dalam tahap awal proses penambangan data adalah (i) untuk memutuskan apakah line of will be supervised or unsupervised, dan (ii) jika diawasi (supervised), untuk menghasilkan definisi yang tepat dari suatu variabel target. Variabel ini harus merupakan kuantitas tertentu yang akan menjadi fokus penambangan data (dan untuk itu kami dapat memperoleh nilai untuk beberapa contoh data).

Data Mining and Its Results

Ada perbedaan penting lainnya yang berkaitan dengan data pertambangan: perbedaan antara (1) penambangan data untuk menemukan pola dan membangun model, dan (2) menggunakan hasil penambangan data. Para siswa sering membingungkan kedua proses ini ketika mempelajari ilmu data, dan para manajer terkadang membingungkan mereka ketika mendiskusikan analitik bisnis. Penggunaan hasil penambangan data harus mempengaruhi dan menginformasikan proses penambangan data itu sendiri, tetapi keduanya harus tetap berbeda.

Ada perbedaan penting lainnya yang berkaitan dengan data pertambangan: perbedaan antara (1) penambangan data untuk menemukan pola dan membangun model, dan (2) menggunakan hasil penambangan data. Para siswa sering membingungkan kedua proses ini ketika mempelajari ilmu data, dan para manajer terkadang membingungkan mereka ketika mendiskusikan analitik bisnis. Penggunaan hasil penambangan data harus mempengaruhi dan menginformasikan proses penambangan data itu sendiri, tetapi keduanya harus tetap berbeda.

Dalam contoh churn kami, pertimbangkan skenario penerapan di mana hasilnya akan digunakan. Kami ingin menggunakan model untuk memprediksi pelanggan kami yang akan pergi. Secara khusus, anggap bahwa penambangan data telah menciptakan model estimasi probabilitas kelas M. Mengingat setiap pelanggan yang ada, dijelaskan menggunakan satu set karakteristik, M mengambil karakteristik ini sebagai input dan menghasilkan skor atau perkiraan probabilitas dari atrisi. Ini adalah penggunaan hasil penambangan data. Penambangan data menghasilkan model M dari beberapa data lain, seringkali historis.

Gambar 2-1 mengilustrasikan dua fase ini. Penambangan data menghasilkan model estimasi probabilitas, seperti yang ditunjukkan pada bagian atas gambar. Pada fase penggunaan (bottom half), model diterapkan pada kasus baru yang tidak terlihat dan menghasilkan perkiraan probabilitas untuknya.



Gambar 2-1. Penambangan data versus penggunaan hasil penambangan data. The upper half of the figure menggambarkan penambangan data historis untuk menghasilkan model. Yang penting, data historis memiliki nilai target ("kelas") yang ditentukan. The bottom half menunjukkan hasil dari penambangan data yang digunakan, di mana model diterapkan ke data baru yang kami tidak tahu nilai kelasnya. Model memprediksi nilai kelas dan probabilitas bahwa variabel kelas akan mengambil nilai itu.

Source Book :  Data Science for Business – What you need to know about Data Mining and Data-Analytic Thinking (Foster Provost & Tom Fawcett) -  Chapter 2 Business Problem and Data Science Solution

Comments