Supervised
Versus Unsupervised Methods
Pertimbangkan dua
pertanyaan serupa yang mungkin kita tanyakan tentang populasi pelanggan. Yang
pertama adalah: "Apakah pelanggan kami secara alami jatuh ke dalam
kelompok yang berbeda?" Di sini tidak ada tujuan atau target khusus yang
telah ditentukan untuk pengelompokan. Ketika tidak ada target seperti itu,
masalah data mining disebut sebagai unsupervised.
Note : Classification, regression, and causal modeling generally are solved with supervised
methods.
Bandingkan hal
ini dengan pertanyaan yang sedikit berbeda: "Dapatkah kita menemukan
kelompok pelanggan yang memiliki kemungkinan sangat tinggi untuk membatalkan
layanan mereka segera setelah kontrak mereka berakhir?" Di sini ada target
spesifik yang ditentukan: apakah pelanggan akan pergi ketika kontraknya
berakhir? Dalam hal ini, segmentasi sedang dilakukan untuk alasan tertentu:
untuk mengambil tindakan berdasarkan kemungkinan churn. Ini disebut supervised
data mining problem.
Note : Similarity matching, link prediction, and data reduction could be either. Clustering, co-occurrence grouping, and profiling generally are unsupervised.
A note of the
term : Pembelajaran yang supervised dan unsupervised.
Istilah yang diawasi dan tidak diawasi diwariskan dari bidang pembelajaran
mesin. Secara metaforis, seorang guru “supervised” pembelajar dengan secara
hati-hati memberikan informasi target bersama dengan serangkaian contoh.
Tugas belajar
yang tidak diawasi atau unsupervised mungkin melibatkan serangkaian contoh yang
sama tetapi tidak akan menyertakan informasi target. Pelajar tidak akan diberi
informasi tentang tujuan pembelajaran, tetapi akan dibiarkan untuk membuat
kesimpulan sendiri tentang kesamaan dari semua contoh.
Perbedaan antara
pertanyaan-pertanyaan ini tidak kentara tetapi penting. Jika target spesifik
dapat diberikan, masalah dapat diungkapkan sebagai yang supervised. Tugas supervised
memerlukan teknik yang berbeda dari tugas yang unsupervised, dan hasilnya
sering jauh lebih bermanfaat.
Teknik yang
diawasi (supervised) diberikan tujuan khusus untuk pengelompokan memprediksi
target. Pengelompokan, tugas yang tidak diawasi (unsupervised), menghasilkan
pengelompokan berdasarkan kesamaan, tetapi tidak ada jaminan bahwa kesamaan ini
bermakna atau akan berguna untuk tujuan tertentu.
Secara teknis,
kondisi lain harus dipenuhi untuk penambangan data yang diawasi: harus ada data
pada target. Tidaklah cukup bahwa informasi target ada pada prinsipnya; itu
juga harus ada dalam data. Sebagai contoh, mungkin berguna untuk mengetahui
apakah pelanggan yang diberikan akan tinggal selama setidaknya enam bulan,
tetapi jika dalam data historis informasi retensi ini hilang atau tidak lengkap
(jika, katakanlah, data hanya dipertahankan selama dua bulan) nilai target
tidak dapat disediakan. Mendapatkan data pada target sering merupakan key data
science investment. Nilai untuk variabel target untuk individu sering disebut
label individu, menekankan bahwa sering (tidak selalu) seseorang harus
mengeluarkan biaya untuk secara aktif melabeli data.
Classification,
regression, and causal modeling generally di selesaikan dengan metode
supervised. Similarity matching, link prediction, and data reduction could be
either Clustering, co-occurrence grouping, and profiling generally are
unsupervised.
Prinsip dasar
penambangan data yang akan kami tunjukkan mendasari semua jenis teknik ini. Dua
subclass utama dari penambangan data yang diawasi, klasifikasi dan regresi,
dibedakan berdasarkan jenis target. Regresi melibatkan target numerik
sementara klasifikasi melibatkan target kategoris (often binary).
Pertimbangkan pertanyaan serupa yang mungkin kita bahas dengan penambangan data
yang diawasi:
“Will this
customer purchase service S1 if given incentive I?”
This is a
classification problem because it has a binary target (the customer either purchases
or does not).
“Which service
package (S1, S2, or none) will a customer likely purchase if given incentive
I?”
This is also a
classification problem, with a three-valued target.
“How much will
this customer use the service?”
This is a
regression problem because it has a numeric target. The target variable is the
amount of usage (actual or predicted) per customer.
Ada kehalusan di
antara pertanyaan-pertanyaan ini yang harus dibawa keluar. Untuk aplikasi
bisnis, kami sering menginginkan prediksi numerik atas target kategoris. Dalam
contoh churn, prediksi ya / tidak dasar apakah pelanggan akan terus
berlangganan layanan mungkin tidak memadai; kami ingin memodelkan probabilitas
bahwa pelanggan akan terus berlanjut. Ini masih dianggap pemodelan klasifikasi
daripada regresi karena target yang mendasari adalah kategoris. Jika diperlukan
untuk kejelasan, ini disebut "class probability estimation."
Bagian penting
dalam tahap awal proses penambangan data adalah (i) untuk memutuskan apakah line
of will be supervised or unsupervised, dan (ii) jika diawasi (supervised),
untuk menghasilkan definisi yang tepat dari suatu variabel target. Variabel ini
harus merupakan kuantitas tertentu yang akan menjadi fokus penambangan data
(dan untuk itu kami dapat memperoleh nilai untuk beberapa contoh data).
Data Mining
and Its Results
Ada perbedaan
penting lainnya yang berkaitan dengan data pertambangan: perbedaan antara (1)
penambangan data untuk menemukan pola dan membangun model, dan (2) menggunakan
hasil penambangan data. Para siswa sering membingungkan kedua proses ini ketika
mempelajari ilmu data, dan para manajer terkadang membingungkan mereka ketika
mendiskusikan analitik bisnis. Penggunaan hasil penambangan data harus
mempengaruhi dan menginformasikan proses penambangan data itu sendiri, tetapi
keduanya harus tetap berbeda.
Ada perbedaan
penting lainnya yang berkaitan dengan data pertambangan: perbedaan antara (1)
penambangan data untuk menemukan pola dan membangun model, dan (2) menggunakan
hasil penambangan data. Para siswa sering membingungkan kedua proses ini ketika
mempelajari ilmu data, dan para manajer terkadang membingungkan mereka ketika
mendiskusikan analitik bisnis. Penggunaan hasil penambangan data harus
mempengaruhi dan menginformasikan proses penambangan data itu sendiri, tetapi
keduanya harus tetap berbeda.
Dalam contoh
churn kami, pertimbangkan skenario penerapan di mana hasilnya akan digunakan.
Kami ingin menggunakan model untuk memprediksi pelanggan kami yang akan pergi.
Secara khusus, anggap bahwa penambangan data telah menciptakan model estimasi
probabilitas kelas M. Mengingat setiap pelanggan yang ada, dijelaskan
menggunakan satu set karakteristik, M mengambil karakteristik ini sebagai input
dan menghasilkan skor atau perkiraan probabilitas dari atrisi. Ini adalah penggunaan
hasil penambangan data. Penambangan data menghasilkan model M dari beberapa
data lain, seringkali historis.
Gambar 2-1
mengilustrasikan dua fase ini. Penambangan data menghasilkan model estimasi
probabilitas, seperti yang ditunjukkan pada bagian atas gambar. Pada fase
penggunaan (bottom half), model diterapkan pada kasus baru yang tidak terlihat
dan menghasilkan perkiraan probabilitas untuknya.
Gambar 2-1.
Penambangan data versus penggunaan hasil penambangan data. The upper half of
the figure menggambarkan penambangan data historis untuk menghasilkan model.
Yang penting, data historis memiliki nilai target ("kelas") yang
ditentukan. The bottom half menunjukkan hasil dari penambangan data yang
digunakan, di mana model diterapkan ke data baru yang kami tidak tahu nilai
kelasnya. Model memprediksi nilai kelas dan probabilitas bahwa variabel kelas
akan mengambil nilai itu.
Source Book : Data Science for Business – What you need to know about Data Mining and Data-Analytic Thinking (Foster Provost & Tom Fawcett) - Chapter 2 Business Problem and Data Science Solution
Comments
Post a Comment