FUNDAMENTAL DATA SCIENCE PRINCIPLES




FROM BUSINESS PROBLEM TO DATA MINING TASK 

Oke guys dalam pembahasan kali ini kita akan membahas FUNDAMENTAL  DATA SCIENCE PRINCIPLES yang mana setiap teknik yang digunakan harus diketahui terlebih dahulu fungsi nya sehingga ketika mendapati suatu BUSINESS PROBLEM kita menggunakan strategi yang tepat dalam penggunaan DATA MINING TASK.

Setiap masalah pengambilan keputusan bisnis yang digerakkan oleh data adalah unik, yang terdiri dari kombinasi tujuan, keinginan, batasan, dan bahkan kepribadiannya sendiri. Seperti halnya banyak rekayasa, adalah set tugas umum yang mendasari masalah bisnis.

Keterampilan penting dalam ilmu data adalah kemampuan untuk menguraikan masalah analitik data menjadi potongan-potongan sehingga setiap bagian cocok dengan tugas yang dikenal untuk tools yang tersedia. Mengenali masalah yang sudah familiar dan solusi mereka untuk menghindari membuang-buang waktu dan sumber daya. Hal ini juga memungkinkan orang untuk memfokuskan perhatian pada bagian-bagian yang lebih menarik dari proses yang membutuhkan campur tangan manusia  pada bagian-bagian yang belum diotomatisasi, sehingga kreativitas dan kecerdasan manusia harus ikut bermain.

Dalam banyak proyek analitik bisnis, kami ingin menemukan "korelasi" antara variabel terpisah yang menggambarkan variabel individu dan lainnya. Sebagai contoh, dalam data historis kita mungkin tahu pelanggan mana yang meninggalkan perusahaan setelah kontrak mereka berakhir. Kami mungkin ingin mengetahui variabel lain yang berkorelasi dengan pelanggan yang akan berangkat dalam waktu dekat. Menemukan korelasi semacam itu adalah contoh paling mendasar dari tugas klasifikasi dan regresi. 

1. Classification and class probability mencoba mengestimasi dan memprediksi, untuk setiap individu dalam suatu populasi, yang merupakan kumpulan kelas (kecil) yang dimiliki individu ini. Biasanya kelas-kelas itu saling eksklusif. Contoh pertanyaan klasifikasi adalah: "Di antara semua pelanggan MegaTelCo, siapa yang mungkin menanggapi tawaran yang diberikan?" Dalam contoh ini dua kelas dapat dipanggil “akan merespons” dan “tidak akan merespons.”
Untuk tugas klasifikasi, prosedur penambangan data menghasilkan model yang, diberikan individu baru, menentukan kelas mana yang menjadi milik individu tersebut. Tugas yang terkait erat adalah scoring atau estimasi probabilitas kelas. Model penilaian yang diterapkan pada individu menghasilkan, bukannya prediksi kelas, skor yang mewakili probabilitas (atau beberapa kuantifikasi kemungkinan lainnya) bahwa individu tersebut termasuk dalam masing-masing kelas. Dalam skenario respons pelanggan kami, model pemberian skor akan dapat mengevaluasi setiap pelanggan individual dan menghasilkan skor seberapa besar masing-masing menanggapi tawaran itu. Klasifikasi dan penilaian sangat terkait erat; seperti yang akan kita lihat, model yang dapat melakukan satu biasanya dapat dimodifikasi untuk melakukan yang lain.

2. Regresi (“estimasi nilai”) mencoba untuk memperkirakan atau memprediksi, untuk setiap individu, nilai numerik dari beberapa variabel untuk individu tersebut. Contoh pertanyaan regresi adalah: "Berapa banyak pelanggan yang akan menggunakan layanan ini?" Properti (variabel) yang akan diprediksi di sini adalah penggunaan layanan, dan model dapat dihasilkan dengan melihat pada individu lain yang serupa dalam populasi mereka dan penggunaan historis. Prosedur regresi menghasilkan model yang, diberikan individu, memperkirakan nilai variabel khusus untuk individu tersebut. Regresi terkait dengan klasifikasi, tetapi keduanya berbeda. Secara informal, klasifikasi memprediksi apakah sesuatu akan terjadi, sedangkan regresi memprediksi berapa banyak sesuatu akan terjadi.

3. Similarity matching upaya untuk mengidentifikasi individu yang serupa berdasarkan data yang diketahui tentang mereka. Kesamaan kecocokan dapat digunakan secara langsung untuk menemukan entitas serupa. Misalnya, IBM tertarik untuk mencari perusahaan yang mirip dengan pelanggan bisnis terbaik mereka, untuk memfokuskan tenaga penjualan mereka pada peluang terbaik. Mereka menggunakan pencocokan kesamaan berdasarkan data "firmografi" yang menggambarkan karakteristik perusahaan. Kesamaan kecocokan adalah dasar untuk salah satu metode paling populer untuk membuat rekomendasi produk (menemukan orang yang mirip dengan Anda dalam hal produk yang mereka sukai atau telah di beli). Ukuran kesamaan mendasari solusi tertentu untuk tugas penambangan data lainnya, seperti klasifikasi, regresi, dan pengelompokan.

4. Clustering upaya untuk mengelompokkan individu dalam suatu populasi bersama-sama oleh kesamaan mereka, tetapi tidak didorong oleh tujuan tertentu. Contoh pertanyaan pengelompokan adalah: "Apakah pelanggan kami membentuk kelompok atau segmen alami?" Clustering berguna dalam eksplorasi domain awal untuk melihat kelompok alami mana yang ada karena kelompok ini pada gilirannya mungkin menyarankan tugas atau pendekatan penambangan data lainnya. Clustering juga digunakan sebagai masukan untuk proses pengambilan keputusan yang berfokus pada pertanyaan seperti: Produk apa yang harus kami tawarkan atau kembangkan? Bagaimana seharusnya tim layanan pelanggan kami (atau tim penjualan) terstruktur?

5. Co-occurrence grouping (also known as frequent itemset mining, association rule discovery, and market-basket analysis) Co-occurrence grouping (juga dikenal sebagai frequent itemset mining, penemuan aturan asosiasi, dan analisis keranjang pasar) mencoba untuk menemukan hubungan antara entitas berdasarkan transaksi yang melibatkan mereka. Contoh pertanyaan Co-occurrence adalah: Barang apa yang umumnya dibeli bersama? Sementara pengelompokan melihat kesamaan antara objek berdasarkan atribut objek, pengelompokan Co-occurrence menganggap kesamaan objek berdasarkan kemunculannya bersama dalam transaksi. 

Misalnya, menganalisis catatan pembelian dari supermarket dapat mengungkap bahwa daging giling dibeli bersama dengan saus panas jauh lebih sering daripada yang kita duga. Memutuskan bagaimana bertindak atas penemuan ini mungkin memerlukan beberapa kreativitas, tetapi dapat menyarankan promosi khusus, tampilan produk, atau tawaran kombinasi.

Co-occurrence produk dalam pembelian adalah jenis pengelompokan umum yang dikenal sebagai analisis market-basket. Beberapa sistem rekomendasi juga melakukan jenis pengelompokan afinitas dengan mencari, misalnya, pasang buku yang dibeli secara bebas oleh orang yang sama ("orang yang membeli X juga membeli Y").

Hasil pengelompokan Co-occurrence  adalah deskripsi item yang terjadi bersama. Deskripsi ini biasanya mencakup statistik tentang frekuensi kejadian bersama dan perkiraan seberapa mengejutkannya.

6. Profiling (also known as behavior description) Perilaku mungkin tidak memiliki deskripsi yang sederhana; profiling penggunaan ponsel mungkin memerlukan deskripsi yang kompleks dari rata-rata night and weekend airtime, penggunaan internasional, biaya roaming, menit teks, dan sebagainya. Perilaku dapat dijelaskan secara umum di seluruh populasi, atau turun ke tingkat kelompok kecil atau bahkan individu.

Profiling sering digunakan untuk menetapkan norma perilaku untuk aplikasi deteksi anomali seperti deteksi penipuan dan pemantauan untuk gangguan ke sistem komputer (seperti seseorang membobol akun iTunes Anda). Misalnya, jika kami mengetahui jenis pembelian apa yang biasanya dilakukan seseorang pada kartu kredit, kami dapat menentukan apakah tagihan baru pada kartu sesuai dengan Profiling itu atau tidak. Kita dapat menggunakan tingkat ketidakcocokan sebagai skor kecurigaan dan mengeluarkan alarm jika terlalu tinggi.

7. Link prediction mencoba memprediksi hubungan antara item data, biasanya dengan menyarankan bahwa tautan harus ada, dan mungkin juga memperkirakan kekuatan tautan. Prediksi tautan umum dalam sistem jejaring sosial: "Karena Anda dan Karen berbagi 10 teman, mungkin Anda ingin menjadi teman Karen?" 
Link prediction juga dapat memperkirakan kekuatan tautan. Misalnya, untuk merekomendasikan film kepada pelanggan, seseorang dapat memikirkan grafik antara pelanggan dan film yang telah mereka tonton atau nilai. Dalam grafik, kami mencari tautan yang tidak ada antara pelanggan dan film, tetapi yang kami prediksi harus ada dan harus kuat. Tautan-tautan ini membentuk dasar untuk rekomendasi.

8. Data reduction mencoba mengambil sejumlah besar data dan menggantinya dengan kumpulan data yang lebih kecil yang berisi banyak informasi penting dalam kumpulan yang lebih besar. Dataset yang lebih kecil mungkin lebih mudah untuk ditangani atau diproses. Selain itu, kumpulan data yang lebih kecil dapat mengungkapkan informasi dengan lebih baik. Misalnya, kumpulan data masif pada preferensi menonton film konsumen dapat dikurangi menjadi kumpulan data yang jauh lebih kecil yang mengungkapkan preferensi selera konsumen yang tersembunyi dalam data tampilan (misalnya, viewer genre preferences). Pengurangan data biasanya melibatkan hilangnya informasi. Yang penting adalah trade-off untuk peningkatan wawasan.

9. Causal modeling mencoba membantu kami memahami peristiwa atau tindakan apa yang benar-benar memengaruhi orang lain. Sebagai contoh, pertimbangkan bahwa kita menggunakan pemodelan prediktif untuk menargetkan iklan kepada konsumen, dan kami mengamati bahwa memang konsumen yang ditargetkan membeli pada tingkat yang lebih tinggi setelah menjadi sasaran. Apakah ini karena iklan mempengaruhi konsumen untuk membeli? Atau apakah model prediktif hanya melakukan pekerjaan yang baik untuk mengidentifikasi konsumen yang akan membeli?

Teknik untuk Causal modeling mencakup mereka yang melibatkan investasi besar dalam data, seperti randomized controlled experiments (misalnya, apa yang disebut “A/B tests”), serta metode canggih untuk menarik kesimpulan kausal dari data observasi. Kedua metode eksperimental dan observasional untuk pemodelan kausal umumnya dapat dilihat sebagai analisis "kontrafaktual": mereka berusaha untuk memahami apa yang akan menjadi perbedaan antara situasi-yang tidak dapat keduanya terjadi di mana "pengobatan" acara (misalnya, menunjukkan iklan untuk individu  tertentu) mana yang terjadi, dan mana yang tidak terjadi.

Dalam semua kasus, seorang ilmuwan data yang teliti harus selalu memasukkan dengan kesimpulan kausal asumsi-asumsi yang tepat yang harus dibuat agar kesimpulan kausal dapat dipertahankan (selalu ada asumsi-asumsi seperti itu — selalu bertanya). Ketika melakukan pemodelan kausal, bisnis perlu mempertimbangkan trade-off peningkatan investasi untuk mengurangi asumsi yang dibuat, dan memutuskan bahwa kesimpulannya cukup baik dengan asumsi. Bahkan dalam randomized, controlled experimentation yang paling hati-hati, asumsi dibuat yang bisa membuat kesimpulan kausal tidak valid. Penemuan "efek plasebo" dalam kedokteran mengilustrasikan situasi yang terkenal dimana suatu asumsi diabaikan dalam eksperimen acak yang dirancang dengan cermat.

Pertimbangkan yang mana dari jenis tugas ini yang mungkin cocok dengan masalah prediksi churn. Seringkali, praktisi merumuskan prediksi churn sebagai masalah menemukan segmen pelanggan who are more or less likely to leave. Masalah segmentasi ini terdengar seperti masalah klasifikasi, atau mungkin pengelompokan, atau bahkan regresi. Untuk menentukan formulasi terbaik, pertama-tama kita perlu memperkenalkan beberapa perbedaan penting.


Source Book : Data Science for Business – What you need to know about Data Mining and Data-Analytic Thinking (Foster Provost & Tom Fawcett). Chapter 2 – Business Problem and Data Science Solution.

Source Picture : 
www.google.co.id/searchq=data+science&safe=strict&source=lnms&tbm=isch&sa=X&ved=0ahUKEwjln4_L0NbeAhUKPo8KHf0PCOYQ_AUIDygC&biw=1695&bih=808#imgrc=kX1hle5CkGqPwM:

Comments