The Data Mining Process



Figure 2-2. The CRISP data mining process.

The Data Mining Process

Data mining is a craft, Penambangan data adalah kerajinan. Ini melibatkan penerapan sejumlah besar sains dan teknologi, tetapi aplikasi yang tepat masih melibatkan seni juga. Tetapi seperti banyak kerajinan yang matang, ada proses yang dipahami dengan baik yang menempatkan struktur pada masalah, memungkinkan konsistensi yang wajar, pengulangan, dan obyektif.  Kodifikasi yang berguna dari proses penambangan data diberikan oleh the Cross Industry Standard Process for Data Mining. (CRISP-DM; Shearer, 2000), illustrated in Figure 2-2.

Diagram proses ini membuat eksplisit fakta bahwa iterasi adalah aturan daripada pengecualian. Melakukan proses sekali tanpa memecahkan masalah adalah, secara umum, bukan kegagalan. Seringkali seluruh proses adalah eksplorasi data, dan setelah iterasi pertama tim ilmu data tahu lebih banyak. Iterasi selanjutnya bisa lebih banyak mendapat informasi. Mari sekarang diskusikan langkah-langkahnya secara detail.

Business Understanding

Awalnya, penting untuk memahami masalah yang harus dipecahkan. Ini mungkin tampak jelas, tetapi proyek bisnis jarang datang dikemas sebagai masalah penambangan data yang jelas dan tidak ambigu. Sering menyusun ulang masalah dan merancang solusi adalah proses penemuan yang berulang. Diagram yang ditunjukkan pada Gambar 2-2 menggambarkan ini sebagai siklus dalam siklus, bukan sebagai proses linear sederhana. Formulasi awal mungkin tidak lengkap atau optimal sehingga beberapa iterasi mungkin diperlukan untuk formulasi solusi yang dapat diterima untuk muncul.

Tahap Pemahaman Bisnis merupakan bagian dari kerajinan di mana kreativitas analis memainkan peran besar. Ilmu data memiliki beberapa hal untuk dikatakan, seperti yang akan kita jelaskan, tetapi seringkali kunci sukses besar adalah perumusan masalah kreatif oleh beberapa analis mengenai bagaimana membuang masalah bisnis sebagai satu atau lebih masalah data science. Pengetahuan tingkat tinggi tentang fundamental membantu analis bisnis kreatif melihat formulasi baru.

Kami memiliki seperangkat alat yang kuat untuk memecahkan masalah penambangan data tertentu: tugas penambangan data dasar yang dibahas dalam "From Business Problems to Data Mining Tasks” di halaman 19. Biasanya, tahap awal upaya melibatkan merancang solusi yang mengambil keuntungan dari alat-alat ini. Ini dapat berarti penataan (engineering) masalah seperti satu atau lebih subproblem yang melibatkan model-model bangunan untuk classification, regression, probability estimation, dan sebagainya.

Pada tahap pertama ini, tim desain harus berpikir dengan hati-hati tentang skenario penggunaan. Ini sendiri adalah salah satu konsep ilmu data yang paling penting, yang telah kita dedikasikan dua bab secara keseluruhan (Bab 7 dan Bab 11). Apa sebenarnya yang ingin kita lakukan? Bagaimana tepatnya kita melakukannya? Bagian apa dari skenario penggunaan ini merupakan model penambangan data yang mungkin? Dalam membahas ini secara lebih rinci, kita akan mulai dengan pandangan yang disederhanakan dari skenario penggunaan, tetapi ketika kita maju kita akan memutar balik dan menyadari bahwa sering kali skenario penggunaan harus disesuaikan untuk lebih mencerminkan kebutuhan bisnis yang sebenarnya. Kami akan menyajikan alat-alat konseptual untuk membantu pemikiran kami di sini, misalnya membingkai masalah bisnis dalam hal nilai yang diharapkan dapat memungkinkan kami untuk secara sistematis menguraikannya menjadi tugas penambangan data.

Data Understanding

Jika memecahkan masalah bisnis adalah tujuannya, data terdiri dari bahan baku yang tersedia dari mana solusi akan dibangun. Penting untuk memahami kekuatan dan keterbatasan data karena jarang ada kecocokan sama persis dengan masalah. Data historis sering dikumpulkan untuk tujuan yang tidak terkait dengan masalah bisnis saat ini, atau tanpa tujuan yang jelas sama sekali. Database pelanggan, basis data transaksi, dan basis data respons pemasaran berisi informasi yang berbeda, dapat mencakup populasi persimpangan yang berbeda, dan mungkin memiliki tingkat keandalan yang bervariasi.

Ini juga umum untuk biaya data bervariasi. Beberapa data akan tersedia secara virtual secara gratis sementara yang lain akan membutuhkan upaya untuk mendapatkannya. Beberapa data dapat dibeli. Masih ada data lain yang tidak ada dan akan membutuhkan seluruh proyek tambahan untuk mengatur koleksi mereka.

Bagian penting dari fase pemahaman data adalah memperkirakan biaya dan manfaat dari setiap sumber data dan memutuskan apakah investasi lebih lanjut layak. Bahkan setelah semua set data diperoleh, menyusunnya mungkin memerlukan upaya tambahan. Misalnya, catatan pelanggan dan pengenal produk dikenal bervariasi dan noisy. Membersihkan dan mencocokkan catatan pelanggan untuk memastikan hanya satu catatan per pelanggan itu sendiri merupakan masalah analitik yang rumit (Hernandez & Stolfo, 1995; Elmagarmid, Ipeirotis, & Verykios, 2007).

Seiring berkembangnya pemahaman data, jalur solusi dapat mengubah arah sebagai respons, dan upaya tim bahkan mungkin bercabang. Deteksi penipuan menyediakan ilustrasi ini. Data mining telah digunakan secara ekstensif untuk mendeteksi penipuan, dan banyak masalah deteksi penipuan melibatkan classic supervised data mining tasks. Consider the task of catching credit card fraud. Charges show up on each customer’s account, so fraudulent charges are usually caught—if not initially by the company, then later by the customer when account activity is reviewed. Kita dapat berasumsi bahwa hampir semua penipuan diidentifikasi dan diberi label yang andal, karena pelanggan yang sah dan orang yang melakukan penipuan adalah orang yang berbeda dan memiliki tujuan yang berlawanan. Dengan demikian transaksi kartu kredit memiliki label yang dapat dipercaya (fraud and legitimate) yang dapat berfungsi sebagai target untuk supervised technique.

Sekarang pertimbangkan masalah terkait penangkapan penipuan Medicare. Ini adalah masalah besar di Amerika Serikat dengan biaya miliaran dolar setiap tahun. Meskipun ini mungkin tampak seperti masalah deteksi penipuan konvensional, karena kami mempertimbangkan hubungan masalah bisnis dengan data, kami menyadari bahwa masalahnya sangat berbeda. Para pelaku penipuan — penyedia layanan medis yang mengajukan klaim palsu, dan terkadang pasien mereka — juga merupakan penyedia layanan yang sah dan pengguna sistem penagihan. Mereka yang melakukan penipuan adalah bagian dari pengguna yang sah; tidak ada pihak yang tidak tertarik secara terpisah yang akan menyatakan dengan tepat apa yang seharusnya menjadi tuduhan “benar”. Akibatnya, data penagihan Medicare tidak memiliki variabel target yang dapat diandalkan yang menunjukkan penipuan, dan pendekatan pembelajaran yang diawasi yang dapat berfungsi untuk penipuan kartu kredit tidak berlaku. Masalah seperti itu biasanya membutuhkan pendekatan yang tidak diawasi seperti atau unsupervised approaches such as profiling, clustering, anomaly detection, and co-occurrence grouping.

Fakta bahwa keduanya adalah masalah deteksi penipuan adalah kesamaan dangkal yang sebenarnya menyesatkan. Dalam pemahaman data kita perlu menggali di bawah permukaan untuk mengungkap struktur masalah bisnis dan data yang tersedia, dan kemudian mencocokkannya dengan satu atau lebih tugas penambangan data yang mungkin kita miliki untuk menerapkan ilmu dan teknologi yang substansial. Hal yang tidak biasa untuk masalah bisnis mengandung beberapa tugas penambangan data, seringkali dari jenis yang berbeda, dan menggabungkan solusi mereka akan diperlukan (lihat Bab 11).

Data Preparation

Teknologi analitik yang dapat kita bawa kuat tetapi mereka memberlakukan persyaratan tertentu pada data yang mereka gunakan. Mereka sering membutuhkan data untuk menjadi bentuk yang berbeda dari bagaimana data disediakan secara alami, dan beberapa konversi akan diperlukan. Oleh karena itu fase persiapan data sering berlanjut seiring dengan pemahaman data, di mana data dimanipulasi dan diubah menjadi bentuk yang menghasilkan hasil yang lebih baik.

Contoh umum persiapan data adalah mengkonversi data ke format tabel, menghapus atau menyimpulkan nilai yang hilang, dan mengonversi data ke jenis yang berbeda. Beberapa teknik penambangan data dirancang untuk data simbolis dan kategoris, sementara yang lain hanya menangani nilai numerik. Selain itu, nilai-nilai numerik harus sering dinormalisasi atau diskalakan sehingga dapat dibandingkan. Teknik standar dan aturan praktis tersedia untuk melakukan konversi seperti itu. Bab 3 membahas format yang paling umum untuk data penambangan dalam beberapa detail.

Secara umum, buku ini tidak akan fokus pada teknik persiapan data, yang bisa menjadi topik buku sendiri (Pyle, 1999). Kami akan mendefinisikan format data dasar dalam bab-bab berikutnya, dan hanya akan peduli dengan rincian persiapan data ketika mereka menjelaskan beberapa prinsip dasar ilmu data atau diperlukan untuk menyajikan contoh konkret.

Lebih umum, para ilmuwan data mungkin menghabiskan banyak waktu di awal proses mendefinisikan variabel yang digunakan nanti dalam proses. Ini adalah salah satu poin utama di mana kreativitas manusia, akal sehat, dan pengetahuan bisnis ikut bermain. Seringkali kualitas solusi penambangan data terletak pada seberapa baik para analis menyusun masalah dan menyusun variabel (dan kadang-kadang dapat sangat sulit bagi mereka untuk mengakuinya).

Salah satu perhatian yang sangat umum dan penting selama persiapan data adalah untuk berhati-hati terhadap "kebocoran" (Kaufman et al. 2012). Kebocoran adalah situasi di mana variabel yang dikumpulkan dalam data historis memberikan informasi tentang variabel target — informasi yang muncul dalam data historis tetapi sebenarnya tidak tersedia ketika keputusan harus dibuat. Sebagai contoh, ketika memprediksi apakah pada titik waktu tertentu pengunjung situs web akan mengakhiri sesinya atau melanjutkan menjelajah ke halaman lain, variabel "jumlah total halaman web yang dikunjungi dalam sesi" bersifat prediktif. Namun, jumlah total halaman web yang dikunjungi dalam sesi tidak akan diketahui sampai setelah sesi selesai (Kohavi dkk., 2000) - pada titik mana orang akan mengetahui nilai untuk variabel target!

Sebagai contoh ilustratif lainnya, pertimbangkan untuk memprediksi apakah pelanggan akan menjadi "pemboros besar"; mengetahui kategori barang yang dibeli (atau lebih buruk, jumlah pajak yang dibayar) sangat prediktif, tetapi tidak diketahui pada waktu pengambilan keputusan (Kohavi & Parekh, 2003). Kebocoran harus dipertimbangkan dengan hati-hati selama persiapan data, karena persiapan data biasanya dilakukan setelah fakta — dari data historis. Kami menyajikan contoh yang lebih rinci tentang kebocoran nyata yang sulit ditemukan di Bab 14.

Modeling

Pemodelan adalah subjek dari beberapa bab berikutnya dan kami tidak akan memikirkannya di sini, kecuali untuk mengatakan bahwa output dari pemodelan adalah semacam model atau pola yang menangkap keteraturan dalam data. Tahap pemodelan adalah tempat utama di mana teknik data mining diterapkan pada data. Penting untuk memiliki pemahaman tentang ide-ide dasar penambangan data, termasuk jenis teknik dan algoritma yang ada, karena ini adalah bagian dari kerajinan di mana sebagian besar ilmu pengetahuan dan teknologi dapat ditanggung.

Evaluation

Tujuan tahap evaluasi adalah untuk menilai hasil penambangan data secara ketat dan untuk mendapatkan keyakinan bahwa data tersebut valid dan dapat diandalkan sebelum melanjutkan. Jika kita melihat cukup keras pada set data apa pun, kita akan menemukan pola, tetapi mereka mungkin tidak bertahan dengan cermat.

Kami ingin memiliki keyakinan bahwa model dan pola yang diambil dari data adalah keteraturan yang benar dan bukan hanya idiosyncrasies atau sampel anomali. Adalah mungkin untuk menyebarkan hasil segera setelah penambangan data tetapi ini tidak disarankan; biasanya jauh lebih mudah, lebih murah, lebih cepat, dan lebih aman untuk menguji model pertama dalam pengaturan laboratorium yang terkontrol.

Sama pentingnya, tahap evaluasi juga berfungsi untuk membantu memastikan bahwa model memenuhi tujuan bisnis asli. Ingat bahwa tujuan utama dari ilmu data untuk bisnis adalah untuk mendukung pengambilan keputusan, dan bahwa kita memulai proses dengan berfokus pada masalah bisnis yang ingin kita pecahkan. Biasanya solusi penambangan data hanyalah bagian dari solusi yang lebih besar, dan perlu dievaluasi seperti itu. Lebih lanjut, bahkan jika model melewati tes evaluasi ketat di “di lab,” mungkin ada pertimbangan eksternal yang membuatnya tidak praktis. Misalnya, cacat umum dengan solusi deteksi (seperti deteksi penipuan, deteksi spam, dan pengawasan intrusi) adalah bahwa mereka menghasilkan terlalu banyak alarm palsu. Sebuah model mungkin sangat akurat (> 99%) menurut standar laboratorium, tetapi evaluasi dalam konteks bisnis yang sebenarnya dapat mengungkapkan bahwa masih menghasilkan terlalu banyak alarm palsu yang layak secara ekonomi. (Berapa biaya untuk menyediakan staf untuk menangani semua alarm palsu? Berapa biaya ketidakpuasan pelanggan?)

Mengevaluasi hasil penambangan data termasuk penilaian kuantitatif dan kualitatif. Berbagai pemangku kepentingan memiliki kepentingan dalam pengambilan keputusan bisnis yang akan dicapai atau didukung oleh model yang dihasilkan. Dalam banyak kasus, para pemangku kepentingan ini perlu "menandatangani" penerapan model, dan untuk melakukannya harus puas dengan kualitas keputusan model. Apa artinya itu bervariasi dari aplikasi ke aplikasi, tetapi seringkali para pemangku kepentingan mencari untuk melihat apakah model akan melakukan lebih baik daripada bahaya, dan terutama bahwa model tersebut tidak mungkin membuat kesalahan besar.

Untuk memfasilitasi penilaian kualitatif semacam itu, ilmuwan data harus berpikir tentang comprehensibility model kepada para pemangku kepentingan (tidak hanya untuk para ilmuwan data). Dan jika model itu sendiri tidak dapat dipahami (misalnya, mungkin modelnya adalah rumus matematika yang sangat rumit), bagaimana para ilmuwan data bekerja untuk membuat perilaku model dapat dipahami.

Akhirnya, kerangka evaluasi yang komprehensif penting karena mendapatkan informasi rinci tentang kinerja model yang digunakan mungkin sulit atau tidak mungkin. Seringkali hanya ada akses terbatas ke lingkungan penyebaran sehingga membuat evaluasi komprehensif "dalam produksi" itu sulit. Sistem yang digunakan biasanya berisi banyak "bagian yang bergerak," dan menilai kontribusi dari satu bagian itu sulit.

Perusahaan dengan tim sains data canggih dengan bijaksana membangun lingkungan uji yang mencerminkan data produksi sedekat mungkin, untuk mendapatkan evaluasi paling realistis sebelum mengambil risiko penerapan.

Meskipun demikian, dalam beberapa kasus kami mungkin ingin memperluas evaluasi ke dalam lingkungan pengembangan, misalnya dengan mengajarkan sistem hidup untuk dapat melakukan eksperimen acak. Dalam contoh churn kami, jika kami telah memutuskan dari uji laboratorium bahwa data model yang ditambang akan memberikan pengurangan churn yang lebih baik, kami mungkin ingin melanjutkan ke evaluasi "in vivo", di mana sistem hidup secara acak menerapkan model tersebut kepada beberapa pelanggan sambil mempertahankan pelanggan lain sebagai kelompok kontrol (ingat diskusi kita tentang pemodelan kausal dari Bab 1).

Eksperimen semacam itu harus dirancang dengan hati-hati, dan rincian teknis berada di luar cakupan buku ini. Pembaca yang tertarik bisa mulai dengan pelajaran yang dipelajari oleh Ron Kohavi dan rekan penulisnya (Kohavi et al., 2007, 2009, 2012). Kami mungkin juga ingin menerapkan sistem yang diterapkan untuk evaluasi guna memastikan bahwa dunia tidak berubah hingga merugikan pengambilan keputusan model.

Misalnya, perilaku dapat berubah dalam beberapa kasus, seperti penipuan atau spam, dalam tanggapan langsung terhadap penyebaran model. Selain itu, output dari model sangat bergantung pada data input; data input dapat berubah dalam format dan substansi, sering tanpa peringatan dari tim sains data. Raeder dkk. (2012) menyajikan diskusi terperinci tentang desain sistem untuk membantu menangani masalah-masalah ini dan isu-isu terkait evaluasi lainnya.

Deployment

Dalam penyebaran hasil penambangan data dan semakin banyak teknik penambangan data itu sendiri digunakan secara nyata untuk merealisasikan laba atas investasi. Kasus penyebaran yang paling jelas melibatkan penerapan model prediktif dalam beberapa sistem informasi atau proses bisnis. Dalam contoh churn kami, untuk memprediksi kemungkinan churn dapat diintegrasikan dengan proses bisnis untuk manajemen churn misalnya, dengan mengirimkan penawaran khusus kepada pelanggan yang diprediksi menjadi sangat berisiko. (Kami akan membahas hal ini dengan semakin rinci seiring dengan berjalannya buku.) Model deteksi penipuan baru dapat dibangun ke dalam sistem informasi manajemen tenaga kerja, untuk memantau akun dan membuat "kasus" bagi analis penipuan untuk diperiksa.

Semakin banyak, teknik penambangan data itu sendiri dikerahkan. Misalnya, untuk targeting online advertisements, sistem diterapkan yang secara otomatis membuat (dan menguji) model dalam produksi saat kampanye iklan baru ditampilkan. Dua alasan utama untuk menerapkan sistem penambangan data itu sendiri daripada model yang dihasilkan oleh sistem penambangan data adalah (i) the world may change faster than the data science team can adapt, as with fraud and intrusion detection, and (ii) a business has too many modeling tasks for their data science team to manually curate each model individually. In these cases, it may be best to deploy the data mining phase into production. In doing so, it is critical to instrument the process to alert the data science team of any seeming anomalies and to provide fail-safe operation (Raeder et al., 2012).

Penerapan juga bisa lebih sedikit "teknis." Dalam kasus yang terkenal, penambangan data menemukan seperangkat aturan yang dapat membantu mendiagnosis dan memperbaiki kesalahan umum dalam pencetakan industri dengan cepat. Penempatan berhasil hanya dengan merekam selembar kertas yang berisi aturan ke sisi printer (Evans & Fisher, 2002). Penerapan juga bisa lebih halus, seperti perubahan pada prosedur akuisisi data, atau perubahan pada strategi, pemasaran, atau operasi yang dihasilkan dari wawasan yang diperoleh dari penambangan data.

Menerapkan model ke dalam sistem produksi biasanya mengharuskan model tersebut didaur ulang untuk lingkungan produksi, biasanya untuk kecepatan yang lebih besar atau kompatibilitas dengan sistem yang ada. Ini mungkin menimbulkan biaya besar dan investasi. Dalam banyak kasus, tim sains data bertanggung jawab untuk memproduksi prototipe kerja, bersama dengan evaluasinya. Ini diteruskan ke tim pengembangan.

Practically speaking, there are risks with “over the wall” transfers from data science to development. It may be helpful to remember the maxim: “Your model is not what the data scientists design, it’s what the engineers build.” Dari perspektif manajemen, disarankan untuk memiliki anggota tim pengembangan yang terlibat sejak awal dalam proyek ilmu data .

Mereka dapat mulai sebagai penasihat, memberikan wawasan kritis kepada tim sains data. Semakin dalam prakteknya, pengembang khusus ini adalah "insinyur data" - insinyur perangkat lunak yang memiliki keahlian khusus baik dalam sistem produksi dan dalam ilmu data. Para pengembang ini secara bertahap memikul lebih banyak tanggung jawab ketika proyek itu matang. Pada titik tertentu para pengembang akan memimpin dan mengambil alih kepemilikan produk. Umumnya, para ilmuwan data masih harus tetap terlibat dalam proyek ini ke dalam penyebaran akhir, sebagai penasihat atau sebagai pengembang tergantung pada keterampilan mereka.

Terlepas dari apakah penyebaran berhasil, proses sering kembali ke fase Pemahaman Bisnis. Proses data penambangan menghasilkan banyak wawasan tentang masalah bisnis dan kesulitan solusinya. Iterasi kedua dapat menghasilkan solusi yang lebih baik. Hanya pengalaman berpikir tentang bisnis, data, dan tujuan kinerja sering mengarah pada ide-ide baru untuk meningkatkan kinerja bisnis, dan bahkan lini bisnis baru atau usaha baru. 

Perhatikan bahwa tidak perlu gagal dalam penempatan untuk memulai siklus lagi. Tahap Evaluasi dapat mengungkapkan bahwa hasil tidak cukup bagus untuk diterapkan, dan kita perlu menyesuaikan definisi masalah atau mendapatkan data yang berbeda. Ini diwakili oleh tautan "shortcut" dari Evaluasi kembali ke Pemahaman Bisnis dalam diagram proses. Dalam praktiknya, harus ada jalan pintas kembali dari setiap tahap ke tahap sebelumnya karena prosesnya selalu mempertahankan beberapa aspek eksplorasi, dan proyek harus cukup fleksibel untuk meninjau kembali langkah-langkah sebelumnya berdasarkan penemuan yang dilakukan.

Source Book : Data Science for Business – What you need to know about Data Mining and Data-Analytic Thinking (Foster Provost & Tom Fawcett) - Chapter 2 – Business Problem and Data Science Solution.

Comments