Other Analytics Techniques and Technologies
Analisis bisnis melibatkan penerapan berbagai teknologi untuk analisis data. Banyak di antaranya melampaui fokus buku ini pada pemikiran analitik data dan prinsip-prinsip pengambilan pola yang berguna dari data. Meskipun demikian, penting untuk berkenalan dengan teknik terkait ini, untuk memahami apa tujuan mereka, peran apa yang mereka mainkan, dan kapan bermanfaat untuk berkonsultasi dengan para ahli di dalamnya.
Untuk tujuan ini, kami menyajikan enam kelompok teknik analitik terkait. Apabila diperlukan, kami menarik perbandingan dan kontras dengan penambangan data. Perbedaan utamanya adalah bahwa penambangan data berfokus pada pencarian otomatis untuk pengetahuan, pola, atau keteraturan dari data. Keterampilan penting untuk seorang analis bisnis adalah untuk dapat mengenali teknik analitik seperti apa yang tepat untuk mengatasi masalah tertentu.
Statistics
Istilah "statistik" memiliki dua kegunaan yang berbeda dalam analisis bisnis. Pertama, ini digunakan sebagai istilah catchall untuk perhitungan nilai-nilai numerik tertentu yang menarik dari data (misalnya, "Kita perlu mengumpulkan beberapa statistik pada penggunaan pelanggan kami untuk menentukan apa yang salah di sini.") Nilai-nilai ini sering kali termasuk jumlah, rata-rata, tarif, dan sebagainya. Mari kita sebut ini "ringkasan statistik".
Statistik membantu kita untuk memahami distribusi data yang berbeda dan statistik apa yang tepat untuk meringkas masing-masing. Statistik membantu kita memahami bagaimana menggunakan data untuk menguji hipotesis dan memperkirakan ketidakpastian kesimpulan. Dalam kaitannya dengan data mining, pengujian hipotesis dapat membantu menentukan apakah pola yang diamati cenderung menjadi validitas, umum yang berlaku sebagai lawan dari kemungkinan terjadinya dalam beberapa dataset tertentu. Yang paling relevan dengan buku ini, banyak teknik untuk mengekstraksi model atau pola dari data berakar pada Statistik.
Note : "Data Science" often is applied more broadly than the traditional use of "Data Mining", but DM techniques provide some of clearest illustrations of the priciples of Data Science.
Database Querying
Kueri adalah permintaan khusus untuk subkumpulan data atau statistik tentang data, yang dirumuskan dalam bahasa teknis dan diajukan ke sistem basis data. Banyak alat tersedia untuk menjawab pertanyaan satu kali atau pengulangan tentang data yang diajukan oleh seorang analis. Alat-alat ini biasanya frontends ke sistem database, berdasarkan Structured Query Language (SQL) atau alat dengan Graphical User Interface (GUI) untuk membantu merumuskan queries (misalnya, query-byexample, atau QBE). Misalnya, jika analis dapat mendefinisikan "menguntungkan" dalam hal operasional yang dapat dihitung dari item dalam database, maka alat kueri dapat menjawab: "Siapa pelanggan yang paling menguntungkan di Northeast?" Analis kemudian dapat menjalankan kueri untuk mengambil daftar pelanggan yang paling menguntungkan, mungkin diberi peringkat berdasarkan profitabilitas. Kegiatan ini berbeda secara fundamental dari penambangan data karena tidak ditemukannya pola atau model.
Sebagai contoh, jika seorang analis mencurigai bahwa pria paruh baya yang tinggal di Timur Laut memiliki perilaku yang sangat menarik, ia dapat menyusun kueri SQL:
SELECT * FROM CUSTOMERS WHERE AGE > 45 and SEX='M' and DOMICILE = 'NE'
Jika mereka adalah orang-orang yang ditargetkan dengan tawaran, alat query dapat digunakan untuk mengambil semua informasi tentang mereka ("*") dari tabel PELANGGAN dalam database. Sebaliknya, penambangan data dapat digunakan untuk membuat kueri ini di tempat pertama sebagai pola atau keteraturan dalam data. Prosedur penambangan data mungkin memeriksa pelanggan sebelumnya yang melakukan dan tidak melakukan kecurangan, dan menentukan bahwa segmen ini (dicirikan sebagai "AGE lebih besar dari 45 dan SEX adalah laki-laki dan DOMICILE adalah Northeast-USA") adalah prediktif berkenaan dengan churn rate. Setelah menerjemahkan ini ke dalam kueri SQL, alat kueri kemudian dapat digunakan untuk menemukan catatan yang cocok dalam database.
Query tools umumnya memiliki kemampuan untuk menjalankan logika canggih, termasuk statistik ringkasan komputasi atas subpopulasi, pengurutan, bergabung bersama beberapa tabel dengan data terkait, dan banyak lagi. Para ilmuwan data sering menjadi mahir dalam menulis pertanyaan untuk mengekstrak data yang mereka butuhkan.
Data Warehousing
Gudang data mengumpulkan dan menyatukan data dari seluruh perusahaan, seringkali dari berbagai sistem pemrosesan transaksi, masing-masing dengan database sendiri. Sistem analisis dapat mengakses gudang data. Data pergudangan dapat dilihat sebagai teknologi fasilitasi penambangan data. Itu tidak selalu diperlukan, karena kebanyakan data mining tidak mengakses data warehouse, tetapi perusahaan yang memutuskan untuk berinvestasi di gudang data sering dapat menerapkan data mining lebih luas dan lebih dalam di organisasi. Sebagai contoh, jika data warehouse mengintegrasikan catatan dari penjualan dan penagihan serta dari sumber daya manusia, dapat digunakan untuk menemukan pola karakteristik dari penjual yang efektif.
Regression Analysis
Beberapa metode yang sama yang kita diskusikan dalam buku ini merupakan inti dari serangkaian metode analitik yang berbeda, yang sering dikumpulkan di bawah analisis regresi rubrik, dan diterapkan secara luas di bidang statistik dan juga di bidang lain yang didirikan pada analisis ekonometrik. . Buku ini akan berfokus pada isu-isu yang berbeda dari biasanya ditemui dalam buku atau kelas analisis regresi. Di sini kami kurang tertarik untuk menjelaskan kumpulan data tertentu karena kami mengekstraksi pola yang akan menyamaratakan data lain, dan untuk tujuan meningkatkan beberapa proses bisnis. Biasanya, ini akan melibatkan memperkirakan atau memprediksi nilai untuk kasus-kasus yang tidak dalam kumpulan data yang dianalisis.
Machine Learning and Data Mining
Pengumpulan metode untuk mengekstraksi (prediktif) model dari data, sekarang dikenal sebagai metode pembelajaran mesin, dikembangkan di beberapa bidang secara bersamaan, terutama Pembelajaran Mesin, Statistik Terapan, dan Pengenalan Pola. Pembelajaran Mesin sebagai bidang studi muncul sebagai subfield of Artificial Intelligence, yang berkaitan dengan metode untuk meningkatkan pengetahuan atau kinerja agen cerdas dari waktu ke waktu, sebagai tanggapan terhadap pengalaman agen di dunia. Peningkatan tersebut sering melibatkan analisis data dari lingkungan dan membuat prediksi tentang kuantitas yang tidak diketahui, dan selama bertahun-tahun aspek analisis data pembelajaran mesin ini telah memainkan peran yang sangat besar di lapangan.
Bidang Data Mining (atau KDD: Penemuan Pengetahuan dan Penambangan Data) dimulai sebagai bagian dari Pembelajaran Mesin, dan mereka tetap terkait erat. Kedua bidang prihatin dengan analisis data untuk menemukan pola berguna atau informatif. Teknik dan algoritma dibagi antara keduanya. Memang, daerah-daerah sangat terkait erat sehingga para peneliti umumnya berpartisipasi dalam kedua komunitas dan transisi di antara mereka secara mulus. Namun demikian, ada baiknya menunjukkan beberapa perbedaan untuk memberikan perspektif.
Berbicara secara umum, karena Machine Learning berkaitan dengan banyak jenis peningkatan kinerja, itu termasuk subbidang seperti robotika dan visi komputer yang bukan bagian dari KDD. Secara historis KDD juga cenderung lebih peduli dengan seluruh proses analitik data: persiapan data, pembelajaran model, evaluasi, dan sebagainya.
Summary
Penambangan data adalah kerajinan. Seperti banyak kerajinan, ada proses yang terdefinisi dengan baik yang dapat membantu meningkatkan kemungkinan hasil yang sukses. Proses ini adalah alat konseptual yang krusial untuk berpikir tentang proyek sains data. Kami akan merujuk kembali ke proses penambangan data berulang kali di seluruh buku, menunjukkan bagaimana setiap konsep dasar cocok. Pada gilirannya, memahami dasar-dasar ilmu data secara substansial meningkatkan kemungkinan keberhasilan sebagai perusahaan invokes the data mining process.
Berbagai bidang studi yang terkait dengan ilmu data telah mengembangkan satu set jenis tugas kanonik, seperti klasifikasi, regresi, dan pengelompokan. Setiap jenis tugas melayani tujuan yang berbeda dan memiliki serangkaian teknik solusi terkait. Seorang ilmuwan data biasanya menyerang proyek baru dengan menguraikannya sedemikian rupa sehingga satu atau lebih dari tugas kanonik ini terungkap, memilih teknik solusi untuk masing-masing, kemudian menyusun solusi.
Melakukan hal ini secara ahli mungkin membutuhkan banyak pengalaman dan keterampilan. Proyek penambangan data yang sukses melibatkan kompromi cerdas antara apa yang dapat dilakukan oleh data (yaitu, apa yang dapat mereka prediksi, dan seberapa baik) dan sasaran proyek. Karena alasan ini, penting untuk diingat bagaimana hasil penambangan data akan digunakan, and use this to inform the data mining process itself.
Data mining berbeda dari, dan saling melengkapi, teknologi pendukung penting seperti pengujian hipotesis statistik dan query database (yang memiliki buku dan kelas mereka sendiri). Meskipun batas antara penambangan data dan teknik terkait tidak selalu tajam, penting untuk mengetahui tentang kemampuan dan kekuatan teknik lain untuk mengetahui kapan mereka harus digunakan.
Bagi seorang manajer bisnis, proses penambangan data berguna sebagai kerangka kerja untuk menganalisis proyek atau proposal penambangan data. Proses ini menyediakan organisasi yang sistematis, termasuk serangkaian pertanyaan yang dapat ditanyakan tentang proyek atau proyek yang diusulkan untuk membantu memahami apakah proyek tersebut dipahami dengan baik atau secara fundamental cacat. Kita akan kembali ke ini setelah kita membahas secara terperinci beberapa lagi prinsip-prinsip fundamental yang kita gunakan sekarang.
Sourse Book : Data Science for Business – What you need to know about Data Mining and Data-Analytic Thinking (Foster Provost & Tom Fawcett) - Chapter 2 – Business Problem and Data Science Solution.
Comments
Post a Comment