Teknik Data Mining
Teknik-teknik yang digunakan DataMining dalam memecahkan masalah bisnis yang dihadapiterbagi menjadi dua jenis teknik, teknik klasik dan teknik generasi selanjutnya(Berson, et a!., 2000).
Teknik Klasik
Teknik klasik di dalamnyaterdapat tiga teknikyang berbeda, yaitu statistika, nearest neighbor, clustering.
Teknik Statistika
Teknik ini sudah lama digunakan dalam analisis masalahbisnis. Statistika dikendalikan oleh data dan digunakanuntuk menemukan pola-pola dan membangun predictive model. Sebagai cabang dari ilmu matematika yang mengurusi koleksidan Miningtidak bergantung pada statistik, walaupun"menambang" data itu sendiri untuk mencari pola-poladan prediksi sebenamyamerupakan hal-hal yang dikerjakan oleh statistika.
Berdasarkan kondisisekarang ini, dimanadata-data yang dimilikisudah sampai berukuran terabyte, dan harus bisa mengumpulkan sedikit demi sedikit pola-polayang penting. Statistika bisa sangat membantu dalam proses ini dengan membantu memberikan jawabanpada beberapa pertanyaanpenting tentang data:
1. Pola-pola apa saja yang ada di dalam basis data?
2. Seberapa besarkah peluang untuk suatu kejadianakan teljadi?
3. Pola-pola mana saja yang signifikan?
4. Rangkuman data tingkat tinggi apa sajakah yangdapat memberikan beberapa ide dari yang terkandungdi dalam basis data?
TeknikNearest Neighbor
Teknik prediksi clustering dan nearest neighboradalah teknik-teknik yang paling lama digunakan diantara teknik-teknik lainnya dalam Data Mining.Nearest neighbor adalah teknikprediksi untukmemprediksi nilaidugaan apa yang terdapat di dalam sebuahrecord, mencari record dengan nilai penduga yang sama di dalam basis data historis dan menggunakan nilaidugaannya dari record yang "mendekati" de!lgl!!l record yang belurn diklasifikasikan.
Algoritma yang digunakan dalam prediksi nearest neighbordapat dijelaskan sebagai, obyek-obyek yang "berdekatan" satu sama lain akan memiliki nilaiperkiraan yang mirip.Dengan demikian, jika diketahui nilai perkiraan dari salah satu obyeknya, maka akan bisa memperkirakannya untuk obyek disekitarnya (nearest neighbor) (Berson, et a!., 2000,p136).
Dalampenerapannya pada dunia bisnis adalah,teknik prediksi ini digunakan untuk mencari dokumen lain yang membagi karakteristik-karakteristik pentingdengan dokumen-dokumen lainnya yang sudah ditandai.
Aspek pentinglainnya dari sistem yang digunakan untuk membuat prediksi adalah bahwa pengguna tidak hanya disediakan prediksinya saja, tetapi juga rasa kepercayaan dari hasil prediksinya. Nearest neighbor memberikan dua cara, yaitu:
1. Jarak yang dekat dengan objek disekitarnya dapat memberikan tingkatkepercayaan yang lebih, daripadajarak yang jauh dengan objek disekitarnya.
2. Tingkat persamaan diantara prediksi-prediksinya didalam K nearest neighbortinggi untuk semua objekdisekitarnya merniliki prediksiyang sama merniliki tingkat kepercayaan yang sama, daripadaprediksi setengahnya berbedadengan setengah yang lain.
Teknik Clustering
Metode ini hampirsama dengan metode nearest neighbor,dimana metode ini melakukan pengelompokan pada beberapa record(clustering), dan biasanyadiberikan kepada pengguna akhir untukmemberikan gambaran tentang apa yang teljadi di dalam basis data.
Clustering juga seringkalidigunakan untuk mencari rata-rata (mean) dari segmentasi, dimana kebanyakan orang-orang pemasaran akan memberikan hal-hal yang berguna untuk yang akan datang dengansudut pandang yang luas dari bisnis.
Sebagai contohpemakaian metode clustering pada dua sistem yang beljalan pada masing-masing perusahaan, yaitu sistem PRIZM pada ClaritasCorporation, dan MicroVision pada Equifax Corporation.
Disini metode tersebut dipakai untuk melakukanpengelompokan pelanggan berdasarkan kategori profilnyake dalam segmen-segmen yang diberi namanya sendiri sendiri yang mudah diingat, sehinggamemudahkan pemakainya untuk dapat membaca situasi bisnisnya, dan menjalankan strategidirect marketing dan penjualan yang tepat.
Teknik Generasi Selanjutnya
Teknik yang digunakan dalam Data Mining pada generasiselanjutnya adalah teknik-teknik decision tree, neural networksdan rule induction.
Ketiga teknik ini adalahteknik-teknik yang paling sering dipakai dan dikembangkan selama dua dekade terakhir, dan bisa digunakan untuk menemukan informasi yang barn di dalam basis data yang besar, atau untuk membangunpredictive model.
a. Decision Tree
Teknik ini adalah predictive model yang bisa dilihat dalam bentuk pohon. Secara spesifik,tiap cabangnya merupakan klasifikasi pertanyaan, dan daunnya merupakan pembagian-pembagian dari datasetdengan klasifikasinya.
Sebagai contohnya, untuk mengklasifrkasikan pelanggan yang tidak akan memeperbaharui kontrak telepon selulemya
1. Membagi data di setiap titik cabangnya tanpa kehilangan datanyaGum1ahdari total banyaknya recordpada node parentyang sama denganjumlah dari recordyang terkandung di dalamkedua anaknya).
2. Jumlah dari orang-orang yang tidak tertarikdan yang tertarikberbanding terbalik pada saat naik atau turun tree-nya.
3. Memudahkan untuk mengerti bagaimana modelnya sedang dibangun (kontras dengan model dari neural networkatau dari statistika yang standar).
4. Memudahkan untuk menggunakan modelnya, jika sudah mentargetkan pelanggannya yang sepertinya tidak tertarik dengan penawaran pemasaran.
5. Teknik Decision Trees ini juga dapat membangun beberapaintuisi tentang basis pelanggannya (sebagai contohnya, pelangganyang sudah bersamaselama dua tahun dan memiliki teleponselular yang up-to-date adalah pelanggan yang cukup loyal).
Decision tree ini akan berhentiberkembang pada saat sudah menemukansalah satu dari ketiga kriterianya:
1. Segmennya hanya memiliki satu record (tidak ada pertanyaan lain yang bisa ditanyakan nntuk mendaursebuah segmen lebih lanjut yang hanya satu.).
2. Semuarecord di dalam segmen memilikikarakteristik yang serupa (tidak ada alasan untuk melanjutkan pertanyaan lebihjauh, karena semua record-nya adalah sama).
3. Pengembangannya tidak cukup penting untuk perlu menanyakan pertanyaan.
Penerapannya pada bisnis adalah,dengan struktur pohondan kemampuannya untuk menghasilkan rule secara mudah, teknik ini merupakan teknik yang disukaidalam membangun model-model yang bisa dimengerti.
Selain itu juga, denganautomatisasi tingkat tingginyadan kemudahan dalam menerjemahkan model decision tree ke dalamSQL untuk menjalankannya di dalam basis data relasional. Hal ini hanya membutuhkan sedikit preprocessing dancleansing dari data, atau extraction darisebuah file dengan tujuan tertentuyang secara spesifik untuk Data Mining.
b. Neural Networks
Neural Networkslebih memiliki daya tarikyang lebih besar melaluiformative stages dari teknologiData Mining, akantetapi teknik ini memiliki kekurangan sehingga membatasi dalam kemudahanpenggunaan dan penjalanannya, selain itu terdapatjuga beberapa kelebihannya secara signifikan.Teknik ini lebih tepatnya disebut sebagai "artificial neural networ' atau jaringan syaraf buatan, sedangkan yang aslinya adalah sistem biologis atau dengan kata yang buatan adalah program komputer yang mengimp1ementasikan pendeteksian pola pola yang rumit dan algoritma machine learning pada sebuah komputeruntuk membangun predictive model dari basis data historisnya yang besar.
Ide tentangneural network ini pertama kalinyadiungkapkan oleh McCulloch dan Pitts pada masa perang dunia kedua, sebagaiunit proses sederhana(seperti sebuah neuron dalam otak manusia)yang bisa dihubungkan secara sekaligus di dalam sebuah jaringan yang besar untuk membuat sebuah sistem yang bisa memecahkan masalah masalah yang sulit, dan menampilkan kebiasaanyang jauh lebih rumit daripadayang dapat dibuat oleh sebuah unit saja (Berson,et a!., 2000, p167).
Menurut pandanganumum, Neural Networkdengan cara kerjanya yang sudah otomatis, penggunatidak perlu mengetahui banyak tentang bagaimana cara kerjanya, pembuatan predictive model tersebut, atau bahkan tentang penggunaan basis data-nya.
c. Rule Induction
Teknik ini sebuah bentuk yang palingbesar dari DataMining. Bentuk Data Mining dari rule inductionmungkin adalah yang paling mendekati dengan proses yang kebanyakan orang pikir tentang DataMining itu sendiri,yaitu "menambang" untuk mencari emas di dalamsistem basis data yang sangatbesar.
Rule induction di dalam basis data memilikikemampuan yang sangatbesar dimana semua pola-polayang memungkinkan dikeluarkan dari data secarasistematis, dan kemudian akurasidan nilai kepentingannya ditambahkan ke dalamnya, sehingga memberitahu pengguna seberapa kuat polanyadan kemungkinannya untuk dapat terjadi lagi.
Agar aturan-aturan dalam rule induction dapat bermanfaat maim harus ditambahkan dua informasi tambahanyang sesuai dengankeadaan sebenarnya yaitu:
1. Keakuratannya, yang menunjukkan seberapa sering aturantersebut benar.
2. Penerapannya, yaitu angka yang menunjukkan seberapa sering aturan tersebut dipakai.
Comments
Post a Comment