Teknik Data Mining

Teknik Data Mining
Teknik-teknik yang digunakan DataMining dalam memecahkan masalah bisnis yang dihadapiterbagi menjadi dua jenis teknik, teknik klasik dan teknik generasi selanjutnya(Berson, et a!., 2000).
Teknik Klasik
Teknik klasik di dalamnyaterdapat tiga teknikyang berbeda, yaitu statistika, nearest neighbor, clustering.
Teknik Statistika
Teknik ini sudah lama digunakan dalam analisis masalahbisnis. Statistika dikendalikan oleh data dan digunakanuntuk menemukan pola-pola dan membangun predictive model. Sebagai cabang dari ilmu matematika yang mengurusi koleksidan Miningtidak bergantung pada statistik, walaupun"menambang" data itu sendiri untuk mencari pola-poladan prediksi sebenamyamerupakan hal-hal yang dikerjakan oleh statistika.

Berdasarkan kondisisekarang ini, dimanadata-data yang dimilikisudah sampai berukuran terabyte, dan harus bisa mengumpulkan  sedikit demi sedikit pola-polayang penting.  Statistika  bisa  sangat membantu  dalam proses  ini dengan  membantu memberikan jawabanpada beberapa pertanyaanpenting tentang data:
1.  Pola-pola apa saja yang ada di dalam basis data?
2.   Seberapa besarkah peluang untuk suatu kejadianakan teljadi?
3.   Pola-pola mana saja yang signifikan?
4.   Rangkuman  data tingkat  tinggi  apa sajakah  yangdapat  memberikan  beberapa  ide dari yang terkandungdi dalam basis data?
TeknikNearest Neighbor
Teknik  prediksi  clustering dan  nearest neighboradalah  teknik-teknik  yang paling  lama  digunakan  diantara  teknik-teknik   lainnya  dalam  Data Mining.Nearest neighbor adalah teknikprediksi  untukmemprediksi  nilaidugaan apa yang terdapat  di dalam sebuahrecord, mencari record dengan nilai penduga yang sama di dalam basis data historis  dan menggunakan  nilaidugaannya dari record yang "mendekati" de!lgl!!l record yang belurn diklasifikasikan.
Algoritma  yang digunakan  dalam prediksi  nearest neighbordapat  dijelaskan sebagai, obyek-obyek yang "berdekatan" satu sama lain akan memiliki  nilaiperkiraan yang mirip.Dengan demikian,  jika diketahui nilai perkiraan dari salah satu obyeknya, maka  akan  bisa  memperkirakannya  untuk  obyek  disekitarnya  (nearest  neighbor) (Berson, et a!., 2000,p136).

Dalampenerapannya pada dunia bisnis adalah,teknik prediksi ini digunakan untuk mencari dokumen lain yang membagi karakteristik-karakteristik pentingdengan dokumen-dokumen lainnya yang sudah ditandai.

Aspek pentinglainnya dari sistem yang digunakan untuk membuat prediksi adalah bahwa pengguna tidak hanya disediakan prediksinya saja, tetapi juga rasa kepercayaan dari hasil prediksinya. Nearest neighbor memberikan dua cara, yaitu:
1. Jarak yang dekat dengan objek disekitarnya dapat memberikan tingkatkepercayaan yang lebih, daripadajarak yang jauh dengan objek disekitarnya.
2.   Tingkat persamaan diantara prediksi-prediksinya didalam K nearest neighbortinggi untuk semua objekdisekitarnya merniliki prediksiyang sama merniliki tingkat kepercayaan yang sama, daripadaprediksi setengahnya berbedadengan setengah yang lain.
Teknik Clustering
Metode ini hampirsama dengan metode nearest neighbor,dimana metode ini melakukan pengelompokan pada beberapa record(clustering), dan biasanyadiberikan kepada pengguna akhir untukmemberikan gambaran tentang apa yang teljadi di dalam basis data.
Clustering juga seringkalidigunakan untuk mencari rata-rata (mean) dari segmentasi, dimana kebanyakan orang-orang pemasaran akan memberikan hal-hal yang berguna untuk yang akan datang dengansudut pandang yang luas dari bisnis.

Sebagai contohpemakaian metode clustering  pada dua sistem yang beljalan pada masing-masing perusahaan, yaitu sistem PRIZM pada ClaritasCorporation, dan MicroVision pada Equifax Corporation.

Disini metode tersebut dipakai untuk melakukanpengelompokan pelanggan berdasarkan kategori profilnyake dalam segmen-segmen yang diberi namanya sendiri­ sendiri yang mudah diingat, sehinggamemudahkan pemakainya untuk dapat membaca situasi bisnisnya, dan menjalankan strategidirect marketing dan penjualan yang tepat.

Teknik Generasi Selanjutnya
Teknik yang digunakan dalam Data Mining  pada generasiselanjutnya adalah teknik-teknik decision tree, neural networksdan rule induction.
Ketiga teknik ini adalahteknik-teknik yang paling sering dipakai dan dikembangkan selama dua dekade terakhir, dan bisa digunakan untuk menemukan informasi yang barn di dalam basis data yang besar, atau untuk membangunpredictive model.

a. Decision Tree
Teknik ini adalah  predictive  model  yang bisa dilihat  dalam  bentuk pohon. Secara spesifik,tiap cabangnya merupakan klasifikasi pertanyaan, dan daunnya merupakan pembagian-pembagian dari datasetdengan klasifikasinya.
Sebagai contohnya, untuk mengklasifrkasikan pelanggan yang tidak akan memeperbaharui  kontrak  telepon  selulemya
1.  Membagi data di setiap titik cabangnya tanpa kehilangan datanyaGum1ahdari total banyaknya recordpada node parentyang sama denganjumlah dari recordyang terkandung di dalamkedua anaknya).
2.  Jumlah dari orang-orang yang tidak tertarikdan yang tertarikberbanding terbalik pada saat naik atau turun tree-nya.
3.  Memudahkan  untuk  mengerti  bagaimana  modelnya  sedang  dibangun  (kontras dengan model dari neural networkatau dari statistika yang standar).
4. Memudahkan  untuk  menggunakan  modelnya,  jika   sudah  mentargetkan pelanggannya yang sepertinya tidak tertarik dengan penawaran pemasaran.
5.  Teknik Decision Trees ini juga dapat membangun beberapaintuisi tentang basis pelanggannya (sebagai contohnya, pelangganyang sudah bersamaselama dua tahun dan memiliki teleponselular yang up-to-date adalah pelanggan yang cukup loyal).

Decision tree ini akan berhentiberkembang pada saat sudah menemukansalah satu dari ketiga kriterianya:
1.   Segmennya  hanya  memiliki  satu  record  (tidak  ada  pertanyaan  lain  yang  bisa ditanyakan nntuk mendaursebuah segmen lebih lanjut yang hanya satu.).
2.   Semuarecord di dalam segmen memilikikarakteristik yang serupa (tidak ada alasan untuk melanjutkan pertanyaan lebihjauh, karena semua record-nya adalah sama).
3.   Pengembangannya tidak cukup penting untuk perlu menanyakan pertanyaan.

Penerapannya pada bisnis adalah,dengan struktur pohondan kemampuannya untuk menghasilkan rule secara mudah, teknik ini merupakan teknik yang disukaidalam membangun model-model yang bisa dimengerti.

Selain itu juga, denganautomatisasi tingkat tingginyadan kemudahan dalam menerjemahkan model decision tree ke dalamSQL untuk menjalankannya di dalam basis data relasional. Hal ini hanya membutuhkan sedikit preprocessing dancleansing dari data, atau extraction darisebuah file dengan tujuan tertentuyang secara spesifik untuk Data Mining.

b. Neural Networks
Neural Networkslebih memiliki daya tarikyang lebih besar melaluiformative stages dari teknologiData Mining, akantetapi teknik ini memiliki kekurangan sehingga membatasi dalam kemudahanpenggunaan dan penjalanannya, selain itu terdapatjuga beberapa kelebihannya secara signifikan.Teknik  ini  lebih  tepatnya  disebut  sebagai "artificial  neural  networ'  atau jaringan syaraf buatan, sedangkan yang aslinya adalah sistem biologis atau dengan kata yang buatan adalah program komputer yang mengimp1ementasikan pendeteksian pola­ pola yang rumit dan algoritma machine learning pada sebuah komputeruntuk membangun predictive model dari basis data historisnya yang besar.

Ide tentangneural network ini pertama kalinyadiungkapkan oleh McCulloch dan Pitts pada masa perang dunia kedua, sebagaiunit proses sederhana(seperti sebuah neuron dalam otak manusia)yang bisa dihubungkan secara sekaligus di dalam sebuah jaringan yang besar untuk membuat sebuah sistem yang bisa memecahkan masalah­ masalah yang sulit, dan menampilkan kebiasaanyang jauh lebih rumit daripadayang dapat dibuat oleh sebuah unit saja (Berson,et a!., 2000, p167).

Menurut pandanganumum, Neural Networkdengan cara kerjanya yang sudah otomatis, penggunatidak perlu mengetahui banyak tentang bagaimana cara kerjanya, pembuatan predictive model tersebut, atau bahkan tentang penggunaan basis data-nya.

c. Rule Induction

Teknik ini  sebuah bentuk yang palingbesar dari DataMining. Bentuk Data Mining dari rule inductionmungkin adalah yang paling mendekati dengan proses yang kebanyakan orang pikir tentang DataMining itu sendiri,yaitu "menambang" untuk mencari emas di dalamsistem basis data yang sangatbesar.

Rule induction di dalam basis data memilikikemampuan yang sangatbesar dimana semua pola-polayang memungkinkan dikeluarkan dari data secarasistematis, dan kemudian akurasidan nilai kepentingannya ditambahkan ke dalamnya, sehingga memberitahu pengguna seberapa kuat polanyadan kemungkinannya untuk dapat terjadi lagi.

Agar aturan-aturan dalam rule induction dapat bermanfaat maim harus ditambahkan dua informasi tambahanyang sesuai dengankeadaan sebenarnya yaitu:
1.  Keakuratannya, yang menunjukkan seberapa sering aturantersebut benar.
2.  Penerapannya, yaitu  angka  yang  menunjukkan  seberapa  sering  aturan  tersebut dipakai.

Comments