SEKOLAH
TINGGI MANAJEMEN INFORMATIKA KOMPUTER
STMIK
SWADHARMA
· Penggalian data
Penggalian data (bahasa Inggris: data mining) adalah
ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan
menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui
sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku
untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan
baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi
eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola,
arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data
diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh
dari sistem basis data perusahaan, e-commerce, data saham, data sensus dan data
bioinformatika), tetapi tidak tahu pola apa yang bisa didapatkan.
·
Proses Pencarian Pola
Penggalian data adalah salah satu bagian dari proses
pencarian pola. Berikut ini urutan proses pencarian pola:
Pembersihan Data: yaitu menghapus data pengganggu (noise) dan
mengisi data yang hilang.
Integrasi Data: yaitu menggabungkan berbagai sumber data.
Pemilihan Data: yaitu memilih data yang relevan.
Transformasi Data: yaitu mentransformasi data ke dalam format
untuk diproses dalam penggalian data.
Penggalian Data: yaitu menerapkan metode cerdas untuk
ekstraksi pola.
Evaluasi pola: yaitu mengenali pola-pola yang menarik saja.
Penyajian pola: yaitu memvisualisasi pola ke pengguna.
·
Latar
belakang
Perkembangan yang pesat di bidang pengumpulan data dan
teknologi penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau
besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu
panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang katanya
berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari intuisi
para pembuat keputusan. Sehingga, lahirlah cabang ilmu penggalian data ini.
Analisis data tanpa menggunakan otomasi dari penggalian data
adalah tidak memungkinkan lagi, kalau 1) data terlalu banyak, 2)
dimensionalitas data terlalu besar, 3) data terlalu kompleks untuk dianalisis
manual (misalnya: data time series, data spatiotemporal, data multimedia, data
streams).
·
Teknik Penggalian Data
Pada dasarnya penggalian data dibedakan menjadi dua
fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa
fungsionalitas penggalian data yang sering digunakan:
Karakterisasi dan Diskriminasi: yaitu menggeneralisasi,
merangkum, dan mengkontraskan karakteristik data.
Penggalian pola berulang: yaitu pencarian pola asosiasi
(association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi
dalam satu kali transaksi.
Klasifikasi: yaitu membangun suatu model yang bisa
mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah
tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari
data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
Prediksi: yaitu memprediksi nilai yang tidak diketahui atau
nilai yang hilang, menggunakan model dari klasifikasi.
Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan
objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data
sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan
meminimalkan kemiripan antarkelas.
Analisis outlier: yaitu proses pengenalan data yang tidak
sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan
pengecualian dalam data.
Analisis trend dan evolusi: meliputi analisis regresi,
penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis
kemiripan.
Berikut ini adalah 10 algoritme penggalian data yang paling
populer berdasarkan konferensi ICDM '06, semua algoritme dinominasikan oleh
para pemenang ACM KDD Innovation Award dan IEEE ICDM Research Contributions
Award :
·
C4.5
(61 suara)
·
k-Means
(60 suara)
·
SVM
atau Support Vector Machine (58 suara)
·
Apriori
(52 suara)
·
EM
(48 suara)
·
PageRank
(46 suara)
·
AdaBoost
(45 suara)
·
kNN
(45 suara)
·
Naive
Bayes (34 suara)
Berikut ini adalah yang hanya masuk nominasi:
·
CART:
·
FP-Tree:
·
HITS:
·
BIRCH:
·
GSP:
·
PrefixSpan:
·
CBA:
·
Finding
Reduct
·
gSpan:
SEJARAH DATA MINING
Tahun 1990-an telah melahirkan “gunungan” data di bidang ilmu
pengetahuan, bisnis dan pemerintah. Kemampuan teknologi informasi untuk
mengumpulkan dan menyimpan berbagai tipe data jauh meninggalkan kemampuan untuk
menganalisis, meringkas dan mengekstraksi “pengetahuan” dari data (Achmad
Zulfikar,2009).
Metodologi tradisional untuk menganalisis data yang ada,
tidak dapat menangani data dalam jumlah besar. Sementara para pelaku bisnis
memiliki kebutuhan-kebutuhan untuk memanfaatkan gudang data yang sudah
dimiliki, para peneliti melihat peluang untuk melahirkan sebuah teknologi baru
yang menjawab kebutuhan ini, yaitu Data mining. Teknologi ini sekarang sudah
ada dan diaplikasikan oleh perusahaan-perusahaan untuk memecahkan berbagai
permasalahan bisnis (Achmad Zulfikar,2009).
Alasan utama mengapa data mining diperlukan adalah karena
adanya sejumlah besar data yang dapat digunakan untuk mengahasilkan informasi
dan knowledge yang berguna. Informasi dan knowledge yang didapat tersebut dapat
digunakan pada banyak bidang, mulai dari manjemen bisnis, kontrol produksi,
kesehatan, dan lain-lain (Han & Kamber, 2001).Perkembangan data mining (DM)
yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan
data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam
setiap penjualan barang dengan memakai alat POS (point of sales). Database data
penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan
toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup
besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data
itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor
of information , karena data yang terkumpul itu tidak dapat digunakan untuk
aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja
seakan-akan kuburan data (data tombs). Investasi yang besar di bidang IT untuk
mengumpulkan data berskala besar ini perlu dijustifikasi dengan didapatnya
nilai tambah dari kumpulan data ini.
Jenis-jenis DataMining
1. Market Basket Analysis
Himpunan data yang dijadikan sebagai objek penelitan pada
area data mining. Market basket analysis adalah proses untuk menganalisis
kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam
keranjang belanjaannya. Market basket analysis memanfaatkan data transaksi
penjualan untuk dianalisis sehingga dapat ditemukan pola berupa item-item yang
cenderung muncul bersama dalam sebuah transaksi. Selanjutnya pola yang
ditemukan dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran
yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan
ke dalam sebuah area yang berdekatan, merancang tampilan item-item di katalog,
merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item
tertentu), merancang penjualan item-item dalam bentuk paket, dan sebagainya.
Dengan menggunakan teknologi data mining, analisis data secara manual tidak
diperlukan lagi.
2. Memory-Based Reasoning
Metode klasifikasi yang digabungkan dengan penalaran berbasis
memori. proses menggunakan satu set data untuk membuat model dari prediksi atau
asumsi-asumsi yang dapat dibuat tentang objek baru yang diperkenalkan. Ada dua
komponen dasar untuk metode MBR. Yang pertama adalah kesamaan fungsi, yang
mengukur bagaimana anggota yang sama dari setiap pasangan object satu sama
lain. Yang kedua adalah fungsi kombinasi, yang digunakan untuk menggabungkan
hasil dari himpunan tetangga untuk sampai pada keputusan.
3. Cluster Detection
Ada dua pendekatan untuk clustering. Pendekatan pertama
adalah dengan mengasumsikan bahwa sejumlah cluster sudah tersimpan dalam data,
tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan lain, disebut
clustering agglomerative, dengan asumsi keberadaan setiap jumlah yang telah
ditetapkan cluster tertentu, setiap item keluar di cluster sendiri, dan proses
terjadi berulang-ulang yang berupaya untuk menggabungkan cluster, meskipun
proses komputasi sama.
4. Link Analysis
proses mencari dan membangun hubungan antara object dalam
kumpulan data juga mencirikan sifat yang terkait dengan hubungan antara dua
object. Link Analysis berguna untuk aplikasi analitis yang mengandalkan teori
grafik untuk mengambil kesimpulan. Selain itu Link Analysis berguna untuk
proses optimasi.
5. Rule Induction
Ekstraksi aturan sebab-akibat dari data secara statistic.
identifikasi aturan bisnis yang tersimpan di dalam data. Metode berhubungan
dengan induksi aturan yang digunakan untuk proses penemuan. Salah satu
pendekatan untuk penemuan aturan adalah menggunakan pohon keputusan.
6. Neural Networks
model prediksi non linear yang melakukan pembelajaran melalui
latihan dan menyerupai struktur jaringan nerual yang terdapat pada mahluk
hidup. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan
dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat
kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya.
·
PERKEMBANGAN DATA MINING
Data mining telah menjadi disiplin ilmu yang dibangun dalam
domain kecerdasan buatan (AI), dan rekayasa pengetahuan (KE). Data
miningberakar pada machine learning dan statistika, tetapi merambah bidang lain
dalam ilmu komputer dan ilmu lainnya seperti biologi, lingkungan, finansial,
jaringan dan sebagainya. Data mining telah mendapatkan begitu besar perhatian pada
dekade terakhir sehubungan dengan perkembangan hardware yang menyediakan
kemampuan komputasi luar biasa yang memungkinkan pengolahan data besar. Tidak
seperti kajian lain dalam AI dan KE, data mining dapat diperdebatkan sebagai
sebuah aplikasi dibandingkan dengan sebuah teknologi, dengan demikian
diharapkan akan menjadi topik yang hangat dibahas di masa mendatang, mengingat
pertumbuhan data yang bersifat eksponensial. Paper ini memberikan kilas balik
perjalanan sejarah data mining, keadaan saat ini dan beberapa pandangan dan
perkembangan ke depan.
Kata Kunci: kecerdasan buatan, rekayasa pengetahuan, data
mining, machine learning.
Cara kerja data mining yaitu “menggali” hal-hal penting yang
belum diketahui sebelumnya atau memprediksi apa yang akan terjadi? Teknik yang
digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini
dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang
telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan
dicari jawabannya.
Data mining muncul sekitar tahun 90-an. Data Mining memang
salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang
masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena
data mining menyangkut database, kecerdasan buatan (artificial intelligence),
statistik, dsb. Ada pihak yang berpendapat bahwa data mining tidak lebih dari
machine learning atau analisa statistik yang berjalan di atas database. Namun
pihak lain berpendapat bahwa database berperanan penting di data mining karena
data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan
disini terlihat peran penting database terutama dalam optimisasi query-nya. Kehadiran
data mining dilatarbelakangi dengan problema data explosion yang dialami akhir-akhir
ini dimana banyak organisasi telah mengumpulkan data sekian tahun lamanya (data
pembelian, data penjualan, data nasabah, data transaksi dsb.). Hampir semua
data tersebut dimasukkan denganmenggunakan aplikasi komputer yang digunakan untuk
menangani transaksi sehari-hari yang kebanyakan adalah OLTP (On Line Transaction
Processing). Bayangkan berapa transaksi yang dimasukkan oleh hypermarket
semacam Carrefour atau transaksi kartu kredit dari sebuah bank dalam seharinya
dan bayangkan betapa besarnya ukuran data mereka jika nanti telah berjalan
beberapa tahun. Pertanyaannya sekarang, apakah data tersebut akan dibiarkan menggunung,
tidak berguna lalu dibuang, ataukah kita dapat me-‘nambang’-nya untuk mencari
‘emas’, ‘berlian’ yaitu informasi yang berguna untuk organisasi kita. Banyak diantara
kita yang kebanjiran data tapi miskin informasi. Data Mining mengeksplorasi
basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi
pemrediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak
di luar ekspektasi mereka. Sementara para pelaku bisnis memiliki kebutuhan-kebutuhan
untuk memanfaatkan gudang data yang sudah dimiliki, para peneliti melihat
peluang untuk melahirkan sebuah teknologi baru yang menjawab kebutuhan ini,
yaitu data mining. Teknologi ini sekarang sudah ada dan diaplikasikan oleh
perusahaan - perusahaan untuk memecahkan berbagai permasalahan bisnis. Kebutuhan
dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka
kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang
seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata
penerapan pada data berskala besar memberikan tantangan-tantangan baru yang
akhirnya memunculkan metodologi baru yang disebut data mining ini. Bermula dari
penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang
lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan
negara. Dalam paper ini, kami mencoba memperkenalkan data mining dengan membandingkannya
dengan bidang ilmu yang sudah ada, dan juga memberikan beberapa ilustrasi
tentang teknik-teknik yang umum dipakai di data mining.
Data mining
didefinisikan
sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi
secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set
data yang sangat besar. Set data yang dimaksud di sini adalah set data yang
berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi
manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat
juga diaplikasikan pada representasi data yang lain, seperti domain data
spatial, berbasis text, dan multimedia (citra).
SEKIAN DARI SAYA
TERIMA KASIH
izin copy. makasih banyak sangat bermanfaat
BalasHapus