Data Mining [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

PAYBACK PERIOD



Rizki Alifah Putri (15611036)



Untuk memenuhi tugas yang diberikan oleh Ibu Asmadhini selaku dosen pembimbing mata kuliah Analisis Finansial



UNIVERSITAS ISLAM INDONESIA YOGYAKARTA 2016 KATA PENGANTAR



Alhamdulillah, puji syukur kami panjatkan kepada Tuhan Yang Maha Esa karena atas limpahan rahmat dan karunianya penulis dapat menyelesaikan makalah tentang ‘Keterkaitan Data Mining dengan Statistika’ ini dengan baik tanpa kurang suatu apa pun. Tak lupa penulis juga berterima kasih kepada Bapak Anggit selaku guru pembimbing kami dalam mata kuliah Bahasa Indonesia jurusan Statistika Universitas Islam Indonesia yang sudah memberikan tugas ini. Penulis selaku penyusun berharap semoga kelak makalah ini dapat berguna dan juga bermanfaat serta menambah wawasan tentang pengetahuan kita semua tentang Keterkaitan Data Mining dengan Statistika. Dalam pembuatan makalah ini penulis sangat menyadari masih sangat banyak terdapat kekurangan dan masih membutuhkan saran untuk perbaikannya. Oleh karena itu penulis sangat mengharapkan kritik dan saran guna membangun makalah agar menjadi lebih baik dari sebelumnya. Semoga makalah ini bisa dengan mudah di mengerti dan dapat di pahami maknanya. Penulis mohon maaf bila ada kesalahan kata dalam penulisan makalah ini, serta bila ada kalimat yang kurang berkenan di hati pembaca.



Yogyakarta, 23 Desember 2016



Penulis



ABSTRAK



2



Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi sejalan dengan pertumbuhan teknologi informasi. Mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Olehnya itu, data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data Mining (DM) sendiri adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Seorang analis menerapkan tahapan-tahapan data mining tersebut. Sebagai prasyarat penerapan data mining, diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan dari hasilnya nanti. Penulis juga mencoba merangkum perkembangan terakhir dari teknik-teknik DM beserta implikasinya di dunia bisnis.



Kata Kunci: data mining, process, tahapan, penerapan



3



DAFTAR ISI KATA PENGANTAR ..................................................................ii ABSTRAK ................................................................................iii DAFTAR ISI .............................................................................iv BAB I PENDAHULUAN ............................................................1 1. LATAR BELAKANG ............................................................1 2. RUMUSAN MASALAH .......................................................3 3. TUJUAN PENELITIAN ........................................................3 BAB II PEMBAHASAN ............................................................4 1. PENGERTIAN DATA MINING ..............................................4 2. TEKNIK-TEKNIK DATA MINING ...........................................5 2.1.......................................................... CLASSIFICATION ....................................................................................5 2.2...................................................... ALGORITMA BAYES ....................................................................................5 2.3......................................................... DECISSION TREE ....................................................................................6 2.4.................................................................. PERKIRAAN ....................................................................................7 2.5..................................................................... PREDIKSI ....................................................................................7 2.6....................................................... ATURAN ASOSIASI ....................................................................................8 2.7...................................................................... KLASTER ....................................................................................8 3. BAGIAN-BAGIAN DATA MINING ........................................9 3.1................................................................. WEB MINING ....................................................................................9 3.2............................................................... TEXT MINING ..................................................................................10 4. HUBUNGAN DATA MINING DENGAN STATISTIKA ............11 4.1...................................................... CLUSTER ANALYSIS ..................................................................................12



4



4.2.......................................................... REGRESI LINEAR ..................................................................................12 4.3.................................................................... KORELASI ..................................................................................12 4.4........................................................ ANALISIS FAKTOR ..................................................................................13 4.5.................................................... POHON KEPUTUSAN ..................................................................................13 4.6......................................................... JARINGAN SARAF ..................................................................................14 4.7......................................................... MODEL ASOSIASI ..................................................................................14 5. APLIKASI DATA MINING ..................................................15 5.1....................... APLIKASI DATA MINING DI PERBANKAN ..................................................................................15 5.2................................ APLIKASI DATA MINING DI RETAIL ..................................................................................15 5.3........................ APLIKASI DATA MINING DI KESEHATAN ..................................................................................16 5.4............... APLIKASI DATA MINING DI TELEKOMUNIKASI ..................................................................................16 BAB III PENUTUP 3.1.................................................................... KESIMPULAN .......................................................................................18 3.2.............................................................................. SARAN .......................................................................................18 DAFTAR PUSTAKA ................................................................19



5



6



7



BAB I PENDAHULUAN 1. Latar Belakang Orang-orang telah mencatat dan mengekstraksi pengetahuan dari sekumpulan data sejak awal peradaban. Gambar-gambar yang terdapat pada dinding-dinding di gua Arles, tulisan-tulisan kuno pada lempengan tanah liat yang mendokumentasikan bongkar muat kapal pada zaman Babilonia kuno, dan batu Rosetta merupakan beberapa contoh yang menggambarkan karakteristik manusia dalam memahami dunia melalui catatancatatan simbolis atau numeris. Gambar-gambar pada dinding gua merupakan catatan yang menceritakan pengalaman mereka sehari-hari di zaman itu, seperti kehidupan, kematian, masa perburuan, masa panen, merayakan hari besar (berpesta), dan masa berkeluarga. Tulisan-tulisan kuno pada lempengan tanah liat merupakan catatan mengenai rincian aktivitas perdagangan mereka di zaman itu, seperti mengukur bobot dan menghitung jumlah batu berharga atau menghitung jumlah dan volume dari amphorae yang diisi dengan minyak zaitun. Sedangkan batu Rosetta membuka jalan dalam memecahkan makna dari tulisan hieroglif milik bangsa Mesir. Di



manapun



menggambarkan



dan dan



kapanpun, mencatat



orang-orang



peristiwa-peristiwa



selalu pada



kehidupannya dalam berbagai media perekaman. Pelaku data mining



yang



pertama



kali



mencatat



peristiwa



dalam



kehidupannya melalui gambar-gambar yang dibuat pada dinding gua untuk menggambarkan dan memprediksi aktivitas manusia di masa itu. Di wilayah Laut Mediterania kuno, orang-orang telah dapat menggambarkan dan memprediksi pola perdagangan dan



1



akibat dari cuaca yang berubah-ubah terhadap hasil panen dari pohon zaitun. Catatan-catatan yang mereka buat di lempengan tanah liat sebenarnya merupakan cikal bakal dari lahirnya sistem database modern. Kemajuan



dalam



akuisisi



data



digital



dan



teknologi



penyimpanan telah berdampak pada berkembangnya database yang menjadikannya berukuran sangat besar. Hal ini telah terjadi di segala bidang yang ditekuni oleh manusia, mulai dari bidang umum (data transaksi supermarket, rekaman penggunaan kartu kredit, rincian panggilan telepon, dan statistik pemerintahan) hingga bidang yang lebih khusus (citra benda-benda luar angkasa, database molekular, dan rekam medis). Kini, ukuran database telah mencapai satuan terabytes yang berarti telah mencapai lebih dari 1.000.000.000.000 bytes data. Di dalam data berukuran sangat besar ini terdapat informasi tersembunyi yang sangat berharga. Sehingga tidak mengherankan jika kini perhatian telah bergeser dari perekaman data ke ekstraksi informasi berharga yang dapat dimanfaatkan oleh pemilik database. Ketika terdapat banyak sekali pohon di suatu hutan, bagaimana cara memperoleh gambaran yang berarti mengenai hutan tersebut? Hal tersebutlah yang dilakukan oleh data mining. Ketika tersedia data yang jumlahnya sangat besar, data mining digunakan untuk memperoleh informasi berharga dari kumpulan data tersebut. Dalam beberapa tahun terakhir, data mining telah menarik sejumlah



besar



perhatian



dalam



industri



informasi



dan



masyarakat secara keseluruhan, karena ketersediaan sejumlah besar data yang beragam dan kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna. Informasi dan pengetahuan yang dihasilkan dapat digunakan



2



untuk berbagai aplikasi, mulai dari analisis pasar, deteksi penipuan, retensi pelanggan, mengendalikan produksi, dan eksplorasi ilmu pengetahuan. Data mining dapat dipandang sebagai hasil evolusi alami dari statistical



computing,



market



research/cognitive



science,



artificial inteligence, executive information/decision support, data warehousing, dan business intelligence/OLAP . Industri sistem database telah menjadi saksi mata dari jalur evolusioner dalam pengembangan kemampuan-kemampuan seperti koleksi data dan pembuatan database, manajemen data (termasuk penyimpanan dan pencarian data, dan pengolahan transaksi database), dan analisis data lanjutan (meliputi data mining dan data warehouse). Lalu apakah data mining itu ? disini, saya sebagai penulis ingin mengulas tentang data mining bukan sebatas hanya untuk memenuhi tugas mata kuliah bahasa Indonesia. Melainkan, sudah sejak lama saya tertarik dengan bidang statistika yang satu ini. 2. Rumusan Masalah Berdasarkan



latar



belakang



diatas



maka



dapat



ditarik



rumusan masalahnya yaitu sebagai berikut : 1. Apa itu data mining ? 2. Apa saja teknik-teknik data mining ? 3. Apa saja yang termasuk ke dalam bagian data mining ? 4. Mengapa data mining dikaitkan dengan ilmu statistika? 5. Apa saja yang diaplikasikan menggunakan data mining? 3. Tujuan Penulisan Berdasarkan rumusan masalah diatas, maka didapatkan bahwa tujuan dari penulisan makalah ini ialah sebagai berikut : 1) Untuk mengetahui apa itu data mining. 2) Untuk mengetahui teknik yang digunakan dalam data mining.



3



3) Untuk mengetahui bagian apa saja yang ada didalam data mining. 4) Untuk mengetahui alasan mengapa data mining identik dengan ilmu statistika. 5) Untuk dapat mengetahui pengaplikasian data mining dalam kehidupan.



BAB II PEMBAHASAN 1. Pengertian Data Mining Pada dasarnya terdapat beragam macam mengenai definisi dari data mining itu sendiri. Pada bagian ini dicantumkan beberapa pendapat mengenai apa sebenarnya yang dimaksut dengan data mining yang diperoleh dari berbagai sumber berbeda.



4



Data Mining memang salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena data mining menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dsb. Ada pihak yang berpendapat bahwa data mining tidak lebih dari machine learning atau analisa statistik yang berjalan di atas database. Namun pihak lain berpendapat bahwa database berperanan penting di data mining karena data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan disini terlihat peran penting database terutama dalam optimisasi query-nya. Jika berbicara mengenai data mining banyak pihak yang mengkaitkan bahwa data mining berhubungan erat dengan dunia pertambangan, tambang emas, tambang timah, dan sebagainya. Namun, apakah iya seperti itu?. Menurut Han and Kamber, secara sederhana, data mining mengacu



pada



pernyataan



“ekstraksi



atau



menggali



pengetahuan dari sejumlah data yang besar”. Istilah lain yang juga mengacu pada data mining adalah knowledge mining from data (penggalian pengetahuan dari data), knowledge extraction (ekstraksi



pengetahuan),



data/pattern



analysis



(analisis



data/pola), data archaelogy (arkeologi data), dan data dredging (pengerukan data). Selain istilah-istilah tersebut, istilah lain yang juga populer sebagai sinonim dari data mining adalah knowledge discovery from data (KDD). Menurut McCue, data mining memiliki banyak istilah seperti knowledge



management,



making. Data mining



knowledge



discovery,



dan



sense



merupakan suatu aktivitas ekstraksi



informasi yang bertujuan untuk mengungkapkan fakta-fakta tersembunyi yang terdapat pada suatu database. Dengan kata



5



lain, data mining melibatkan analisis sistematis dari himpunan data yang sangat besar dengan menggunakan metode otomatis. Dengan



penggalian



data,



sangat



dimungkinkan



untuk



membuktikan maupun menyanggah hipotesis yang ada atau ideide mengenai suatu data atau informasi, ketika menemukan informasi baru atau informasi yang sebelumnya tidak diketahui. Secara khusus, hubungan yang unik dan berharga yang terdapat pada data dapat diidentifikasi dan digunakan secara proaktif untuk mengkategorikan atau mengantisipasi data tambahan. Melalui penggunaan exploratory graphics yang dikombinasikan dengan advanced statistics, machine learning tools, dan artificial intelligence, bongkahan informasi penting dapat digali dari repositori data yang berukuran besar. 2. Teknik-Teknik Data Mining Didalam data mining mengenal beberapa teknik dasar dalam memahami tentang data mining. Teknik-teknik data mining itu ialah : 2.1.



Classification



Classification adaah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut. Salah satunya adalah class attribute. Classification salah satu metode yang paling umum pada data mining. Persoalan bisnis sperti



Churn



Analysis,



dan



Risk



melibatkan metode Classification.



Management



biasanya



Ada beberapa teknik juga



yang masuk kedalam teknik classification diantaranya yaitu decission tress, neural network, dan naives bayes (algoritma bayes). 2.2.



Algoritma Bayes



Naïve Bayes adalah salah satu algoritma pembelajaran induktif yang paling efektif dan efisien untuk machine learning



6



dan data mining. Klasifikasi adalah tugas yang penting dalam data mining, dalam klasifikasi, sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah ditemukan sebelumnya. Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data yang bias, sehingga untuk bentuk data semacam



ini



salah



satu



metode



sederhana



yang



dapat



statistic



untuk



digunakan adalah metode bayes. Metode



Bayes



merupakan



pendekatan



melakukan inferensi induksi pada persoalan klasifikasi. Metode Bayes menggunakan probabilitas bersyarat sebagai dasarnya. Dalam ilmu probabilitas bersyarat dinyatakan sebagai berikut :



Gambar 2.1



Rumus



probabilitas



bayesian



Gambar 2.2 Diagram lingkaran bayesian



Probabilitas X di dalam Y adalah probabilitas interseksi X dan Y dari probabilitas Y, atau dengan bahasa lain P(X|Y) adalah prosentase banyaknya X di dalam Y. 2.3.



Decission Tree



Decision tree (pohon keputusan) adalah alat pendukung keputusan yang menggunakan pohon. Seperti grafik atau model keputusan dan kemungkinan konsekuensi mereka, termasuk hasil



7



peristiwa kebetulan, biaya sumber daya, dan utilitas. Decision tree biasanya digunakan dalam operations research (penelitian operasional),



khususnya



dalam



decision



analysis



(analisis



keputusan), untuk membantu mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Lain yang menggunakan decision tree adalah sebagai alat deskriptif untuk menghitung probabilitas



kondisional.



Dalam



analisis



keputusan,



sebuah



“Decision tree” digunakan sebagai visual dan alat pendukung keputusan analisis, di mana nilai-nilai yang diharapkan (atau utilitas yang diharapkan) dari alternatif bersaing dihitung. 2.4.



Perkiraan (Estimation)



Perkiraan berkaitan dengan nilai hasil yang berkelanjutan. Diberikan sejumlah data masukan, perkiraan digunakan untuk memunculkan nilai dari beberapa variabel kontinyu yang nilainya tidak diketahui seperti pendapatan atau jumlah saldo kartu kredit. Beberapa contoh dari perkiraan, yakni : a



Memperkirakan jumlah anak dalam suatu keluarga berdasarkan data riwayat pendidikan sang ibu



b



Memperkirakan total pendapatan yang dimiliki oleh suatu rumah tangga berdasarkan data kendaraan yang dimiliki oleh keluarga tersebut



c



Memperkirakan nilai jual dari sebuah real estate berdasarkan data jarak kedekatan antara lokasi real estate dari pusat bisnis utama di perkotaan. 2.5.



Prediksi (Prediction)



Prediksi apapun dapat dianggap sebagai klasifikasi atau perkiraan. Namun perbedaannya terletak pada hal apa yang menjadi perhatian. Ketika data mining digunakan untuk mengklasifikasikan saluran telepon yang penggunaan utamanya adalah untuk mengakses internet atau transaksi kartu kredit yang diklasifikasikan sebagai penipuan, tidak pernah terpikirkan apakah klasifikasi tersebut benar atau tidak. Klasifikasi yang dilakukan bisa jadi bernilai benar atau salah. Namun, ketidakpastian biasanya hanya disebabkan oleh pengetahuan yang tidak lengkap. Prediksi menjadi tugas yang terasa berbeda karena rekaman-rekaman data diklasifikasikan menurut beberapa perilaku masa depan yang telah diprediksi atau 8



nilai masa depan yang telah diperkirakan. Pada prediksi, satu-satunya cara untuk mengetahui tingkat akurasi dari klasifikasi adalah dengan cara menunggu dan mengamatinya. Contoh dari prediksi, di antaranya adalah : a



Memprediksi jumlah saldo yang akan ditransfer jika prospek kartu kredit dalam menerima transfer ditawarkan



b



Memprediksi pelanggan mana yang akan pergi / berpaling dalam enam bulan ke depan



c



Memprediksi pelanggan telepon yang akan memesan layanan tambahan seperti panggilan telepon tiga jalur atau kota suara Teknik apapun yang digunakan dalam klasifikasi maupun perkiraan dapat



digunakan di dalam melakukan prediksi dengan menggunakan contoh pelatihan di mana nilai dari variabel yang akan diprediksi telah diketahui, beserta dengan datadata historisnya. Data historis digunakan untuk membentuk suatu model yang menjelaskan perilaku yang sedang diteliti. Ketika model ini digunakan untuk aliran masukan, hasil yang diperoleh berupa prediksi dari perilaku yang akan terjadi di masa mendatang. 2.6.



Aturan Asosiasi (Association Rules)



Aturan asosiasi adalah suatu aturan yang menyiratkan hubungan asosiasi tertentu di antara suatu himpunan objek (seperti “terjadi bersama” atau “saling melibatkan satu sama lain”) dalam suatu database. Misalkan diberikan suatu himpunan transaksi, di mana setiap transaksi merupakan suatu himpunan literal (disebut item). Suatu aturan asosiasi merupakan sebuah ekspresi dalam bentuk X Y, di mana X dan Y adalah himpunan items. Makna intuitif dari aturan tersebut yakni, transaksi database yang mengandung X akan cenderung mengandung Y. Contoh dari aturan asosiasi adalah: “30% petani yang menanam gandum juga menanam kacang-kacangan; 2% dari keseluruhan petani menanam dua komoditas tersebut” Dari pernyataan tersebut, presentase 30% disebut confidence of the rule, dan 2% menyatakan support of the rule. Permasalahan dalam aturan asosiasi adalah untuk menemukan semua aturan asosiasi yang memenuhi spesifikasi user dalam hal minimum support dan minimum confidence constraints.



9



2.7.



Klaster (Clusterring)



Pengklasteran merupakan suatu tugas untuk membagi grup yang beragam menjadi sejumlah subgrup yang memiliki kemiripan atau klaster. Hal yang membedakan klaster dengan klasifikasi adalah pengklasteran tidak bergantung terhadap penentuan kelas awal. Dalam pengklasteran tidak terdapat pendefinisian kelas awal. Rekaman data dikelompokkan berdasarkan kemiripan yang terdapat antar data. Pengklasteran seringkali dilakukan sebagai langkah awal dalam membentuk pemodelan pada data mining. Sebagai contoh, pengklasteran dapat dijadikan sebagai langkah awal dalam melakukan segmentasi pasar, jika dibandingkan harus menerapkan aturan one-size-fits-all untuk menentukan jenis promosi terbaik untuk setiap klaster. 3. Bagian-Bagian Data Mining Dalam data mining mengenal beberapa bagian yaitu diantaranya web mining dan text mining. 3.1.



Web Mining



Web mining adalah sebuah integrasi beberapa teknologi, seperti data mining, statistik, informatika, dan sebagainya (Jicheng, 1999). Web mining adalah suatu aktifitas untuk menidentifikasi pola p yang terkandung dalam sebuah koleksi dokumen C, yang dapat dituliskan sebagai pemetaan . Definisi tersebut di atas menunjukkan bahwa web mining mempunyai kemiripan dengan data mining. Tetapi web mining memiliki karakteristik khusus, antara lain adalah sumber yang digunakan adalah dokumen web. Selain itu pola yang dapat diperoleh dari web mining adalah isi dari dokumen web atau struktur dari web, sebab sebuah dokumen web berisi informasi dan hyperlink. Penelitian web mining terintegrasi dengan berbagai macam penelitian disiplin ilmu pengetahuan lainnya seperti DataBase (DB), Data Mining, Information Retrieval (IR), Machine Learning (ML), Natural Language Process (NLP). Web mining dapat dibagi menjadi tiga kategori utama, yaitu: content mining, usage mining, dan structure mining. 10



Web content mining adalah suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video, metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung melakukan mining terhadap data, dan kedua melakukan pencarian serta mengimprove hasil pencarian seperti layaknya search engine. Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web melalui informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai tool yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log. Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage mining adalah untuk kustomosasi halaman berdasarkan profil pengguna, menentukan ketertarikan



pelanggan



terhadap



produk



tertentu,



dan



menentukan target market yang sesuai. Web struncture mining dikenal juga sebagai web log mining adalah teknik yang digunakan untuk menemukan struktur link dari



hyperlink



halaman



dan



web.



membangun



Salah



satu



rangkuman



manfaatnya



website adalah



dan



untuk



menentukan pagerank pada suatu halaman web. 3.2.



Text Mining



Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan



tools



analisis



yang



merupakan



komponen-



komponen dalam data mining yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan



11



informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu



pengkategorisasian



teks



(text



categorization)



dan



pengelompokan teks (text clustering). Permasalahan yang dihadapi pada text mining sama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise. Perbedaan di antara keduanya adalah pada data yang digunakan. Pada data mining, data yang digunakan adalah structured data, sedangkan pada text mining, data yang digunakan text mining pada umumnya adalah unstructured



data,



atau



minimal



semistructured.



Hal



ini



menyebabkan adanya tantangan tambahan pada text mining yaitu struktur text yang complex dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat. Salah satu elemen kunci dari text mining adalah kumpulan dokumen yang berbasis teks. Pada prakteknya, text mining ditujukan untuk menemukan pola dari sekumpulan dokumen yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan bahkan sampai jutaan. Koleksi dokumen bisa statis, dimana dokumen tidak berubah, atau dinamis, dimana dokumen selalu diupdate sepanjang waktu. Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang sering digunakan : a Character : merupakan komponan individual, bisa huruf, angka, karakter spesial dan spasi, merupakan



block



pembangun pada level paling tinggi pembentuk semantik



12



feature, seperti kata,term dan concept.Pada umumnya, representasi character-based ini jarang digunakan pada beberapa teknik pemrosesan teks. b Words c Terms : merupakan single word dan frasa multiword yang terpilih secara langsung dari corpus. Representasi termbased dari dokumen tersusun dari subset term dalam dokumen. d Concept : merupakan feature yang di generate dari sebuah dokumen secara manual, rule-based, atau metodologi lain. 4. Hubungan Data Mining dengan Statistika Data



mining



terlahir



lewat



statistik



yang



mendapatkan



tantangan untuk memecahkan permasalahan terkini yang lebih kompleks dan besar. Selain itu, di data mining juga ada tantangan untuk dapat menggunakan teknologi-teknologi yang terbaru (NoSQL, Map Reuce, dll) secara tepat guna. Permasalahan dalam mengabstraksi pengetahuan dari data telah ditemukan oleh ahli statistik, jauh sebelum paper pertama tentang kecerdasan buatan dipublikasikan. Contoh, analisis korelasi mengaplikasikan alat statistik untuk menganalisis korelasi antara dua atau lebih variabel. Analisis cluster menawarkan metode untuk menemukan cluster di set obyek besar yang digambarkan oleh vektor nilai. Analisis faktor mencoba untuk menunjukkan variabel yang paling penting yang menggambarkan cluster. Beberapa teknik populer yang digunakan untuk tugas-tugas klasifikasi tersebut adalah Linear Discriminants, Quadratic Discriminants, K-Nearest Neighbour, Naïve Bayes, Logistic Regression dan CART. Namun, dalam pengaplikasiannya statistik tidak bisa berdiri sendiri. Dibutuhkan machine learning sebagai teknologinya. Hal tersebut dikarenakan, seperti halnya tukang kayu menggunakan banyak peralatan untuk membangun rumah yang kokoh, seorang analis yang baik mempekerjakan lebih dari satu teknik untuk mengubah data menjadi informasi. Sebagian besar data miner melampaui dasar-dasar pelaporan dan OLAP (On-Line Analytical Processing, 13



juga dikenal sebagai multi-dimensi pelaporan) untuk mengambil pendekatan multi-metode yang mencakup berbagai teknik-teknik canggih. Beberapa di antaranya adalah teknik statistik sedangkan yang lain didasarkan pada kecerdasan buatan. Berikut teknik statistik yang digunakan dalam data mining : 4.1.



Cluster Analysis



Analisis Cluster adalah teknik reduksi data yang dikelompokkan bersamasama baik variabel atau kasus berdasarkan karakteristik data yang sama. Teknik ini berguna untuk menemukan segmen pelanggan berdasarkan karakteristik seperti informasi demografis dan keuangan atau perilaku pembelian. Misalnya, bank ingin mencari segmen pelanggan berdasarkan jenis rekening yang mereka buka. Sebuah analisis cluster dapat menghasilkan beberapa kelompok pelanggan. Bank kemudian mungkin mencari perbedaan jenis rekening dibuka dan perilaku, khususnya gesekan, antara segmen. Mereka kemudian mungkin memperlakukan segmen secara berbeda berdasarkan pada karakteristik ini. 4.2.



Regresi Linier



Regresi linier adalah metode yang cocok dengan garis lurus melalui data. Jika garis miring ke atas, itu berarti bahwa variabel independen seperti ukuran tenaga penjualan memiliki efek positif pada variabel dependen seperti pendapatan. Jika garis miring ke bawah, ada efek negatif. Makin curam kemiringan, variabel independen memiliki efek lebih pada variabel dependen. 4.3.



Korelasi



Korelasi adalah ukuran hubungan antara dua variabel. Sebagai contoh, korelasi yang tinggi antara pembelian produk tertentu seperti keju dan rackers menunjukkan bahwa produk ini kemungkinan akan dibeli bersama-sama. Korelasi dapat berupa positif atau negatif. Korelasi positif menunjukkan bahwa tingginya tingkat sebuah variabel akan disertai dengan nilai tinggi dari variabel yang berkorelasi. Sebuah korelasi negatif menunjukkan bahwa tingkat tinggi dari sebuah variabel akan disertai dengan nilai yang rendah dari variabel yang berkorelasi. Korelasi positif yang berguna untuk menemukan produk yang cenderung dibeli bersama-sama. Korelasi negatif dapat berguna untuk diversifikasi di pasar dalam portofolio strategis suatu perusahaan. Sebagai contoh,



14



sebuah perusahaan energi mungkin memiliki minat baik dalam gas alam dan bahan bakar minyak karena perubahan harga dan tingkat substitutabilitas mungkin berdampak pada permintaan untuk satu sumber daya di atas yang lain. Analisis korelasi dapat membantu perusahaan mengembangkan portofolio pasar untuk menyerap perubahan lingkungan seperti di pasar individu. 4.4.



Analisis Faktor



Analisis faktor adalah teknik reduksi data. Teknik ini mendeteksi faktor yang mendasari, juga disebut "variabel laten" dan menyediakan model untuk faktorfaktor ini didasarkan pada variabel dalam data. Sebagai contoh, jika tiga atribut seperti dukungan teknis, layanan pelanggan, dan ketersediaan pelatihan dibebankan semua sangat pada satu faktor, kita sebut faktor "layanan." Teknik ini dapat sangat membantu dalam menemukan karakteristik penting yang mendasari mungkin tidak mudah diamati, tetapi yang mungkin ditemukan sebagai manifestasi dari variabel yang dapat diamati. Aplikasi lain yang baik dari analisis faktor adalah untuk mengelompokkan berbagai produk berdasarkan kesamaan pola pembelian. Analisis faktor dapat membantu bisnis menemukan peluang untuk cross-selling dan bundling. Sebagai contoh, analisis faktor mungkin menunjukkan empat kelompok yang berbeda dari produk dalam sebuah perusahaan. Dengan pengelompokan produk, seorang marketer sekarang dapat merancang paket produk atau mencoba untuk cross-sell produk ke pelanggan di masing-masing kelompok yang tidak mungkin saat ini bisa membeli produk lainnya dalam kelompok produk. 4.5.



Pohon Keputusan



Pohon keputusan memisahkan data ke dalam seperangkat aturan yang cenderung memiliki efek yang berbeda pada variabel sasaran. Sebagai contoh, kita mungkin ingin mencari karakteristik orang yang cenderung untuk menanggapi secarik surat langsung. Karakteristik ini dapat diterjemahkan ke dalam seperangkat aturan. Pohon keputusan juga merupakan alat yang baik untuk menganalisis gesekan, menemukan peluang cross-selling, melakukan analisis promosi, menganalisa risiko kredit atau kebangkrutan, dan mendeteksi kecurangan. Pohon keputusan adalah pohon berbentuk struktur yang mewakili set



15



keputusan. Keputusan ini menghasilkan aturan, yang kemudian digunakan untuk mengklasifikasikan data. Pohon keputusan adalah teknik favorit untuk membangun model yang dapat dipahami. 4.6.



Jaringan Saraf



Jaringan saraf meniru otak manusia dan dapat belajar dari contoh-contoh untuk menemukan pola dalam data atau mengklasifikasikan data. Keuntungannya adalah bahwa hal itu tidak perlu memiliki model tertentu ketika menjalankan analisis. Juga, jaringan saraf dapat menemukan efek interaksi (seperti efek dari kombinasi usia dan jenis kelamin) yang harus secara eksplisit ditentukan dalam regresi. Kerugiannya adalah bahwa lebih sulit untuk menafsirkan model yang dihasilkan dengan lapisan bobot dan transformasi yang sulit dimengerti. Jaringan saraf berguna dalam memprediksi variabel target saat data sangat non-linear dengan interaksi, tetapi mereka tidak sangat berguna ketika hubungan ini perlu dijelaskan. Mereka dianggap alat yang baik untuk aplikasi seperti peramalan, skor kredit, skor respon model, dan analisis risiko. Jaringan saraf tiruan adalah nonlinear, model prediksi yang belajar melalui pelatihan. Meskipun mereka teknik pemodelan prediktif yang kuat, beberapa kekuatan datang dengan mengorbankan kemudahan penggunaan dan penyebaran. Satu area di mana auditor dapat dengan mudah menggunakannya adalah ketika meninjau catatan untuk mengidentifikasi penipuan tindakan seperti penipuan. Karena kompleksitas, mereka lebih baik digunakan dalam situasi di mana mereka dapat digunakan dan digunakan kembali, seperti meninjau transaksi kartu kredit setiap bulan untuk memeriksa anomali. 4.7.



Model Asosiasi



Model asosiasi memeriksa sejauh mana nilai-nilai dari satu field bergantung, atau diperkirakan oleh, nilai-nilai dari field lain. Asosiasi penemuan menemukan aturan tentang item yang muncul bersama-sama dalam sebuah peristiwa seperti transaksi pembelian. Aturan memiliki dukungan yang ditetapkan pengguna, confidence, dan panjang. Aturan menemukan hal-hal yang "pergi bersama-sama." Model ini sering disebut sebagai Market Basket Analysis ketika mereka diterapkan untuk industri retail untuk mempelajari pola beli pelanggan mereka.



16



Berdasarkan hal-hal tersebut maka diketahui bahwa hubungan antara statistika dengan data mining sangatlah jelas dikarenakan statistika berkaitan erat dengan sistem data mining itu sendiri. 5. Aplikasi Data Mining Dalam data mining terdapat pengaplikasian yang berguna bagi kehidupan sehari-hari, diantaranya yaitu sebagai berikut : 5.1.



Aplikasi di Bidang Perbankan



Data mining telah digunakan secara luas di pasar perbankan dan keuangan. Dalam perbankan industri, data mining sering digunakan untuk model dan memprediksi kredit penipuan, untuk mengevaluasi resiko,untuk melakukan analisis kecenderungan, dan untuk menganalisis profitabilitas, serta untuk membantu dengan pemasaran langsung kampanye. Di pasar keuangan, jaringan saraf telah digunakan dalam stok-harga peramalan,dalam perdagangan option, di peringkat obligasi, dalam manajemen portofolio, dalam prediksi harga komoditas, dalam merger dan akuisisi, serta dalam meramalkan bencana keuangan. Beberapa perusahaan keuangan yang menggunakan jaringan saraf dan telah dirujuk di Internet adalah Daiwa Securities, NEC Corporation, Carl & Associates, LBS Capital Management, Penasihat Investasi Walkrich, dan Saudara O'Sullivan Investasi. Jumlah perusahaan investasi yang menggunakan data mining sejauh lebih luas daripada sebelumnya, namun mereka tidak bersedia dirujuk. Salah satu buku yang menarik di bidang keuangan Pasar global Neural Networks di ibukota, diedit oleh Apostolos-Paul Refenes. Buku ini mengeksplorasi aplikasi ekuitas, aplikasi pertukaran mata uang asing, aplikasi bond, dan kinerja ekonomi makro dan perusahaan. 5.2.



Aplikasi Data-Mining di Retail



Margin Slim telah mendorong pengecer dalam merangkul data warehousing lebih awal dari industri lain. Pengecer telah melihat peningkatan pendukung keputusan proses mengarah langsung ke peningkatan efisiensi dalam manajemen persediaan dan peramalan keuangan. Penerapan awal data warehousing oleh pengecer telah memberi mereka kesempatan yang lebih baik untuk mengambil keuntungan dari data mining. Rantai ritel besar dan toko kelontong menyimpan



17



sejumlah besar titik-of-sale data yang merupakan informasi yang kaya. Di garis depan aplikasi yang telah diadopsi di ritel adalah aplikasi pemasaran langsung. Pemasar langsung seringkali peduli tentang segmentasi pelanggan, yang merupakan masalah clustering dalam data mining. Banyak vendor menawarkan paket segmentasi pelanggan. Sebagai contoh, satu perusahaan ritel dengan $ 2 miliar dalam pendapatan, 300.000 UPC kode, dan 129 toko di 15 negara menemukan beberapa hasil yang menarik setelah menganalisis informasi penjualan. Informasi tersebut digunakan untuk mengubah aktivitas promosi dan memberikan pemahaman yang lebih baik tentang bagaimana untuk lay out toko dalam rangka mengoptimalkan penjualan. 5.3.



Aplikasi Data-Mining di Kesehatan



Data mining telah digunakan sudah secara luas dalam industri medis. Misalnya, Sistem Neuro Medical menggunakan jaringan saraf untuk melakukan pap smear bantuan diagnostik. Vysisuses menggunakan jaringan saraf untuk melakukan analisis protein untuk pengembangan obat. The University of Rochester Cancer Center dan Pusat Transplantasi menggunakan Oxford Knowledge SEEKER, teknologi pohon keputusan, untuk membantu penelitian mereka. The Southern California Spinal Disorders Hospital menggunakan penemuan informasi untuk data mining. Penemuan informasi mengutip seorang dokter yang mengatakan “Saat ini sendirian, saya datang dengan diagnosis untuk pasien yang bahkan tidak harus melalui pemeriksaan fisik ". 5.4.



Aplikasi Data-Mining di Telekomunikasi



Dalam beberapa tahun terakhir, industri telekomunikasi telah mengalami salah satu makeover paling dramatis dari industri apapun. AS Telekomunikasi Act of 1996 Perusahaan diperbolehkan Operasi Bell Daerah (RBOCs) untuk memasuki pasar jarak jauh dan menawarkan "cablelike" layanan. The Liberalisasi Eropa Jasa Telekomunikasi, efektif 1 Januari 1998, liberalisasi jasa telekomunikasi di Eropa, dan menawarkan kompetisi penuh di antara negara-negara Eropa yang berpartisipasi. Enam puluh delapan negara liberalisasi pasar telekomunikasi mereka pada tanggal 1 Januari 1998 sampai bertepatan dengan komitmen Eropa berdasarkan Perjanjian Telekomunikasi Organisasi Perdagangan Dunia.



18



Tidak hanya telah ada deregulasi yang besar-besaran, namun di Amerika Serikat, telah terjadi aksi jual oleh FCC dari gelombang radio kepada perusahaan pelopor dengan cara baru untuk berkomunikasi. Industri seluler dengan cepat mengambil langkah sendiri. Data visualisasi daerah lain dengan menggunakan strategi banyak telekomunikasi. Gambar 4.1 menunjukkan peta, yang diciptakan oleh



Pemberdayaan



Geographics



®



menggunakan



teknologi



menunjukkan area masalah untuk jaringan telekomunikasi nirkabel.



BAB III PENUTUP 19



MapInfo,



3.1.



Kesimpulan



Berdasarkan hal yang telah dipaparkan diatas maka dengan ini dapat ditarik kesimpulan yaitu : a) Data mining adalah serangkaian proses untuk menggali nilai



tambah



dari



suatu



kumpulan



data



berupa



pengetahuan yang selama ini tidak diketahui secara manual, juga diartikan sebagai analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya b) Disamping



memiliki



kemampuan,



data



mining



juga



memiliki keterbatasan yang tidak bisa dilakukannya. c) Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. 3.2.



Saran



Tulisan ini masih butuh pengembangan, karenanya kritik dan saran yang sifatnya membangun tetap penulis nantikan.



20



DAFTAR PUSTAKA de Ville, Barry. 2001. The Discovery and Delivery of Knowledge for Effective Enterprise Outcomes: Knowledge Management. Sidney: DigitalPress. Dr. Rajni Jain, Introduction to Data Mining Techniques. Tersedia online : http://www.iasri.res.in/ebook/expertsystem/DataMining.pdf.



Diakses



tanggal : 22 Oktober 2016. Rezqiwati. Data Mining – Proses Tahapan dan Penerapannya. Tersedia online : https://rezqiwati.wordpress.com/2009/04/24/data-mining-%E2%80%93proses-tahapan-dan-penerapannya/. Diakses tanggal : 22 Oktober 2016. http://en.wikipedia.org/wiki/Data_mining. Diakses tanggal : 22 Oktober 2016.



21