Tugas Personal Ke-2 Week 7: Klasifikasi Clustering [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

Tugas Personal ke-2 Week 7 Jawablah soal berikut dengan benar! A. Soal Essay. 1. Apa yang yang dimaksud dengan clustering dan yang membedakan clustering dengan klasifikasi? 2. Algoritma penjadwalan yang dimiliki oleh Hadoop adalah? Jelaskan dengan contoh penerapannya 3. Spark resilient distributed dataset (RDD) mendukung dua jenis operas i, sebut dan jelaskan? 4. Jelaskan Teknik Analisa untuk penggunaan big data? 5. Apa yang dimaksud dengan analisi batch? Serta berikan contoh tools yang menggunakan konsep tersebut? 6. Apakah perbedaan antara Analisa kualitatif, kuantitatif dan Analisa statistic? Jawab: 1. Clustering adalah sejumlah besar komputer yang saling berhubungan dan bekerja sama sebagai satu sistem. Clustering digunakan untuk pengelompokkan data berdasarkan kemiripan pada objek data dan sebaliknya meminimalkan kemiripan terhadap kluster yang lain. Sedangkan klasifikasi adalah pemprosesan untuk menemukan sebuah model atau fungsi yang menjelaskan dan mencirikan konsep atau kelas data, untuk kepentingan tertentu. Secara detail, perbedaannya dapat dilihat pada uraian berikut: Klasifikasi Klasifikasi bertujuan untuk memetakan satu titik data ke dalam satu kelas yang telah ditentukan sebelumnya Memiliki kelas target/label. Klasifikasi dilakukan secara supervised, artinya algoritma pemelajaran untuk melakukan klasifikasi diberikan contoh titik data dan kelas apa seharusnya titik data tersebut dipetakan. Kelas atau Label akan menjadi patokan pengelompokkan data Diperlukan data latih (training set) dan data uji (testing set) untuk memverifikasi model yang dibuat Lebih kompleks karena adanya pembagian dataset, validasi dan



Clustering Clustering bertujuan untuk mengelompokan titik-titik data yang berdekatan dan mimisahkannya dengan kelompok-kelompok lain yang berjauhan dalam suatu ruang Tidak memiliki kelas target/label. Clustering dilakukan secara unsupervised, artinya tidak ada contoh bagaimana seharusnya mengelompokan titik-titik tersebut. Clustering akan mengelompokkan data berdasarkan kemiripan fiturfiturnya Tidak membutuhkan data latih dan data uji Hanya melakukan pengelompokkan data



COMP6725 - Big Data Technologies



evaluasi model Domain dari sebuah fungsi klasifikasi f(x) adalah sebuah titik data x∈Rn Contoh algoritma untuk klasifikasi adalah Logistic Regression, Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Naïve Bayes Classifier, dan lainlain



Domain dari sebuah fungsi clustering f(X) adalah sebuah himpunan titik data X={x1,…,xi} pada sebuah ruang, salah satunya adalah Rn Contoh algoritma untuk clustering adalah K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), dan sebagainya



2. Algoritma penjadwalan yang dimiliki oleh Hadoop adalah: - FIFO Scheduling Algoritma FIFO merupakan default yang digunakan oleh Hadoop pada proses penjadwalan. Algoritma ini mengatasi permasalahan antrian pada job dengan cara menjalankan sebuah job yang datang untuk pertama kali. Algoritma FIFO tidak menangani adanya skala prioritas dan perhitungan long jobs atau short jobs . Sehingga mengakibatkan penggunaan algoritma FIFO kurang efektif. Pada implementasi algoritma FIFO dalam server berskala besar, algoritma FIFO dapat menurunkan performansi dari sisi server terutama pada sistem yang mempunyai layanan sharing data pada multiple-user . - Delay Scheduling Delay Scheduling tidak menggunakan mekanisme FIFO yang memindahankan data pada virtual hard disk yang ada pada Hadoop dan memerlukan sinkronisasi terhadap data yang dipakai. Sehingga beberapa perpindahan Resource ini membuat job mengalami fail dan dilakukan pengulangan job tidak digunakan karena pada awal job dibuat, Delay Scheduling sudah membagi Resource data terhadap pool yang sesuai dengan Resource data yang ada pada virtual hard disk Hadoop karena konfigurasi pool merupakan karakterisktik dari Fair Scheduler yang dimodifikasi dengan algoritma Delay Scheduling. Selain itu Delay Scheduler akan menggunakan metode menunda jalannya jobs selanjutnya untuk memperbaiki data lokalitas sebelumnya. Sehingga dapat meminimalkan Response Time dan memaksimalkan Job Throughput. - Fair Scheduler Fair Scheduler mengalokasikan sumber daya secara merata di antara banyak pekerjaan dan juga memberikan jaminan kapasitas. Fair Scheduler menetapkan sumber daya ke pekerjaan sedemikian rupa sehingga setiap pekerjaan mendapat bagian yang sama dari sumber daya yang tersedia secara rata-rata dari waktu ke waktu. Tidak seperti penjadwal FIFO, yang membentuk antrian pekerjaan, Fair Scheduler memungkinkan pekerjaan pendek selesai dalam waktu yang wajar tanpa membuat pekerjaan panjang kelaparan. Fair Scheduler berguna ketika kluster Hadoop kecil atau besar dibagikan di antara beberapa grup pengguna dalam suatu organisasi. Meskipun Fair Scheduler memastikan keadilan dengan mempertahankan satu set kumpulan dan menyediakan kapasitas yang dijamin untuk setiap kumpulan, itu tidak memberikan jaminan waktu apa pun dan karenanya tidak dilengkapi dengan baik untuk pekerjaan waktu nyata.



Week 7 ©Arif



2|4



3. Spark resilient distributed dataset (RDD) mendukung dua jenis operas i sebagai berikut: a. Transformasi: Transformasi digunakan untuk membuat kumpulan data baru dari yang sudah ada. b. Actions: Tindakan mengembalikan nilai ke program driver setelah menjalankan komputasi pada kumpulan data. 4. Teknik Analisa untuk penggunaan big data: a. Analisis Kuantitatif Data kuantitatif adalah data yang didasarkan pada angka. Analisis kuantitatif dalam big data adalah analisis data kuantitatif. Tujuan utama dari jenis analisis statistik ini adalah kuantifikasi. Hasil dari populasi sampel dapat digeneralisasikan ke seluruh populasi yang diteliti. Berbagai jenis data kuantitatif yang digunakan untuk analisis kuantitatif adalah data nominal, data ordinal, data interval dan data rasio. b. Analisis Kualitatif Analisis kualitatif dalam data besar adalah analisis data dalam pengaturan alami mereka. Data kualitatif adalah data yang tidak mudah direduksi menjadi angka. Cerita, artikel, komentar survei, transkripsi, percakapan, musik, grafik, seni, dan gambar adalah data kualitatif. Analisis kualitatif pada dasarnya menjawab pertanyaan “bagaimana”, “mengapa”, dan “apa”. Pada dasarnya ada dua pendekatan dalam analisis data kualitatif, yaitu pendekatan deduktif dan pendekatan induktif. Analisis deduktif dilakukan dengan menggunakan pertanyaan penelitian untuk mengelompokkan data yang diteliti dan kemudian dicari persamaan atau perbedaannya. Pendekatan induktif dilakukan dengan menggunakan kerangka penelitian yang muncul untuk mengelompokkan data dan kemudian mencari hubungan di dalamnya. Sebuah analisis kualitatif memiliki tipe dasar yaitu Content analysis, Analisis naratif, Discourse analysis, Framework analysis dan Grounded theory. c.



Analisis Statistik Analisis statistik menggunakan metode statistik untuk menganalisis data. Adapun teknik analisis statistik yang adalah Pengujian A/B, Korelasi (positif, negatif dan tidak ada korelasi) dan Regresi.



5. Analisis Batch adalah teknik dimana data yang akan diproses atau program yang akan dijalankan dikumpulkan menjadi beberapa kelompok agar pemrosesan data lebih nyaman, efisien, dan cepat. Dengan metode ini, pemrosesan yang dilakukan oleh komputer dilakukan secara berkala, pada interval waktu tertentu, seperti minggu, bulan, dan sebagainya. Contohnya adalah data transaksi harian dapat diproses secara batch atau kelompok pada setiap minggu. Keuntungan batch processing adalah ekonomis untuk volume data besar, sedangkan kekurangan dari metode ini adalah membutuhkan proses filtering sebelum diproses, dalam beberapa kasus bisa mengurangi ketepatan waktu, dan membutuhkan organisasi file yang berurutan. Blok analitik batch di tumpukan data besar mencakup berbagai kerangka kerja yang memungkinkan analisis data dalam kumpulan. Ini termasuk yang berikut: a. Hadoop-MapReduce: Hadoop adalah kerangka kerja untuk pemrosesan batch terdistribusi dari data besar. Model pemrograman MapReduce



Week 7 ©Arif



3|4



digunakan untuk mengembangkan pekerjaan analisis batch yang dieksekusi di cluster Hadoop. b. Pig: Pig adalah bahasa pemrosesan data tingkat tinggi yang memudahkan pengembang untuk menulis skrip analisis data yang diterjemahkan ke dalam program MapReduce oleh kompiler Pig. c. Oozie: Oozie adalah sistem penjadwal alur kerja yang memungkinkan pengelolaan tugas Hadoop. Dengan Oozie, Anda dapat membuat alur kerja yang merupakan kumpulan tindakan (seperti pekerjaan MapReduce) yang disusun sebagai Grafik Acyclic Langsung (DAG). d. Spark: Apache Spark adalah kerangka kerja komputasi cluster opensource untuk analisis data. Spark mencakup berbagai alat tingkat tinggi untuk analisis data seperti Spark Streaming untuk tugas streaming, Spark SQL untuk analisis data terstruktur, perpustakaan pembelajaran mesin MLlib untuk Spark, dan GraphX untuk pemrosesan grafik. e. Solr: Apache Solr adalah kerangka kerja scalable dan open-source untuk mencari data. f. Machine Learning: Spark MLlib adalah perpustakaan machine learning Spark yang menyediakan implementasi berbagai algoritme machine learning. H2O adalah kerangka kerja analitik prediktif sumber terbuka yang menyediakan implementasi berbagai algoritme machine learning. 6. Analisa kuantitatif mengolah data berupa angka, analisa kualitatif mengolah data yang tidak mudah direduksi menjadi angka, analisa statistik dapat mengolah data berupa angka maupun data dari kualitatif.



Sumber: https://id.quora.com/Apa-perbedaan-antara-clustering-dan-classification-dalampembelajaran-mesin-machine-learning http://journal.uin-alauddin.ac.id/index.php/instek/index



Week 7 ©Arif



4|4