Big Data Iinii PDF [PDF]

  • Author / Uploaded
  • ajie
  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

FM-BINUS-AA-FPU-579/R3



BINUS University Semester: Odd / Even *) Period: 1/ 2 *)



BINUS ONLINE LEARNING 



Graduate Program







Final Exam



Faculty / Dept.







Undergraduate Program







Others Exam:



: Binus Online Learning/ Computer Science



Academic Year: 2021/2022



Student ID : 2401967201 : COMP6725036 – Big Data Technologies : Senin – Senin/ 23 – 30 Mei 2022 : Bekasi, Bandung, Jakarta, Malang, Palembang, N a m e :Loni Miranda Doloksaribu Semarang Class : MBFE; MCEE; MDBEE; MBEE; MBCE Time : 00.00 – 12.00 WIB Signature : Exam Feature : Open/ Close Books*) Equipment : Exam Booklet / Calculator / Laptop ) ) Strikethrough the unnecessary items Please insert this test paper into the exam booklet and submit both documents after the test!!! The penalty for CHEATING is DROP OUT!!! Course Day/ Date BULC



PETUNJUK UJIAN i. ii. iii. iv.



Jawablah setiap pertanyaan yang berada pada bagian PERTANYAAN UJIAN dibawah ini Jawaban di ketik rapi pada halaman JAWABAN UJIAN dibawah ini Jawaban dikumpulkan paling lambat tanggal 30 Mei 2022 dalam bentuk file dan submit melalui portal ujian Format file Jawaban adalah : KodeMatakuliah-Nama Matakuliah-NIM.pdf Contoh : COMP6725036– Big Data Technologies -2012345678.pdf



PERTANYAAN UJIAN No. 1. 2. 3.



4.



5.



Deskripsi Soal Bobot Apa yang dimaksud Big Data? Apa keunggulan menerapkan konsep Big Data bagi 20 perusahaan/bisnis? Deskripsikan dan gambarkan arsitektur umum dari Big Data serta jelaskan fungsi dari masing masing layer pada arsitektur tersebut. Ada dua model pemrograman di Big Data Ecosystem yaitu Map Reduce dan Spark, apa 15 saja kesamaan dan perbedaan diantara keduanya? Jelaskan dengan deskripsi dan gambar mengapa Spark mengungguli Map Reduce dalam waktu eksekusi? 25 Berikan contoh implementasi Big Data di mana stream processing diperlukan dalam langkah konsumsi data atau analisis data. Komponen ekosistem Big Data apa yang dapat diimplementasikan dalam kasus tersebut?. Jelaskan mengapa kemampuan stream processing diperlukan dalam hal ini, apa dampaknya jika batch processing digunakan? Hadoop menyediakan dua bahasa scripting yaitu, PIG dan HiveQL untuk membantu 25 pengembang aplikasi Big Data untuk mengembangkan program yang menggunakan model pemrograman Map Reduce. Apa yang Anda ketahui tentang dua bahasa scripting? Apa kelebihan dan kekurangan pig dan HiveQL? Sebutkan dan jelaskan yang dimaksud dengan NoSQL. Sebutkan NoSQL database yang 15 umum digunakan pada teknologi Big Data. Jelaskan juga karakteristik masing masing NoSQL database tersebut dari sisi model data, query, penggunaan dan contoh perangkat lunaknya.



Page 1 of 1



FM-BINUS-AA-FPU-579/R3



JAWABAN UJIAN



1. A. Defisini Big Data Big Data didefinisikan sebagai kumpulan kumpulan data yang volume, kecepatan, atau variasinya sangat besar sehingga sulit untuk menyimpan, mengelola, memproses, dan menganalisis data menggunakan basis data tradisional dan alat pemrosesan data. Big Data merupakan suatu konsep teknologi informasi yang mengumpulkan data dalam skala yang besar yang terdiri dari berbagai macam jenis, meliputi data terstruktur, semi terstruktur dan tidak terstruktur. Data yang terstruktur merupakan jenis data dengan format tetap yang tersimpan dalam satu platform, contohnya data gaji karyawan yang dibuat di spreadsheet dan tersimpan pada Excel. Data semi terstruktur merupakan daata yang memiliki format tetap tetapi memerlukan platform khusus untuk membukanya. Dan yang terakhir data tidak terstruktur merupakan jenis data dengan format yang berbeda-beda yang memerlukan platform khusus seperti database SQL untuk mengakses dan membaca nilainya, contoh yang sering ditemukan di media sosial seperti komentar, like dan sebagainya. Big Data merupakan semua kumpulan data dengan skala yang sangat besar. Big Data dihimpun oleh suatu organisasi tertentu yang biasanya data tersebut akan dipakai di dalam berbagai program aplikasi. Big Data memiliki tiga karakter dasar yaitu Volume, Variety dan Velocity. B. keunggulan menerapkan konsep Big Data bagi perusahaan/bisnis Ada beberapa keunggulan penerapan Big Data bagi suatu perusahaan.  Big Data dapat membantu perusahaan untuk memahami lebih jauh mengenai user, sehingga perusahaan streaming besar sepert Netflix, Disney+ dan Amazon Prime sangat serius dalam mengumpulkan datanya. Setiap klik, like, hingga swipe up pada konten bisa menjadi acuan keputusan bisnis.  Membantu karyawan dan pemilik perusahaan dalam meningkatkan penjualan bisnis dan beradaptasi dengan trend yang terjadi di dunia era sekarang dan masa depan  Agar produk atau jasa yang disediakan oleh perusahaan bisa cepat sampai ke pasar, memastikan target customer tetap puas, sesuai tidak nya target customer antara plan bisnis dan data real-time, dan lain sebagainya  Big Data sangat bisa membantu perusahaan untuk beradaptasi mengetahui pangsa pasar lebih real-time atau saat itu juga yang mencakup customer, kompetitor, trend, dan value produk atau jasa yang sesuai dengan pasar  Perusahaan bisa mendapatkan insight secara real-time, bisa digunakan untuk membentuk grafik interaktif sebagai alat pemantau, dan bisa didapatkan melalui berbagai sumber  Menurut ilmuwan data dan pendiri dari Fast Forward Labs, Hilary Mason, keunggulan Big Data yang paling utama adalah memberitahu kita tentang dunia yang belum diketahui sebelumnya. Big Data kemudian dapat membantu perusahaan untuk menemukan suatu pattern, menyampaikan cerita hingga memahami dunia sekitarnya dengan lebih mendalam. C. Arsitektur umum dari Big Data



Arsitektur Big Data membantu merancang PipelineData dengan berbagai persyaratan baik dari Sistem Pemrosesan Batch atau Sistem Pemrosesan Aliran. Fungsi dari masing masing layer pada arsitektur tersebut adalah :  Ingestion Layer Lapisan Arsitektur Big Data ini adalah langkah pertama untuk data yang berasal dari sumber variabel untuk memulai perjalanannya. Ingestion layer berarti data diprioritaskan dan dikategorikan, membuat aliran data lancar di lapisan lebih lanjut dalam aliran proses penyerapan data.  Visualization Layer Visualisasi, atau tingkat presentasi, mungkin tingkat yang paling bergengsi, di mana pengguna alur data mungkin merasakan nilai data. Kita membutuhkan sesuatu yang akan menarik perhatian orang, menarik mereka ke dalam, membuat temuan Anda dipahami dengan baik.  Data Collector Layer Dalam Lapisan ini, lebih fokus adalah pada transportasi data dari lapisan penyerapan ke sisa pipa data. Ini adalah Lapisan arsitektur data di mana komponen dipisahkan sehingga kemampuan analitik dapat dimulai.  Data Processing Layer Dalam lapisan utama Arsitektur Big Data ini, fokusnya adalah untuk mengkhususkan diri dalam sistem pemrosesan pipa data. Kita dapat mengatakan data yang telah kita kumpulkan di lapisan sebelumnya diproses di lapisan ini. Di sini kita melakukan beberapa sihir dengan data untuk mengarahkan mereka ke tujuan yang berbeda dan mengklasifikasikan aliran data, dan itu adalah titik pertama di mana analitik dapat terjadi.  Data Storage Layer Penyimpanan menjadi tantangan ketika ukuran data yang Anda hadapi menjadi besar. Beberapa solusi yang mungkin, seperti Pola Konsumsi Data, dapat menyelamatkan dari masalah tersebut. Menemukan solusi penyimpanan sangat penting ketika ukuran data Anda menjadi besar. Lapisan Arsitektur Big Data ini berfokus pada "di mana menyimpan data sebesar itu secara efisien.  Data Query Layer Ini adalah lapisan arsitektur di mana pemrosesan analitik aktif Big Data terjadi. Di sini, fokus utamanya adalah mengumpulkan nilai data agar lebih bermanfaat untuk lapisan berikutnya. 2. Map Reduce adalah metode pengolahan data dengan memecah data menjadi bagian-bagian kecil (mapping) dan kemudian hasilnya dijadikan satu kembali (reducing). Sedangkan Spark adalah mesin komputasi satu set perpustakaan untuk pemrosesan data dalam skala yang besar pada kluster komputer. Dibangun diatas MapReduce, Spark adalah mesin open source yang aktif dikembangkan untuk membuat analisis data lebih cepat dan membuat program berjalan lebih cepat. Persamaan antara MapReduce dan Spark :  MapReduce dan Spark memiliki subproyek yang bekerja dengan data terstruktur, yaitu Apache Hive dan Spark SQL. Hive merupakan infrastruktur data warehouse berbasis Hadoop, sedangkan Spark SQL adalah library Spark untuk bekerja dengan data terstruktur. Hive dan Spark menyediakan pengerjaan kueri dengan atau mirip sintaks SQL. Spark SQL dan Hive yang digunakan untuk tujuan yang sama, yaitu mengolah dan menganalisis big data dengan bahasa yang dimengerti oleh SQL. Perbedaan antara MapReduce dan Spark :  Itu perbedaan utama antara Hadoop dan Spark adalah bahwa Hadoop adalah framework open source Apache yang memungkinkan pemrosesan terdistribusi set data besar di seluruh cluster komputer menggunakan model pemrograman sederhana sementara Spark adalah framework komputasi cluster yang dirancang untuk komputasi Hadoop cepat.  Struktur Pada dasarnya MapReduce adalah mesin pengolah data yang menangani data dengan skala yang besar dengan biaya dan waktu yang wajar. Spark adalah mesin komputasi open soucre yang dibangun di atas model MapReduce untuk pemrosesan data skala besar dan analisis pada cluster komputer.  Performa Impelementasi MapReduce dikembangkan adalah inovatif tetapi juga cukup terbatas dan juga tidak terlalu fleksibel. Sedangkan Spark ditulis dalam bahasa Scala yang ringkas dan mudah dimengerti untuk membuat program berjalan lebih mudah dan cepat.  Kemudahan Penggunaan







MapReduce merupakan program yang inovatif tetapi cukup rumit, sebaliknya Spark yang konsisten dan dapat disusun yang dapat digunakan untuk membangun aplikasi dari potongan-potongan kecil. Spark juga menyimpan sebagian besar data input dalam memori berkat RDD. Biaya Biaya MapReduce jauh lebih murah daripada biaya teknologi manajemen data lainnya yang digunakan secara luas untuk memelihara data perusahaan. Spark di sisi lain memiliki biaya yang relatif mahal karena memerlukan banyak RAM untuk menyimpan data dalam memori yang dapat meningkatkan cluster.



3. – 4. Apache Hive adalah kerangka kerja pergudangan data yang dibangun di atas Hadoop. Hive menyediakan bahasa kueri seperti SQL yang disebut Bahasa Kueri Hive, untuk kueri data yang berada di HDFS. Hive mengatur data ke dalam tabel seperti database relasional. Hive menyediakan shell untuk membuat tabel dan query data. Shell Hive dapat diluncurkan dengan perintah Hive. Kotak di bawah ini menunjukkan contoh membuat tabel Hive dari shell Hive. Kelebihan HiveQL :  Hive juga menyediakan tools untuk memudahkan proses data ETL.  Dibuat untuk analisis yang terbiasa dengan SQL tetapi tidak terbiasa dengan pemrograman Java  Kekurangan HiveQL : 1. Tidak ada update, transaction dan index



Kelebihan Pig :  Pig menggunakan bahasa yang sangat high-level yaitu Pig Latin  Dapat dijalankan secara interaktif maupun batch  Pig ini memudahkan user untuk mengakses data di HDFS dengan bahasa yang lebih mudah daripada Java.  Dapat memproses data dalam jumlah besar dalam mode batch, yang mungkin sulit dilakukan dengan alat yang berdiri sendiri.  Pig dapat digunakan untuk menganalisis data dengan biaya lebih rendah.  Pig dapat dieksekusi baik dalam mode lokal atau mode MapReduce  Pig menyediakan operator LOAD untuk memuat data  Pig mendukung tipe data sederhana seperti int, long, float, double, chararray, bytearray, boolean, datetime, dan tipe data kompleks seperti tuple, bag, dan map.  Pig menggunakan strategi evaluasi malas dan menunda evaluasi ekspresi hingga operator STORE atau DUMP memicu hasil untuk disimpan atau ditampilkan. Kekurangan Pig 5. NoSQL adalah singkatan dari Not Only SQL database yang bersifat tanpa relasi, yang berarti NoSQL dapat mengelola database dengan skema yang fleksibel dan tidak membutuhkan query yang kompleks. NoSQL memiliki skalabilitas yang tinggi untuk berkembang dengan sesuai kebutuhan. NoSQL cocok untuk mengolah big data yang datanya dapat berubah-ubah sekalipun. Secara umum, database NoSQL terdapat empat jenis dengan karakteristik masing-masing yaitu :  Key-value Jenis database yang simpel yang mana setiap item berisi pasangan key dan value dalam berbentuk tabel hash. Pada key-value database, setiap key yang ada bersifat unik sedangkan value-nya bisa berupa JSON, Binary Large Objects (BLOB), string. Database ini sangat cocok untuk digunakan dalam menyimpan data dalam jumlah yang besar karena tidak perlu melakukan query yang rumit untuk mengambil data.  Document database Jenis database yang menyimpan data dalam dokumen yang mirip dengan objek JSON. Tiap-tiap dokumen berisi field dan value. Value disini berupa string, angka, boolean ataupun objek. Strukturnya dapat sejajar dengan objek yang digunakan para developer saat melakukan coding. Jenis database yang satu ini sangat bagus untuk berbagai kasus penggunaan dan dapat digunakan sebagai database secara umumnya.











Graph-based Database NoSWL yang digunakan untuk menyimpan hubungan antar entitas. Data tersebut disimpan dalam node dan edge. Node biasanya menyimpan informasi tentang pengguna, lokasi dan hal yang berhubungan dengan entitas lainnya. Sedangkan edge menyimpan informasi tentang hubungan antar node. Database ini cocok untuk melintasi hubungan untuk mencari pola tertentu, seperti media sosial, deteksi penipuan. Column-based Jenis database yang menyimpan data dalam tabel dan baris. Cocok digunakan untuk query SUM, COUNT dan sebagainya. Database yang memebrikan banyak fleksibilitas dibandingkan database relasional karena setiap baris tidak pelru memiliki kolom yang sama. Database ini sangat bagus jika pengguna perlu menyimpan data dalam jumlah yang besar agar user dapat memprediksi pola query dengan mudah.