Pembukaan Vignette 1 [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

PEMBUKAAN VIGNETTE: SiriusXM Menarik dan Melibatkan Generasi Baru Konsumen Radio dengan Pemasaran Berbasis Data SiriusXM Radio adalah pembangkit listrik radio satelit, perusahaan radio terbesar di dunia dengan pendapatan tahunan $ 3,8 miliar dan berbagai musik, olahraga, berita, pembicaraan, dan stasiun hiburan yang sangat populer. Perusahaan, yang mulai disiarkan pada tahun 2001 dengan 50.000 pelanggan, tumbuh menjadi 18,8 juta pelanggan pada tahun 2009, dan hari ini memiliki hampir 29 juta. Sebagian besar pertumbuhan SiriusXM hingga saat ini berakar pada pengaturan kreatif dengan pembuat mobil; saat ini, hampir 70% mobil baru diaktifkan SiriusXM. Tetapi jangkauan perusahaan telah berkembang jauh melampaui radio mobil di Amerika Serikat ke kehadiran di seluruh dunia di Internet, di smartphone dan melalui layanan dan saluran distribusi lainnya, termasuk SONOS, JetBlue, dan Dish.



Tantangan Bisnis Terlepas dari keberhasilan yang luar biasa ini, selama beberapa tahun terakhir mengubah demografi pelanggan, mengubah teknologi, dan lanskap kompetitif yang berubah telah menimbulkan serangkaian tantangan bisnis dan peluang untuk SiriusXM. Berikut adalah beberapa yang terkenal: • Ketika penetrasi pasarnya di antara mobil-mobil baru meningkat, demografi pembeli berubah, condong lebih muda, dengan pendapatan yang kurang diskresi. Bagaimana mungkin SiriusXM mencapai demografis baru ini? • Ketika mobil baru menjadi mobil bekas dan berpindah tangan, bagaimana SiriusXM dapat mengidentifikasi, melibatkan, dan mengonversi pemilik kedua ke pelanggan yang membayar? • Dengan akuisisi bisnis kendaraan yang terhubung dari Agero — penyedia telematika terkemuka di pasar mobil AS — SiriusXM mendapatkan kemampuan untuk memberikan melalui jaringan satelit dan nirkabel. Bagaimana bisa berhasil menggunakan ini akuisisi untuk menangkap aliran pendapatan baru?



Solusi yang Diusulkan: Menggeser Visi menuju Pemasaran Berbasis Data SiriusXM mengakui bahwa untuk mengatasi tantangan ini perlu menjadi organisasi pemasaran berbasis data yang tinggi. Perusahaan mulai melakukan pergeseran itu dengan mendirikan tiga prinsip fundamental.



Pertama, interaksi yang dipersonalisasi—bukan pemasaran massal—akan memerintah hari. Perusahaan dengan cepat memahami bahwa untuk melakukan pemasaran yang lebih dipersonalisasi, perusahaan harus menarik sejarah dan interaksi masa lalu, serta pada pemahaman yang tajam tentang tempat konsumen dalam siklus hidup berlangganan. Kedua, untuk mendapatkan pemahaman itu, teknologi informasi (IT) dan mitra teknologi eksternalnya akan membutuhkan kemampuan untuk mengirimkan data terintegrasi, analitik canggih, platform pemasaran terintegrasi, dan sistem pengiriman multisaluran. Dan ketiga, perusahaan tidak dapat mencapai tujuan bisnisnya tanpa sudut pandang yang terintegrasi dan konsisten di seluruh perusahaan. Yang paling penting, sisi teknologi dan bisnis SiriusXM harus menjadi mitra sejati untuk mengatasi tantangan terbaik yang terlibat dalam menjadi organisasi pemasaran berkinerja tinggi yang menarik wawasan berbasis data untuk berbicara langsung dengan konsumen dengan cara yang sangat relevan. Wawasan berbasis data tersebut, misalnya, akan memungkinkan perusahaan untuk membedakan antara konsumen, pemilik, driver, pendengar, dan pemegang akun. Wawasan akan membantu SiriusXM memahami apa kendaraan dan layanan lain yang merupakan bagian dari setiap rumah tangga — dan untuk menciptakan peluang baru untuk keterlibatan. Selain itu, dengan membangun tampilan 360 derajat yang koheren dan andal dari semua konsumennya, SiriusXM dapat memastikan bahwa semua pesan dalam semua kampanye dan interaksi akan disesuaikan, relevan, dan konsisten di semua saluran. Bonus penting adalah bahwa pemasaran yang lebih disesuaikan dan efektif biasanya lebih hemat biaya.



Implementasi: Membuat dan Mengikuti Jalur Menuju Pemasaran Berkinerja Tinggi Pada saat keputusannya untuk menjadi perusahaan pemasaran berkinerja tinggi, SiriusXM bekerja sama dengan platform pemasaran pihak ketiga yang tidak memiliki kapasitas untuk mendukung ambisi SiriusXM. Perusahaan kemudian membuat keputusan penting dan berpikiran maju untuk membawa kemampuan pemasarannya secara in-house — dan kemudian dengan hatihati merencanakan apa yang perlu dilakukan untuk membuat transisi dengan sukses.



1. Meningkatkan kebersihan data melalui peningkatan manajemen data master dan tata kelola. Meskipun perusahaan dapat dimengerti tidak sabar untuk menempatkan ide-ide ke dalam tindakan, kebersihan data adalah langkah pertama yang diperlukan untuk menciptakan jendela yang dapat diandalkan ke dalam perilaku konsumen. 2. Bawa analitik pemasaran secara in-house dan perluas gudang data untuk memungkinkan skala dan sepenuhnya mendukung analitik pemasaran terintegrasi. 3. Kembangkan model segmentasi dan penilaian baru untuk menjalankan in-database, menghilangkan latensi dan duplikasi data. 4. Perluas gudang data terintegrasi untuk menyertakan data pemasaran dan penilaian, memanfaatkan analitik dalam database. 5. Mengadopsi platform pemasaran untuk pengembangan kampanye. 6. Satukan semua kemampuan itu untuk memberikan manajemen penawaran real-time di semua saluran pemasaran: pusat panggilan, seluler, Web, dan dalam aplikasi. Menyelesaikan langkahlangkah tersebut berarti menemukan mitra teknologi yang tepat. SiriusXM memilih Teradata karena kekuatannya sangat cocok untuk proyek dan perusahaan. Teradata menawarkan kemampuan untuk: • Mengonsolidasi sumber data dengan gudang data terpadu (IDW), analitik, dan aplikasi pemasaran yang kuat. • Memecahkan masalah latensi data. • Secara signifikan mengurangi pergerakan data di beberapa database dan aplikasi. • Berinteraksi dengan lancar dengan aplikasi dan modul untuk semua area pemasaran. • Skalakan dan berkinerja pada tingkat yang sangat tinggi untuk menjalankan kampanye dan analitik dalam database. • Melakukan komunikasi real-time dengan pelanggan. • Memberikan dukungan operasional, baik melalui cloud atau lokal. Kemitraan ini telah memungkinkan SiriusXM untuk bergerak dengan lancar dan cepat di sepanjang peta jalannya, dan perusahaan sekarang berada di tengah-tengah proses transformasional, 5 tahun. Setelah menetapkan proses tata kelola data yang kuat, SiriusXM memulai dengan menerapkan Gudang Data Terpadu, yang memungkinkan perusahaan untuk dengan cepat dan andal mengoperasionalkan wawasan di seluruh organisasi. Selanjutnya, perusahaan menerapkan Customer Interaction Manager—bagian dari Teradata Integrated



Marketing Cloud, yang memungkinkan interaksi pelanggan berbasis dialog secara real-time di seluruh spektrum penuh saluran komunikasi digital dan tradisional. Dan, SiriusXM akan menggabungkan Teradata Digital Messaging Center. Bersama-sama, rangkaian kemampuan akan memungkinkan SiriusXM untuk menangani komunikasi langsung di beberapa saluran. Evolusi ini akan memungkinkan penawaran real-time, pesan pemasaran, dan rekomendasi berdasarkan perilaku



sebelumnya.



Selain



menyederhanakan



bagaimana



mereka



menjalankan



dan



mengoptimalkan aktivitas pemasaran keluar, SiriusXM juga mengambil kendali atas operasi pemasaran internal mereka dengan implementasi Manajemen Sumber Daya Pemasaran, juga bagian dari Teradata Integrated Marketing Cloud. Solusi ini akan memungkinkan SiriusXM untuk merampingkan alur kerja, mengoptimalkan sumber daya pemasaran, dan mendorong efisiensi melalui setiap sen anggaran pemasaran mereka.



Hasil: Menuai Manfaat Ketika perusahaan melanjutkan evolusinya ke dalam organisasi pemasaran berkinerja tinggi, siriusXM sudah mendapat manfaat dari strategi yang dijalankan dengan bijaksana. Wawasan konsumen yang sesuai dengan rumah tangga dan tampilan lengkap strategi sentuhan pemasaran dengan setiap konsumen memungkinkan SiriusXM untuk menciptakan penawaran yang lebih tepat sasaran di tingkat rumah tangga, konsumen, dan perangkat. Dengan menghadirkan kemampuan analitik data dan pemasaran secara in-house, SiriusXM mencapai hal-hal berikut: • Hasil kampanye dalam waktu dekat secara real-time daripada 4 hari, menghasilkan pengurangan besar-besaran dalam waktu siklus untuk kampanye dan analis yang mendukung mereka. • Visibilitas loop tertutup memungkinkan analis untuk mendukung dialog multistage dan modifikasi incampaign untuk meningkatkan efektivitas kampanye. • Pemodelan dan penilaian real-time untuk meningkatkan kecerdasan pemasaran dan mempertajam penawaran dan respons kampanye dengan kecepatan bisnis mereka. Akhirnya, pengalaman SiriusXM telah memperkuat gagasan bahwa pemasaran berkinerja tinggi adalah konsep yang terus berkembang. Perusahaan telah menerapkan proses dan teknologi yang memberikan kapasitas untuk pertumbuhan yang berkelanjutan dan fleksibel. PERTANYAAN UNTUK VIGNETTE PEMBUKAAN



1. Apa yang SiriusXM lakukan? Dalam jenis pasar apa ia melakukan bisnisnya? 2. Apa tantangannya? Mengomentari teknologi dan terkait data Tantangan. 3. Apa solusi yang diusulkan? 4. Bagaimana mereka menerapkan solusi yang diusulkan? Apakah mereka menghadapi implementasi apapun Tantangan? 5. Apa hasil dan manfaatnya? Apakah mereka sepadan dengan usaha / investasi? 6. Dapatkah Anda memikirkan perusahaan lain yang menghadapi tantangan serupa yang berpotensi mendapat manfaat dari solusi pemasaran berbasis data serupa?



Apa yang Bisa Kita Pelajari dari Sketsa Ini Berusaha untuk berkembang dalam industri kompetitif yang berubah cepat, SiriusXM menyadari perlunya infrastruktur pemasaran yang baru dan ditingkatkan (yang bergantung pada data dan analitik) untuk secara efektif mengkomunikasikan proposisi nilai kepada pelanggan yang ada dan potensial. Seperti halnya di industri apa pun, dalam hiburan, kesuksesan atau kelangsungan hidup hanya tergantung pada penginderaan cerdas perubahan tren (suka dan tidak suka) dan menyusun pesan dan kebijakan yang tepat untuk memenangkan pelanggan baru sambil mempertahankan yang ada. Kuncinya adalah membuat dan mengelola kampanye pemasaran yang sukses yang beresonansi dengan populasi target pelanggan dan memiliki loop umpan balik yang erat untuk menyesuaikan dan memodifikasi pesan untuk mengoptimalkan hasil. Pada akhirnya, itu semua tentang presisi dalam cara mereka melakukan bisnis: menjadi proaktif tentang perubahan sifat klien, menciptakan dan mentransmisikan produk dan layanan yang tepat secara tepat waktu menggunakan strategi pemasaran holistik berbasis fakta / berbasis data. Identifikasi sumber, pembuatan sumber, akses dan pengumpulan, integrasi, pembersihan, transformasi, penyimpanan, dan pemrosesan data yang relevan memainkan peran penting dalam keberhasilan SiriusXM dalam merancang dan menerapkan strategi analitik pemasaran, seperti halnya di perusahaan sukses yang cerdas secara analitis saat ini, terlepas dari industri tempat mereka berpartisipasi.



2.2 Sifat Data Data adalah bahan utama untuk setiap BI, ilmu data, dan inisiatif analitik bisnis. Bahkan, itu dapat dipandang sebagai bahan baku untuk apa teknologi keputusan populer ini menghasilkan —



informasi, wawasan, dan pengetahuan. Tanpa data tidak ada teknologi ini yang bisa ada dan dipopulerkan — meskipun, secara tradisional kami telah membangun model analitik menggunakan pengetahuan dan pengalaman ahli ditambah dengan sangat sedikit atau tidak ada data sama sekali; namun, itu adalah hari-hari tua, dan sekarang data adalah esensi. Setelah dianggap sebagai tantangan besar untuk mengumpulkan, menyimpan, dan mengelola, data saat ini secara luas dianggap sebagai salah satu aset paling berharga dari sebuah organisasi, dengan potensi untuk menciptakan wawasan yang tak ternilai untuk lebih memahami pelanggan, pesaing, dan proses bisnis. Data bisa kecil atau bisa sangat besar. Ini dapat disusun (diatur dengan baik agar komputer dapat diproses), atau dapat direstrukturisasi (misalnya, teks yang dibuat untuk manusia dan karenanya tidak mudah dimengerti / dikonsumsi oleh komputer). Ini bisa datang dalam batch yang lebih kecil terus menerus atau dapat menuangkan sekaligus sebagai batch besar. Ini adalah beberapa karakteristik yang mendefinisikan sifat melekat dari data saat ini, yang sering kita sebut Big Data. Meskipun karakteristik data ini membuatnya lebih menantang untuk diproses dan dikonsumsi, itu juga membuatnya lebih berharga karena memperkaya data di luar batas konvensionalnya, memungkinkan penemuan pengetahuan baru dan baru. Cara tradisional untuk mengumpulkan data secara manual (baik melalui survei atau melalui transaksi bisnis yang dimasuki manusia) sebagian besar meninggalkan tempat mereka ke mekanisme pengumpulan data modern yang menggunakan jaringan komputerisasi berbasis Internet dan/atau sensor/RFID. Sistem pengumpulan data otomatis ini tidak hanya memungkinkan kami untuk mengumpulkan lebih banyak volume data tetapi juga meningkatkan kualitas dan integritas data. Gambar 2.1 mengilustrasikan kontinum analitik yang khas—data ke analitik ke informasi yang dapat ditinkutasi.



Meskipun proposisi nilainya tidak dapat dipungkiri, untuk memenuhi janjinya, data harus mematuhi beberapa kegunaan dasar dan metrik berkualitas. Tidak semua data berguna untuk semua tugas, jelas. Artinya, data harus cocok dengan (memiliki cakupan spesifik untuk) tugas yang dimaksudkan untuk digunakan. Bahkan untuk tugas tertentu, data yang relevan di tangan perlu mematuhi persyaratan kualitas dan kuantitas. Pada dasarnya, data harus siap untuk analitik. Jadi apa artinya membuat analitik data siap? Selain relevansinya dengan masalah yang dihadapi dan persyaratan kualitas / kuantitas, ia juga harus memiliki struktur data tertentu di tempat dengan bidang / variabel utama dengan nilai yang dinormalisasi dengan benar. Selain itu, harus ada definisi yang disepakati di seluruh organisasi untuk variabel umum dan hal-hal subjek (kadang-kadang juga disebut manajemen data master), seperti bagaimana Anda mendefinisikan pelanggan (karakteristik pelanggan apa yang digunakan untuk menghasilkan representasi yang cukup holistik untuk analitik) dan di mana dalam proses bisnis informasi terkait pelanggan ditangkap, divalidasi, disimpan, dan diperbarui. Terkadang representasi data mungkin bergantung pada jenis analitik yang digunakan. Algoritma prediktif umumnya memerlukan file datar dengan variabel target, jadi membuat analitik data siap untuk prediksi berarti bahwa kumpulan data harus diubah menjadi format file datar dan dibuat siap untuk disederhanakan ke dalam algoritma prediktif tersebut. Juga penting untuk mencocokkan data dengan kebutuhan dan keinginan algoritma prediktif tertentu dan / atau alat perangkat lunak — misalnya, algoritma jaringan saraf mengharuskan semua variabel input diwakili secara numerik (bahkan variabel nominal perlu dikonversi menjadi variabel numerik biner semu) dan algoritma pohon keputusan tidak memerlukan transformasi numerik tersebut, dengan mudah dan asli menangani campuran variabel nominal dan numerik. Proyek analitik yang mengabaikan tugas terkait data (beberapa langkah paling penting) sering berakhir dengan jawaban yang salah untuk masalah yang tepat, dan jawaban yang dibuat secara tidak sengaja, tampaknya baik, ini dapat menyebabkan keputusan yang tidak akurat dan tidak tepat waktu. Berikut adalah beberapa karakteristik (metrik) yang menentukan tingkat kesiapan data untuk studi analitik (Delen, 2015; Kock, McQueen, & Corner, 1997). • Keandalan sumber data mengacu pada keaslian dan kesesuaian media penyimpanan di mana data diperoleh — menjawab pertanyaan "Apakah kita memiliki kepercayaan dan keyakinan yang



tepat pada sumber data ini?" Jika memungkinkan, seseorang harus selalu mencari sumber/pembuat data asli untuk menghilangkan/mengurangi kemungkinan kekeliruan data dan transformasi data yang disebabkan oleh kesalahan penanganan data saat berpindah dari sumber ke tujuan melalui satu atau beberapa langkah dan berhenti di sepanjang jalan. Setiap perpindahan data menciptakan kesempatan untuk menjatuhkan atau menformat ulang item data secara tidak sengaja, yang membatasi integritas dan mungkin akurasi kumpulan data yang benar. • Akurasi konten data berarti bahwa data benar dan cocok untuk masalah analitik — menjawab pertanyaan "Apakah kita memiliki data yang tepat untuk pekerjaan itu?" Data harus mewakili apa yang dimaksudkan atau didefinisikan oleh sumber data asli. Misalnya, informasi kontak pelanggan yang dicatat dalam catatan dalam database harus sama dengan apa yang dikatakan pasien. Akurasi data akan dicakup secara lebih rinci dalam subbagian berikut. • Aksesibilitas data berarti bahwa data mudah dan mudah diperoleh — menjawab pertanyaan "Bisakah kita dengan mudah sampai ke data ketika kita perlu?" Akses ke data mungkin rumit, terutama jika data disimpan di lebih dari satu lokasi dan media penyimpanan dan perlu digabungkan / ditransformasikan saat mengakses dan mendapatkannya. Ketika sistem manajemen database relasional tradisional meninggalkan tempat mereka (atau hidup berdampingan dengan) generasi baru media penyimpanan data seperti data lake dan infrastruktur Hadoop, pentingnya / kritisitas aksesibilitas data juga meningkat. • Keamanan data dan privasi data berarti bahwa data diamankan untuk hanya memungkinkan orang-orang yang memiliki wewenang dan kebutuhan untuk mengaksesnya dan untuk mencegah orang lain mencapainya. Meningkatnya popularitas dalam program gelar pendidikan dan sertifikat untuk Jaminan Informasi adalah bukti kritisitas dan meningkatnya urgensi metrik kualitas data ini. Setiap organisasi yang menyimpan catatan kesehatan untuk pasien individu harus memiliki sistem yang tidak hanya melindungi data dari akses yang tidak sah (yang diamanatkan oleh undang-undang federal seperti Health Insurance Portability and Accountability Act [HIPPA]) tetapi juga secara akurat mengidentifikasi setiap pasien untuk memungkinkan akses yang tepat dan tepat waktu ke catatan oleh pengguna resmi (Annas, 2003). • Kekayaan data berarti bahwa semua elemen data yang diperlukan disertakan dalam kumpulan data. Intinya, kekayaan (atau komprehensif) berarti bahwa variabel yang tersedia menggambarkan dimensi yang cukup kaya dari materi pelajaran yang mendasarinya untuk studi



analitik yang akurat dan layak. Ini juga berarti bahwa konten informasi selesai (atau hampir selesai) untuk membangun model analitik prediktif dan / atau reseptif. • Konsistensi data berarti bahwa data dikumpulkan dan digabungkan secara akurat. Data yang konsisten mewakili informasi dimensi (variabel yang menarik) berasal dari sumber yang berpotensi berbeda tetapi berkaitan dengan subjek yang sama. Jika integrasi/penggabungan data tidak dilakukan dengan benar, beberapa variabel dari berbagai subjek mungkin menemukan diri mereka dalam catatan yang sama — memiliki dua catatan pasien yang berbeda dicampur — misalnya, itu mungkin terjadi saat menggabungkan catatan data hasil tes demografis dan klinis. • Ketepatan waktu data/data berarti bahwa data harus diperbarui (atau baru/baru seperti yang perlu) untuk model analitik tertentu. Ini juga berarti bahwa data dicatat pada atau dekat waktu acara atau pengamatan sehingga kekeliruan yang tertunda waktu (salah mengingat dan mengkodekan) data dicegah. Karena analitik yang akurat bergantung pada data yang akurat dan tepat waktu, karakteristik penting dari data siap analitik adalah ketepatan waktu pembuatan dan akses ke elemen data. • Granularitas data mengharuskan variabel dan nilai data didefinisikan pada tingkat detail terendah (atau serendah yang diperlukan) untuk penggunaan data yang dimaksudkan. Jika data dikumpulkan, data mungkin tidak berisi tingkat detail yang diperlukan untuk algoritma analitik untuk mempelajari cara membedakan rekaman / kasus yang berbeda satu sama lain. Misalnya, dalam pengaturan medis, nilai numerik untuk hasil laboratorium harus dicatat ke tempat desimal yang sesuai sebagaimana diperlukan untuk interpretasi yang bermakna dari hasil tes dan penggunaan nilai-nilai tersebut dengan benar dalam algoritma analitik. Demikian pula, dalam pengumpulan data demografis, elemen data harus didefinisikan pada tingkat granular untuk menentukan perbedaan hasil perawatan di antara berbagai subpopulasi. Satu hal yang perlu diingat adalah bahwa data yang dikumpulkan tidak dapat disaggregasi (tanpa akses ke sumber asli), tetapi dapat dengan mudah dikumpulkan dari representasi granularnya. •



Validitas



data



adalah



istilah



yang



digunakan



untuk



menggambarkan



kecocokan/ketidakcocokan antara nilai data aktual dan yang diharapkan dari variabel tertentu. Sebagai bagian dari definisi data, nilai atau rentang nilai yang dapat diterima untuk setiap elemen data harus ditentukan. Misalnya, definisi data yang valid terkait dengan jenis kelamin akan mencakup tiga nilai: pria, wanita, dan tidak diketahui.



• Relevansi data berarti bahwa variabel dalam kumpulan data semuanya relevan dengan studi yang sedang dilakukan. Relevansi bukanlah ukuran dikotomi (apakah variabel relevan atau tidak); sebaliknya, ia memiliki spektrum relevansi dari yang paling tidak relevan dengan yang paling relevan. Berdasarkan algoritme analitik yang digunakan, seseorang dapat memilih untuk hanya menyertakan informasi yang paling relevan (yaitu, variabel) atau jika algoritme cukup mampu untuk memilahnya, dapat memilih untuk menyertakan semua yang relevan, terlepas dari tingkat relevansinya. Satu hal yang harus dihindari oleh studi analitik adalah memasukkan data yang sama sekali tidak relevan ke dalam bangunan model, karena ini dapat mencemari informasi untuk algoritma, yang menghasilkan hasil yang tidak akurat dan menyesatkan. Meskipun ini mungkin metrik yang paling berlaku untuk mengikuti, kualitas data yang sebenarnya dan kesiapan analitik yang sangat baik untuk domain aplikasi tertentu akan membutuhkan tingkat penekanan yang berbeda yang dibayarkan pada dimensi metrik ini dan mungkin menambahkan yang lebih spesifik untuk koleksi ini. Bagian berikut akan menyelami sifat data dari perspektif taksonomi untuk mencantumkan dan menentukan jenis data yang berbeda saat mereka berhubungan dengan berbagai proyek analitik.



BAGIAN 2.2 PERTANYAAN ULASAN 1. Bagaimana Anda menjelaskan pentingnya data dalam analitik? Bisakah kita memikirkan analitik tanpa data? 2. Mempertimbangkan definisi baru dan luas dari analitik bisnis, apa input dan output utama ke kontinum analitik? 3. Dari mana data untuk analitik bisnis berasal? 4. Menurut Pendapat Anda, apa tiga tantangan terkait data teratas untuk analitik yang lebih baik? 5. Apa saja metrik paling umum yang membuat data siap analitik?



2.3 Taksonomi Data Sederhana Data (datum dalam bentuk tunggal) mengacu pada kumpulan fakta yang biasanya diperoleh sebagai hasil eksperimen, pengamatan, transaksi, atau pengalaman. Data dapat terdiri dari angka, huruf, kata-kata, gambar, rekaman suara, dan sebagainya, sebagai pengukuran seperangkat variabel (karakteristik subjek atau peristiwa yang kami minati untuk dipelajari). Data sering dipandang sebagai tingkat abstraksi terendah dari mana informasi dan kemudian pengetahuan



diturunkan. Pada tingkat abstraksi tertinggi, seseorang dapat mengklasifikasikan data sebagai terstruktur dan tidak terstruktur (atau semistruktur). Data yang tidak terstruktur/data semistruktur terdiri dari kombinasi konten tekstual, citra, suara, dan Web apa pun. Data yang tidak terstruktur/semistruktur akan dicakup secara lebih rinci dalam bab penambangan teks dan penambangan Web. Data terstruktur adalah apa yang digunakan algoritma penambangan data dan dapat diklasifikasikan sebagai kategoris atau numerik. Data kategoris dapat dibagi menjadi data nominal atau ordinal, sedangkan data numerik dapat dibagi menjadi interval atau rasio. Gambar 2.2 menunjukkan taksonomi data sederhana. • Data kategoris mewakili label dari beberapa kelas yang digunakan untuk membagi variabel menjadi grup tertentu. Contoh variabel kategoris termasuk ras, jenis kelamin, kelompok usia, dan tingkat pendidikan. Meskipun dua variabel terakhir juga dapat dipertimbangkan secara numerik dengan menggunakan nilai yang tepat untuk usia dan nilai tertinggi yang diselesaikan, seringkali lebih informatif untuk mengkategorikan variabel tersebut ke dalam sejumlah kecil kelas yang dipesan. Data kategoris juga dapat disebut data diskrit, menyiratkan bahwa data tersebut mewakili jumlah nilai terbatas tanpa kontinum di antara mereka. Bahkan jika nilai yang digunakan untuk variabel kategoris (atau diskrit) bernumerik, angka-angka ini tidak lebih dari simbol dan tidak menyiratkan kemungkinan menghitung nilai pecahan. • Data nominal berisi pengukuran kode sederhana yang ditetapkan untuk objek sebagai label, yang bukan pengukuran. Misalnya, variabel status perkawinan umumnya dapat dikategorikan sebagai (1) single, (2) menikah, dan (3) bercerai. Data nominal dapat direpresentasikan dengan nilai binomial yang memiliki dua nilai yang mungkin (misalnya, ya/ tidak, benar / salah, baik / buruk), atau nilai multinomial yang memiliki tiga nilai atau lebih yang mungkin (misalnya, coklat / hijau / biru, putih / hitam / Latino / Asia, tunggal / menikah / bercerai).



• Data ordinal berisi kode yang ditetapkan untuk objek atau peristiwa sebagai label yang juga mewakili urutan peringkat di antara mereka. Misalnya, skor kredit variabel umumnya dapat dikategorikan sebagai (1) rendah, (2) sedang, atau (3) tinggi. Hubungan yang dipesan serupa dapat dilihat pada variabel seperti kelompok usia (yaitu, anak, muda, paruh baya, lanjut usia) dan tingkat pendidikan (yaitu, sekolah menengah, perguruan tinggi, sekolah pascasarjana). Beberapa algoritme analitik prediktif, seperti regresi logistik ganda ordinal, memperhitungkan informasi urutan peringkat tambahan ini untuk membangun model klasifikasi yang lebih baik. • Data numerik mewakili nilai numerik dari variabel tertentu. Contoh variabel yang dihargai secara numerik meliputi usia, jumlah anak, total pendapatan rumah tangga (dalam dolar AS), jarak tempuh (dalam mil), dan suhu (dalam derajat Fahrenheit). Nilai numerik yang mewakili variabel dapat berupa bilangan bulat (hanya mengambil bilangan bulat) atau riil (mengambil juga bilangan pecahan). Data numerik juga dapat disebut data berkelanjutan, menyiratkan bahwa variabel berisi pengukuran berkelanjutan pada skala tertentu yang memungkinkan penyisipan nilai sementara. Tidak seperti variabel diskrit, yang mewakili data terbatas dan terhitung, variabel berkelanjutan mewakili pengukuran yang dapat diskalakan, dan dimungkinkan bagi data untuk berisi jumlah nilai pecahan yang tak terbatas. • Data interval adalah variabel yang dapat diukur pada skala interval. Contoh umum pengukuran skala interval adalah suhu pada skala Celcius. Dalam skala khusus ini, satuan pengukuran adalah



1/100 perbedaan antara suhu leleh dan suhu air mendidih dalam tekanan atmosfer; artinya, tidak ada nilai nol mutlak. • Data rasio termasuk variabel pengukuran yang umumnya ditemukan dalam ilmu fisika dan teknik. Massa, panjang, waktu, sudut pesawat, energi, dan muatan listrik adalah contoh langkahlangkah fisik yang merupakan skala rasio. Jenis skala mengambil namanya dari fakta bahwa pengukuran adalah estimasi rasio antara besarnya kuantitas berkelanjutan dan besaran satuan dari jenis yang sama. Secara informal, fitur pembeda dari skala rasio adalah kepemilikan nilai nol non-sehari-hari. Misalnya, skala suhu Kelvin memiliki titik nol non-bitrary dari nol absolut, yang sama dengan –273,15 derajat Celcius. Titik nol ini nonarbitrary karena partikel yang terdiri dari materi pada suhu ini memiliki energi kinetik nol. Jenis data lainnya, termasuk tekstual, spasial, citra, video, dan suara, perlu dikonversi menjadi beberapa bentuk representasi kategoris atau numerik sebelum dapat diproses dengan metode analitik (algoritma penambangan data; Delen, 2015). Data juga dapat diklasifikasikan sebagai statis atau dinamis (yaitu, temporal atau time series). Beberapa metode analitik prediktif (yaitu, penambangan data) dan algoritme pembelajaran mesin sangat selektif tentang jenis data yang dapat mereka tangani. Memberi mereka jenis data yang tidak kompatibel dapat menyebabkan model yang salah atau (lebih sering) menghentikan proses pengembangan model. Misalnya, beberapa metode penambangan data membutuhkan semua variabel (baik input maupun output) yang dinyatakan sebagai variabel yang dihargai secara numerik (misalnya, jaringan saraf, mesin vektor pendukung, regresi logistik). Variabel nominal atau ordinal dikonversi menjadi representasi numerik menggunakan beberapa jenis variabel pseudo 1-of-N (misalnya, variabel kategoris dengan tiga nilai unik dapat diubah menjadi tiga variabel pseudo dengan nilai biner—1 atau 0). Karena proses ini dapat meningkatkan jumlah variabel, seseorang harus berhati-hati tentang efek representasi tersebut, terutama untuk variabel kategoris yang memiliki sejumlah besar nilai unik. Demikian pula, beberapa metode analitik prediktif, seperti ID3 (algoritma pohon keputusan klasik) dan set kasar (algoritma induksi aturan yang relatif baru), membutuhkan semua variabel yang diwakili sebagai variabel yang dihargai secara kategoris. Versi awal metode ini mengharuskan pengguna untuk mendisklerisir variabel numerik ke dalam representasi kategoris sebelum dapat diproses oleh algoritma. Kabar baiknya adalah bahwa sebagian besar implementasi algoritma ini dalam alat perangkat lunak yang tersedia secara luas menerima campuran variabel numerik dan nominal dan secara internal membuat konversi yang diperlukan



sebelum memproses data. Data hadir dalam berbagai jenis variabel dan skema representasi. Alat analitik bisnis terus meningkat dalam kemampuan mereka untuk membantu para ilmuwan data dalam tugas transformasi data dan representasi data yang menakutkan sehingga persyaratan data model prediktif dan algoritma tertentu dapat dieksekusi dengan benar. Aplikasi Kasus 2.1 menunjukkan skenario bisnis di mana perusahaan penelitian dan pengembangan perangkat medis yang kaya data menyederhanakan praktik analitik mereka untuk memiliki akses mudah ke data dan analisis yang mereka butuhkan untuk melanjutkan tradisi inovasi dan kualitas di tingkat tertinggi.