Ipynb - Colaboratory [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up

Ipynb - Colaboratory [PDF]

10/15/21, 7:56 PM

ipynb - Colaboratory

Pertemuan III Deskripsi Dataset Dataset ini berisi data hasil survei terhadap l

7 0 304 KB

Report DMCA / Copyright

DOWNLOAD FILE


File loading please wait...
Citation preview

10/15/21, 7:56 PM



ipynb - Colaboratory



Pertemuan III Deskripsi Dataset Dataset ini berisi data hasil survei terhadap lebih dari 100 responden untuk perilaku pembelian mereka di Starbucks. Pendapatan ditampilkan dalam Ringgit Malaysia (RM).



Konteks Data ini dapat digunakan untuk memperoleh informasi yang dapat digunakan oleh pemangku kepentingan guna menganalisis dan mengetahui perilaku data pelanggan, mempertahankan pelanggan yang ada serta mengembangkan program marketing untuk menarik pelanggan tepat sasaran



Isi Info demografis tentang pelanggan – jenis kelamin, rentang usia, status pekerjaan, rentang pendapatan Perilaku mereka saat ini dalam membeli Starbucks Fasilitas dan fitur Starbucks yang berkontribusi pada perilaku



Apa yang bisa kita temukan ? Apa karakteristik pelanggan yang akan terus membeli Starbucks? Pada praktikum ini, Anda akan melakukan beberapa operasi dasar yaitu : Histogram Outliers Box Plot Summary Statistics Effect size Relationship Between Variables Correlation Covariance Pearson Correlation Spearman's Rank Correlation Mean VS Median Hypothesis Testing Normal(Gaussian) Distribution and z-score



Panduan Praktikum Bacalah instruksi praktikum dengan seksama. https://colab.research.google.com/drive/1HysRxkcrSFvWCQigAFsmLafr0U1eVmyy#scrollTo=5GOSmctA2-m_&printMode=true



1/13



10/15/21, 7:56 PM



ipynb - Colaboratory



Lakukan instruksi pengerjaan ada pada setiap checkpoint (tips : cari tanda atau '...' dan isilah dengan perintah yang tepat) notes : kode program akan memberikan informasi error jika Anda belum mengisi tanda atau '..' dengan perintah yang tepat 3. Lakukan perhitungan summary nilai statistik (mean, standar deviasi, dan variance) dari fitur ... 4. Berdasarkan hasil ploting diagram heatmap, jelaskan korelasi yang ada antara fitur ... dan ... 5. Hitung nilai pearson correlation dari fitur ... dan ... Jelaskan arti dari nilai tersebut. 6. Lakukan uji hipotesis untuk kolom fitur ... dan ... serta berikan penjelasan terhadap hasil dari uji hipotesis yang dilakukan. 7. Tulis laporan hasil praktikum kalian dalam bentuk file .pdf dan silahkan Anda submit melalui akun v-class praktikum.



# import libraries import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt from pandas.plotting import autocorrelation_plot from scipy import stats plt.style.use("ggplot") import warnings warnings.filterwarnings("ignore") from scipy import stats



Instuksi 1 Masukkan (bacalah) file dataset .csv yang tersedia pada link https://raw.githubusercontent.com/supasonicx/ATA-praktikum01/main/Starbucks%20satisfactory%20survey%20encode%20cleaned.csv dengan perintah pandas read. # read data as pandas data frame url_data = "https://raw.githubusercontent.com/supasonicx/ATA-praktikum-01/main/Sta data = pd.read_csv(url_data)



Instruksi 2 Tampilkan 5 baris awal dari dataset yang digunakan dengan perintah head() ##·Melihat·5·baris·awal·dari·dataset·yang·digunakan data.head(5) https://colab.research.google.com/drive/1HysRxkcrSFvWCQigAFsmLafr0U1eVmyy#scrollTo=5GOSmctA2-m_&printMode=true



2/13



10/15/21, 7:56 PM



ipynb - Colaboratory



data.head(5) e



serviceRate



chooseRate



promoMethodApp



promoMethodSoc



promoMethodEmail



4



4



3



1



1



1



4



5



2



1



1



1



4



4



3



1



1



1



3



3



3



1



1



1



2



3



3



1



1



1



p



Instruksi 2 Tampilkan dimensi dari dataset yang digunakan dengan perintah shape() data.shape (113, 33)



Instruksi 3 Tampilkan kolom apa saja yang dimiliki oleh dataset yang digunakan dengan perintah columns() data.columns Index(['Id', 'gender', 'age', 'status', 'income', 'visitNo', 'method', 'timeSpend', 'location', 'membershipCard', 'itemPurchaseCoffee',



'itempurchaseCold', 'itemPurchasePastries', 'itemPurchaseJuices',



'itemPurchaseSandwiches', 'itemPurchaseOthers', 'spendPurchase',



'productRate', 'priceRate', 'promoRate', 'ambianceRate', 'wifiRate',



'serviceRate', 'chooseRate', 'promoMethodApp', 'promoMethodSoc',



'promoMethodEmail', 'promoMethodDeal', 'promoMethodFriend',



'promoMethodDisplay', 'promoMethodBillboard', 'promoMethodOthers',



'loyal'],



dtype='object') ### menampilkan nilai apa saja yang ada pada sebuah kolom data['gender'].unique() array([1, 0])



Instruksi 4 Tampilkan nilai berapa saja yang dimiliki oleh kolom dimiliki oleh timeSpend. data['timeSpend'].unique() array([1, 0, 4, 2, 3]) https://colab.research.google.com/drive/1HysRxkcrSFvWCQigAFsmLafr0U1eVmyy#scrollTo=5GOSmctA2-m_&printMode=true



3/13



10/15/21, 7:56 PM



ipynb - Colaboratory



Histogram Menampilkan Berapa kali (frekuensi) setiap nilai muncul dalam kumpulan data. Jenis deskripsi ini disebut distribusi variabel Cara paling umum untuk merepresentasikan distribusi variabel adalah histogram yaitu grafik yang menunjukkan frekuensi dari setiap nilai. Frequency = berapa kali setiap nilai muncul Contoh: [1,1,1,1,2,2,2]. Frequency dari 1 adalah empat dan frequency dari 2 adalah tiga.



Instruksi 5 Tampilkan histogram dari kolom timeSpend ## Buatlah diagram histogram dari kolom Strength plt.figure(figsize=(20,10)) plt.title('Histogram of timeSpend') sns.histplot(data,x='timeSpend', kde=True);



https://colab.research.google.com/drive/1HysRxkcrSFvWCQigAFsmLafr0U1eVmyy#scrollTo=5GOSmctA2-m_&printMode=true



4/13



10/15/21, 7:56 PM



ipynb - Colaboratory



## ploting untuk data produk pastry  m = plt.hist(data[data["gender"] == 1].itemPurchasePastries,bins=30,fc = (1,0,0,0.5 ## ploting untuk data tumor dengan label jinak f = plt.hist(data[data["gender"] == 0].itemPurchasePastries,bins=30,fc = (0,1,0,0.5 plt.legend() plt.xlabel("Nilai itemPurchasePastries") plt.ylabel("Frequency") plt.title("Histogram Pembelian produk pastry bedasarkan demografi gender") plt.show()



Instruksi 6 Tampilkan histogram dari kolom timeSpend yang dikelompokkan berdasarkan gender ## ploting untuk data produk pastry  m = plt.hist(data[data["..."] == 1].>,label = "Female") plt.legend() plt.xlabel("Nilai timeSpend") plt.ylabel("Frequency") plt.title("Histogram waktu yang dihabiskan di toko bedasarkan demografi gender") plt.show()



https://colab.research.google.com/drive/1HysRxkcrSFvWCQigAFsmLafr0U1eVmyy#scrollTo=5GOSmctA2-m_&printMode=true



5/13



10/15/21, 7:56 PM



ipynb - Colaboratory



Instruksi 7 Buatlah kesimpulan dari informasi yang Anda dapatkan di atas.



Outliers Nilai outliers bisa diartikan sebagai kesalahan atau kejadian langka. Menghitung outlier: pertama kita perlu menghitung kuartil pertama (Q1)(25%) kemudian temukan IQR(inter quartile range) = Q3-Q1 terakhir menghitung Q1 - 1.5IQR dan Q3 + 1.5IQR Apa pun di luar kisaran ini adalah outlier mari kita tulis kode untuk distribusi tumor jinak untuk rata-rata fitur radius



Instruksi 8 Buatlah kesimpulan dari informasi yang Anda dapatkan dari perhitungan nilai outliers dari variabel timeSpend pada data customer dengan gender laki-laki ## Menghitung nilai outliers dari variabel timeSpend pada data customer dengan gend male = data[data["gender"] == 1] female = data[data["gender"] == 0] desc = male.timeSpend.describe() Q1 = desc[4] Q3 = desc[6] IQR = Q3-Q1 lower_bound = Q1 - 1.5*IQR upper_bound = Q3 + 1.5*IQR print("Apa pun di luar kisaran ini adalah outlier timeSpend: (", lower_bound ,",",  male[male.timeSpend