LN03-Numerical Descriptive Measures [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

LECTURE NOTES



Week ke - 3



Numerical Descriptive Measures



COMP6334 - Probability and Statistics



LEARNING OUTCOMES LO1: Explain the data and statistics (data, variables, sample, population) LO2: Calculate descriptive measures, probability, discrete and continuous distribution and sampling distribution LO4: Interpret the result of calculation



OUTLINE MATERI : • Central Tendency (mean, median, mode) • Variation and Shape (range, variance dan stdev, CV) • Exploring Numerical Data (Quartiles, Percentiles, The Five-Number Summary) • Numerical Descriptive Measures for a Population (The Population Mean, The Population Variance and Standard Deviation)



COMP6334 - Probability and Statistics



ISI MATERI



Ukuran Pemusatan (Central Tendency) Sebagian besar variabel menunjukkan kecenderungan yang berbeda untuk dikelompokkan di sekitar nilai pusat. Tiga ukuran pemusatan adalah "nilai rata-rata" (mean) atau "nilai tengah" (median) atau "nilai yang paling sering tejadi," (modus). Rata-rata (Mean) Rata-rata aritmatika (biasanya disebut sebagai rata-rata) adalah ukuran paling umum dari ukuran pemusatan. Mean dapat menggambarkan nilai tengah dan berfungsi sebagai "titik keseimbangan" dalam satu set data, mirip dengan titik tumpu pada jungkat-jungkit. Mean adalah satu-satunya ukuran umum di mana semua nilai memainkan peran yang sama. Rata-rata dihitung dengan menambahkan semua nilai data dan kemudian membagi jumlah itu dengan banyaknya data. Simbol X̅, (dibaca X-bar) digunakan untuk mewakili rata-rata sampel. Untuk sampel yang berukuran n, persamaan untuk rata-rata sampel ditulis sebagai



Sebagai contoh: berikut adalah data tentang waktu yang diperlukan untuk siap berangkat kerja dalam waktu 10 hari kerja Hari 1 2 3 4 5 6 7 8 9 10 Waktu 39 29 43 52 39 44 40 31 44 35 (menit) Maka rata-rata waktu yang diperlukan adalah



Median Median adalah nilai paling tengah dari data yang sudah disusun dari terkecil ke terbesar. Separuh nilai data lebih kecil dari atau sama dengan median, dan separuh nilai data lebih besar dari atau sama dengan median. Median tidak dipengaruhi oleh nilai ekstrem, jadi median bisa digunakan saat ada nilai ekstrem pada data set.



COMP6334 - Probability and Statistics



Untuk menghitung median untuk satu set data, pertama-tama urutkan data dari nilai terkecil ke terbesar dan  Jika jumlah data ganjil, median adalah nilai yang paling tengah.







Jika jumlah data genap, median adalah rata-rata dari dua nilai paling tengah



Contoh 1: berikut adalah suatu data set yang jumlahnya ganjil dengan n=7 dan sudah diurutkan :



Contoh 2: berikut adalah suatu data set yang jumlahnya genap dengan n=10 dan sudah diurutkan Waktu (menit) Hari



29 1



31 2



35 3



39 4



39 5



40 6



43 7



44 8



44 9



52 10



Median=39.5



Modus Modus adalah nilai yang paling sering muncul. Seperti halnya median, modus juga tidak dipengaruhi nilai ekstrim. Pada suatu set data, bisa ada beberapa modus atau bisa juga tidak ada nilai modus sama sekali. Contoh tentang waktu yang diperlukan untuk siap berangkat kerja dalam waktu 10 hari kerja: COMP6334 - Probability and Statistics



39



29



43



52



39



44



40



31



44



35



Nilai 39 dan 44 masing-masing terjadi dua kali, jadi modusnya ada 2 yaitu 39 dan 44. Untuk data tentang harga smart phone berikut, semua nilai hanya terjadi sekali, jadi tidak ada modus. 80



150



200



230



280



370



595



Ukuran Keragaman dan Distribusi data Selain ukuran pemusatan, setiap variabel dapat dicirikan oleh keragaman dan bentuknya. Ragam mengukur penyebaran, atau disperse dari nilai-nilai data. Ukuran keragaman antara lain adalah range (rentang), ragam dan standar deviasi. Range Range (rentang) adalah ukuran keragaman yang paling sederhana. Range diukur dengan selisih dari data terbesar dan data terkecil.



Contoh untuk data waktu yang diperlukan untuk siap berangkat kerja dalam waktu 10 hari kerja: 29 31 35 39 39 40 43 44 44 52 Range = 52-29= 23 menit, artinya bahwa perbedaan terbesar antara dua hari dalam waktu untuk bersiap-siap di pagi hari adalah 23 menit. Ragam dan Standar Deviasi Nilai range (rentang) tidak mempertimbangkan bagaimana nilai-nilai didistribusikan atau dikelompokan di antara nilai-nilai yang ekstrem. Dua ukuran variasi yang umum digunakan yang menjelaskan bagaimana semua nilai didistribusikan adalah ragam dan standar deviasi. Statistik ini mengukur sebaran nilai di sekitar rata-rata. Ragam data sampel dilambangkan dengan S2 dan standar deviasi adalah akar dari ragam dan dilambangkan dengan S. Berikut adalah rumus ragam sampel:



COMP6334 - Probability and Statistics



dan standar deviasi sampel adalah



Contoh perhitungannya: Data kalori dalam sereal 80 100 100 110 130 190 200 Langkah 3 Langkah 4



Langkah 1: (Xi- X̅) -50 -30 -30 -40 0 60 70 jumlahkan dibagi (n-1)=6



Langkah 2: (Xi- X̅)2 2500 900 900 1600 0 3600 4900 13200 2200



n=7 dan X̅=130



Ragam data adalah



Standar deviasi:



Standar deviasi = 46,9042 menunjukkan bahwa kalori dalam sereal mengelompok dalam ±46,9042 di sekitar rata-rata= 130. Koefisien Keragaman Koefisien keragaman sama dengan standar deviasi dibagi dengan rata-rata, dikalikan dengan 100%. Koefisien keragaman (CV) mengukur penyebaran dalam data relatif terhadap rata-rata. Koefisien keragaman adalah ukuran relatif ragam yang selalu dinyatakan sebagai persentase.



Contoh : untuk contoh data tentang kalori dalam sereal di atas COMP6334 - Probability and Statistics



Jika diketahui koefisien keragaman untuk gula dalam sereal, CV gula = 57.84%, maka dapat disimpulkan bahwa kandungan gula dalam sereal lebih beragam dibandingkan kandungan kalori dalam sereal. Kuartil Kuartil membagi nilai menjadi empat bagian yang sama — kuartil 1 (Q1) membagi 25,0% terkecil dan 75,0% dari nilai lainnya yang lebih besar. Kuartil (Q2) kedua adalah median membagi 50,0% dari nilai yang lebih kecil atau sama dengan median, dan 50,0% lebih besar atau sama dengan median. Kuartil ketiga (Q3) membagi 75,0% terkecil dan 25,0% dari nilai terbesar. Kuartil 1 adalah data ke 25% terkecil



Kuartil 3 adalah data ke 75% terkecil



Aturan untuk menghitung Kuartil dari data yang sudah diurutkan : 1. Jika nilai peringkat (n+1)/4 dan 3(n+1)/4 adalah bilangan bulat, maka nilai kuartil sama data pada nilai peringkat itu. Misalnya, jika ukuran sampel n = 7 dan (n+1)/4 =2, maka kuartil 1 (Q1) adalah data pada urutan ke 2, dan 3(n+1)/4=6 maka kuartil ke 3 (Q3) adalah data pada urutan ke 6. 2. Jika nilai peringkat (n+1)/4 dan 3(n+1)/4 dalam bentuk pecahan setengah (25, 45, dll), maka nilai kuartil sama dengan rata-rata dua nilai peringkat yang terdekat. Misalnya, jika ukuran sampel n = 9, dan nilai (n+1)/4 = (9+1)/4 = 25 maka Q1= data ke 2 ditambah data 3 dibagi 2= (X2+X3)/2. 3. Jika nilai peringkat (n+1)/4 dan 3(n+1)/4 bukan bilangan bulat atau setengah pecahan, maka nilai tersebut dibulatkan ke bilangan bulat terdekat dan memilih data pada nilai peringkat itu. Misalnya, jika ukuran sampel n = 10, dan (n+1)/4= 2.75 dibulatkan menjadi 3, maka kuartil pertama (Q1) adalah data ke 3.



COMP6334 - Probability and Statistics



Contoh untuk data waktu yang diperlukan untuk siap berangkat kerja dalam waktu 10 hari kerja: 29



31



35



39



39



40



43



44



44



52



Kuartil 1 (Q1) adalah data yang ke (n+1)/4= (10+1)/4= 2.75. Menggunakan aturan ketiga maka nilai 2.75 dibulatkan menjadi 3 dan Q1 adalah data ke 3 atau X3 yaitu 35. Kuartil 3 (Q3) adalah data ke 3(n+1)/4=3(10+1)/4=8.25. Menggunakan aturan ketiga maka nilai 8.25 dibulatkan menjadi 8 dan Q3 adalah data ke 8atau X8 yaitu 44. Interquartile range (IQR) Interquartile range (IQR) mengukur penyebaran di tengah 50% dari nilai. Karena itu, tidak dipengaruhi oleh nilai-nilai ekstrem. IQR adalah selisih kuartil 3 dan kuartil 1



Contoh untuk data waktu yang diperlukan untuk siap berangkat kerja dalam waktu 10 hari kerja: 29



31



35



39



39



40



43



44



44



52



IQR untuk data di atas adalah 44-35 =9. Interval 35 sampai 44 sering disebut sebagai the middle fifty. Five Number Summary The five-number summary adalah salah satu cara untuk menentukan bentuk distribusi dari suatu set data. Five-number summary untuk suatu variabel adalah susunan dari data terkecil, kuartil pertama, median, kuartil ketiga, dan data terbesar. Five Number Summary: Xmin Q1 Md Q3 Xmax Hubungan Five Number Summary dengan bentuk distribusi data Miring ke kiri (Left Skewed) Jarak Xmin ke median lebih besar dari jarak median ke Xmax



Simetrik (Symetrical) Jarak Xmin ke median sama dengan jarak median ke Xmax



Miring ke kanan (Right Skewed) Jarak Xmin ke median lebih kecil dari jarak median ke Xmax



COMP6334 - Probability and Statistics



Jarak Xmin ke Q1 lebih besar dari jarak Q3 ke Xmax



Jarak Xmin ke Q1 sama dengan jarak Q3 ke Xmax



Jarak Xmin ke Q1 lebih kecil dari jarak Q3 ke Xmax



Jarak Q1 ke median lebih besar dari jarak median ke Q3



Jarak Q1 ke median sama Jarak Q1 ke median lebih dengan jarak median ke kecil dari jarak median Q3 ke Q3



Contoh untuk data waktu yang diperlukan untuk siap berangkat kerja dalam waktu 10 hari kerja: 29



31



Five Number Summary: 29



35 35



39 39.5



39 44



40



43



44



44



52



52



Jarak dari Xmin ke median (39.5 - 29 = 10.5) sedikit lebih kecil dari jarak dari median ke Xmax (52 - 39,5 = 12,5). Jarak dari Xmin ke Q1 (35-29 = 6) sedikit kurang dari jarak dari Q3 ke Xmax (52 - 44 = 8). Jarak dari Q1 ke median (39,5 - 35 = 4,5) sama dengan jarak dari median ke Q3 (44 - 39.5 = 4.5). Oleh karena itu dapat disimpulkan bahwa sebaran data agak miring ke kanan Box Plot Boxplot menggunakan Five Number Summary untuk memvisualisasikan bentuk distribusi untuk suatu variabel. Gambar di bawah ini adalah boxplot untuk data sampel 10 waktu untuk bersiapsiap berangkat kerja:



. Boxplot menunjukan bahwa waktu bersiap kerja sedikit miring ke kanan, karena jarak median dan Xmax sedikit lebih besar dibandingkan jarak antara Xmin dan median dan jarak Q3 dan Xmax (the right tail ) sedikit lebih panjang dibandingkan jarak Q1 dan X min (the left tail) Perhatikan hubungan antara boxplot dan bentuk distribusinya pada gambar di bawah ini



COMP6334 - Probability and Statistics



COMP6334 - Probability and Statistics



SIMPULAN Untuk pengambilan kesimpulan, data numerik dapat diringkas dalam bentuk ukuran pemusatan dan ukuran keragaman. Ukuran pemusatan meliputi rata-rata (mean), median, mode, kuartil 1 dan quartil 3. Ukuran keragaman meliputi range, ragam, standar deviasi, koefisien keragaman, interquartile range (IQR). Five Number Summary adalah salah satu cara untuk menentukan bentuk distribusi dari suatu set data. Boxplot menggunakan Five Number Summary untuk memvisualisasikan bentuk distribusi untuk suatu variabel



COMP6334 - Probability and Statistics



DAFTAR PUSTAKA 1. Levine, D.M., Stephan, D. F., and Szabat, K. A. (2017). Statistics for Managers using Microsoft Excel. 8th Ed. Global Edition Pearson Education. New Jersey. ISBN 13: 978-1292-15634-7. 2. Anderson, David R., Sweeney, Dennis J., Williams, Thomas A. (2011). Statistics for Business and Economics. 11th Ed. Cengage Learning. USA. ISBN 13: 978-0-324-78325-4. 3. https://towardsdatascience.com/intro-to-statistics-looking-at-data-1-23c49ef2bbd8 4. https://becominghuman.ai/an-introduction-to-probability-and-statistics-for-data-science8cbcdd3f266d



COMP6334 - Probability and Statistics