Soal UTS Statistik Multivariat [PDF]

  • 0 0 0
  • Suka dengan makalah ini dan mengunduhnya? Anda bisa menerbitkan file PDF Anda sendiri secara online secara gratis dalam beberapa menit saja! Sign Up
File loading please wait...
Citation preview

No Soal Bobot CO/CPL 1 Kasus : Minimization of risk and maximization of profit on behalf of the bank CO.1/CO.2/ Respon : Creditability (1=Good credit risk, 2= Bad credit risk) CO.3/Cpp3/ Prediktor : Value Savings Stocks, Length of current employment, Duration of Credit, Cpkk1 Credit Amount, Age Data : German_credit.csv (total 900 observasi), 450 untuk training dan 450 untuk uji (tes) a. Jelaskan persyaratan terhadap data predictor dan respon yang dapat digunakan untuk analisis diskriminan 8 Predictor bersifat numerik, Respon bersifat kategorik dengan dua kelas atau tiga kelas 8 b. Lakukan analisis group means menggunakan data total 900 observasi berdasarkan nilai creditability sebagai grouping variable. Jelaskan maknanya untuk setiap variable predictor 8 8



8



With R > andrio=read.delim("clipboard") > View(andrio) > library(MASS) > train=sample(1:900,450) > table(dataku$Sp[train]) < table of extent 0 > > dim(dataku) [1] 7 3 > by(andrio$Value.Savings.Stocks,andrio$Creditability, mean) andrio$Creditability: 0 [1] 1.75 -----------------------------------------------------------------------andrio$Creditability: 1 [1] 2.29 > by(andrio$Duration.of.Credit..month.,andrio$Creditability, mean) andrio$Creditability: 0 [1] 25.335 -----------------------------------------------------------------------andrio$Creditability: 1 [1] 19.20714



>



c. Lakukan analisis boxplot untuk setiap variable predictor. Jelaskan maknanya



1



d. Lakukan linier discriminant analysis (LDA) menggunakan data training untuk membangun model yang dapat digunakan untuk memprediksi kelas risiko kredit. Jelaskan makna persamaan yang didapatkan serta nilai confusion matrix-nya



2



Predictors: Duration of Credit (month), Value Savings/Stocks, Age (years), Length of current employment, Credit Amount Group Count



0 14



1 436



Summary of classification Put into Group



True Group 0 1



3



0 1 Total N N correct Proportion N = 450



12 2 14 12 0.857



192 244 436 244 0.560



N Correct = 256



Proportion Correct = 0.569



(Artinya kebenaran data ini adalah 56,9%) Squared Distance Between Groups 0 1



0 0.000000 0.609476



1 0.609476 0.000000



Linear Discriminant Function for Groups Constant Duration of Credit (month) Value Savings/Stocks Age (years) Length of current employment Credit Amount



0 -8.0581 0.1430 0.0819 0.2099 1.9113 -0.0000



1 -9.3687 0.1130 0.4825 0.2349 1.8600 0.0002



Summary of Misclassified Observations Observation 1**



True Group 1



Pred Group 0



3**



1



0



4**



1



0



5**



1



0



13**



1



0



19**



1



0



24**



1



0



27**



1



0



28**



1



0



30**



1



0



31**



1



0



32**



1



0



33**



1



0



34**



1



0



35**



1



0



36**



1



0



37**



1



0



38**



1



0



40**



1



0



Group 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0



Squared Distance 2.696 4.375 2.247 2.945 1.118 1.257 1.027 1.198 2.760 3.100 6.202 8.057 1.368 2.509 4.219 5.839 3.167 3.779 10.44 10.77 4.209 4.911 3.621 4.893 6.052 6.470 2.758 2.933 2.061 2.571 3.907 4.345 2.637 3.257 3.880 4.940 2.742



4



Probability 0.698 0.302 0.586 0.414 0.517 0.483 0.521 0.479 0.542 0.458 0.717 0.283 0.639 0.361 0.692 0.308 0.576 0.424 0.542 0.458 0.587 0.413 0.654 0.346 0.552 0.448 0.522 0.478 0.563 0.437 0.555 0.445 0.577 0.423 0.630 0.370 0.542



42**



1



0



43**



1



0



47**



1



0



49**



1



0



50**



1



0



51**



1



0



52**



1



0



53**



1



0



58**



1



0



62**



1



0



65**



1



0



68**



1



0



69**



1



0



70**



1



0



73**



1



0



77**



1



0



79**



1



0



81**



1



0



87**



1



0



88**



1



0



93**



1



0



97**



1



0



99**



1



0



100**



1



0



102**



1



0



105**



1



0



106**



1



0



107**



1



0



108**



1



0



109**



1



0



112**



1



0



114**



1



0



117**



1



0



121**



1



0



1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1



3.078 6.713 6.961 0.8607 1.9022 2.276 4.245 3.550 4.037 2.104 3.178 3.264 3.438 3.936 5.665 0.9256 1.6565 1.899 3.098 2.153 3.207 1.569 1.789 1.014 2.465 1.311 2.498 7.307 7.355 6.679 6.795 2.297 2.915 2.688 4.208 1.216 2.210 0.7125 1.7922 3.382 4.370 1.649 2.660 2.866 3.281 1.782 2.434 5.995 6.557 1.394 3.033 1.012 2.369 1.519 3.038 0.5336 1.4266 2.778 3.407 3.828 4.845 4.955 5.050 0.8988 2.1747 1.590 1.924 5.066 6.028



5



0.458 0.531 0.469 0.627 0.373 0.728 0.272 0.561 0.439 0.631 0.369 0.522 0.478 0.704 0.296 0.590 0.410 0.646 0.354 0.629 0.371 0.527 0.473 0.674 0.326 0.644 0.356 0.506 0.494 0.515 0.485 0.577 0.423 0.681 0.319 0.622 0.378 0.632 0.368 0.621 0.379 0.624 0.376 0.552 0.448 0.581 0.419 0.570 0.430 0.694 0.306 0.663 0.337 0.681 0.319 0.610 0.390 0.578 0.422 0.624 0.376 0.512 0.488 0.654 0.346 0.542 0.458 0.618 0.382



122**



1



0



123**



1



0



124**



1



0



129**



1



0



130**



1



0



131**



1



0



132**



1



0



134**



1



0



138**



1



0



144**



1



0



149**



1



0



150**



1



0



152**



1



0



156**



1



0



157**



1



0



159**



0



1



160**



1



0



161**



1



0



163**



1



0



164**



1



0



165**



1



0



167**



1



0



169**



1



0



170**



1



0



171**



1



0



173**



1



0



174**



1



0



175**



1



0



179**



1



0



181**



1



0



182**



1



0



184**



1



0



185**



1



0



189**



1



0



190**



1



0



0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0



5.083 5.728 3.372 3.519 1.412 1.769 0.2356 1.2915 2.100 2.242 1.203 2.780 1.366 1.524 1.929 3.214 0.7841 1.2198 5.725 5.776 0.7797 1.3794 3.826 4.577 1.960 2.478 0.7063 1.5619 1.142 2.304 14.45 14.41 5.444 5.799 0.5613 1.1985 1.598 2.592 1.199 1.627 2.734 4.370 3.503 4.209 1.786 2.716 1.835 2.429 4.047 5.033 1.141 2.375 1.306 2.821 1.003 1.701 0.3278 1.2402 2.487 3.460 2.186 3.414 1.996 3.258 1.825 2.727 5.063 7.038 0.5748



6



0.580 0.420 0.518 0.482 0.545 0.455 0.629 0.371 0.518 0.482 0.688 0.312 0.520 0.480 0.655 0.345 0.554 0.446 0.506 0.494 0.574 0.426 0.593 0.407 0.564 0.436 0.605 0.395 0.641 0.359 0.495 0.505 0.544 0.456 0.579 0.421 0.622 0.378 0.553 0.447 0.694 0.306 0.587 0.413 0.614 0.386 0.574 0.426 0.621 0.379 0.649 0.351 0.681 0.319 0.586 0.414 0.612 0.388 0.619 0.381 0.649 0.351 0.653 0.347 0.611 0.389 0.729 0.271 0.517



191**



1



0



195**



1



0



198**



1



0



200**



1



0



201**



1



0



206**



1



0



207**



1



0



221**



1



0



223**



1



0



228**



1



0



230**



1



0



231**



1



0



232**



1



0



234**



1



0



236**



1



0



237**



1



0



239**



1



0



240**



1



0



242**



1



0



243**



1



0



246**



1



0



247**



1



0



249**



1



0



253**



1



0



254**



1



0



256**



1



0



257**



1



0



258**



1



0



261**



1



0



262**



1



0



263**



1



0



264**



1



0



265**



1



0



267**



1



0



1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1



0.7126 1.225 1.860 0.8724 2.0187 0.3204 1.4772 11.46 13.83 4.565 4.759 4.284 4.454 1.705 3.156 2.111 2.722 1.645 1.886 0.7494 2.0812 10.70 12.23 3.112 4.628 3.821 4.416 2.305 2.849 5.792 6.244 3.632 3.924 3.476 4.378 7.907 8.648 19.77 19.88 1.091 1.736 1.747 2.213 0.7030 2.0654 1.150 1.183 2.663 3.531 5.291 7.092 1.386 2.253 4.602 5.178 2.657 3.363 1.878 2.482 2.186 2.624 2.338 3.357 5.841 7.244 2.000 2.512 1.567 1.627



7



0.483 0.579 0.421 0.639 0.361 0.641 0.359 0.765 0.235 0.524 0.476 0.521 0.479 0.674 0.326 0.576 0.424 0.530 0.470 0.661 0.339 0.682 0.318 0.681 0.319 0.574 0.426 0.568 0.432 0.556 0.444 0.536 0.464 0.611 0.389 0.592 0.408 0.513 0.487 0.580 0.420 0.558 0.442 0.664 0.336 0.504 0.496 0.607 0.393 0.711 0.289 0.607 0.393 0.571 0.429 0.587 0.413 0.575 0.425 0.555 0.445 0.625 0.375 0.669 0.331 0.564 0.436 0.508 0.492



268**



1



0



269**



1



0



270**



1



0



275**



1



0



278**



1



0



279**



1



0



281**



1



0



284**



1



0



288**



1



0



290**



1



0



300**



1



0



301**



1



0



302**



1



0



303**



1



0



306**



1



0



307**



1



0



309**



1



0



314**



1



0



315**



1



0



317**



1



0



318**



1



0



319**



1



0



325**



1



0



332**



1



0



333**



1



0



336**



1



0



338**



1



0



342**



1



0



346**



1



0



349**



1



0



350**



1



0



358**



1



0



359**



1



0



362**



1



0



364**



1



0



0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0



9.652 10.418 2.244 3.439 2.381 2.552 2.228 3.294 1.218 2.047 0.7335 1.5873 2.649 3.342 2.461 2.657 1.946 2.047 0.2863 1.1358 5.183 5.655 3.408 4.094 2.968 3.537 2.249 3.068 2.996 3.393 1.811 2.009 1.758 2.708 3.490 5.225 3.814 3.916 1.617 2.730 1.953 2.518 0.3048 1.2965 0.7919 1.4171 0.4272 1.4727 3.278 4.112 2.945 4.583 2.842 2.855 1.355 2.518 1.282 1.422 0.6878 1.2760 0.6385 1.6374 3.203 4.096 3.726 5.286 2.277 3.256 1.241



8



0.595 0.405 0.645 0.355 0.521 0.479 0.630 0.370 0.602 0.398 0.605 0.395 0.586 0.414 0.525 0.475 0.513 0.487 0.605 0.395 0.559 0.441 0.585 0.415 0.571 0.429 0.601 0.399 0.549 0.451 0.525 0.475 0.617 0.383 0.704 0.296 0.513 0.487 0.636 0.364 0.570 0.430 0.621 0.379 0.578 0.422 0.628 0.372 0.603 0.397 0.694 0.306 0.502 0.498 0.641 0.359 0.518 0.482 0.573 0.427 0.622 0.378 0.610 0.390 0.686 0.314 0.620 0.380 0.607



366**



1



0



368**



1



0



369**



1



0



370**



1



0



371**



1



0



374**



1



0



375**



1



0



376**



1



0



378**



1



0



379**



1



0



381**



1



0



382**



1



0



384**



1



0



386**



1



0



389**



1



0



391**



1



0



394**



1



0



396**



1



0



398**



1



0



399**



1



0



401**



1



0



404**



1



0



408**



1



0



416**



1



0



420**



1



0



421**



1



0



425**



1



0



426**



1



0



431**



1



0



432**



0



1



437**



1



0



438**



1



0



439**



1



0



441**



1



0



1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1



2.113 3.564 3.929 0.4718 1.2657 0.4008 1.5267 0.9529 2.2359 5.873 6.031 2.733 3.648 0.7758 1.1958 1.080 2.252 5.457 5.767 1.410 1.994 2.636 3.330 1.306 2.204 1.910 3.380 1.517 2.823 0.9495 1.3909 1.086 1.480 0.3724 1.1247 4.509 5.701 0.6622 1.7587 1.216 1.478 3.074 4.212 2.119 3.142 1.147 1.967 3.270 4.849 2.688 3.195 0.7265 1.8979 2.978 3.258 4.612 4.813 2.144 3.247 7.630 4.976 0.5445 0.6731 2.069 3.023 3.168 4.096 2.088 3.402



9



0.393 0.545 0.455 0.598 0.402 0.637 0.363 0.655 0.345 0.520 0.480 0.612 0.388 0.552 0.448 0.642 0.358 0.539 0.461 0.572 0.428 0.586 0.414 0.610 0.390 0.676 0.324 0.658 0.342 0.555 0.445 0.549 0.451 0.593 0.407 0.645 0.355 0.634 0.366 0.533 0.467 0.639 0.361 0.625 0.375 0.601 0.399 0.688 0.312 0.563 0.437 0.642 0.358 0.535 0.465 0.525 0.475 0.634 0.366 0.210 0.790 0.516 0.484 0.617 0.383 0.614 0.386 0.659 0.341



442**



1



0



445**



1



0



449**



1



0



0 1 0 1 0 1



2.529 3.242 5.829 5.866 3.263 4.267



0.588 0.412 0.505 0.495 0.623 0.377



e. Berikan sebuah contoh perhitungan untuk mendapatkan nilai prediksi bila terdapat data baru. Misalkan data baru itu adalah data yang sama dengan data ke 450 dari data tes.



2



https://cojamalo.github.io/German_Credit_Analysis/report.html https://github.com/abhaymise/loan_credebility_for_a_customer/blob/master/german_c redit/german_credit.csv a. Lakukan analisis regresi linier terhadap untuk memprediksi variabel MPG. b. Lakukan evaluasi terhadap model regresi yang digunakan serta pengujian asumsinya. MPG 33.5 33.3 31.4 32.8 32.5 29.6 17.8 19.2 22.6 24.4 24.1 18.8 15.8 17.4 15.6 17.3 20.8 21.3



Car type sedan sedan sedan sedan sedan sedan van van van van van van van van SUV SUV SUV SUV



Odomete r 75 60 88 15 102 98 56 72 15.5 22 35 97.5 65.5 42 65 55.5 26.5 77.5



10



Octane 87.5 87.5 78 79 90 87.5 87.5 90 87.5 90 91 87.5 78 78 79 87.5 87.5 90



15 CO.1/ CO.3/Cpp3/ 15 Cpkk1



3



20.7 SUV 19.5 78 24.1 SUV 87 90 23.1 SUV 85 89 a. Lakukan analisis dengan menggunakan regresi logistic untuk memprediksi penumpang selamat atau tidak berdasarkan minimal dari dua predictor yaitu gender dan age (data titanic.csv). Kasus ini adalah binary classification yang artinya memilih dari 2 pilihan (selamat atau tidak). Data set dibagi menjadi dua yaitu training data set (60 %) dan test data set (40 %). Training data set akan kita gunakan untuk membuat model. Test data set adalah dataset yang kita pakai untuk membuat prediksi apakah selamat atau tidak. b. Berikan penjelasan atas output yang didapatkan Jawab :



10



Overview The data has been split into two groups:  



20 CO.1/ CO.3/Cpp3/ Cpkk1



training set (train.csv) test set (test.csv)



The training set should be used to build your machine learning models. For the training set, we provide the outcome (also known as the “ground truth”) for each passenger. Your model will be based on “features” like passengers’ gender and class. You can also use feature engineering to create new features. The test set should be used to see how well your model performs on unseen data. For the test set, we do not provide the ground truth for each passenger. It is your job to predict these outcomes. For each passenger in the test set, use the model you trained to predict whether or not they survived the sinking of the Titanic. We also include gender_submission.csv, a set of predictions that assume all and only female passengers survive, as an example of what a submission file should look like.



Data Dictionary VariableDefinitionKey survival Survival 0 = No, 1 = Yes pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd sex Sex Age Age in years sibsp # of siblings / spouses aboard the Titanic parch # of parents / children aboard the Titanic ticket Ticket number fare Passenger fare cabin Cabin number embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton



Variable Notes pclass: A proxy for socio-economic status (SES) 1st = Upper 2nd = Middle 3rd = Lower age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5 sibsp: The dataset defines family relations in this way...



11



Sibling = brother, sister, stepbrother, stepsister Spouse = husband, wife (mistresses and fiancés were ignored) parch: The dataset defines family relations in this way... Parent = mother, father Child = daughter, son, stepdaughter, stepson Some children travelled only with a nanny, therefore parch=0 for them. https://www.kaggle.com/jeremyd/titanic-logistic-regression-in-r/data



> databaru=read.delim("clipboard") > str(databaru)



> sampel1 traininglogistik testinglogistik modellogistik=glm(Survived~.,data=traininglogistik,family = binomial) > summary(modellogistik)



Binary Logistic Regression: Survived versus Pclass, Age, SibSp, Parch, Fare, Sex Method Link function Categorical predictor coding Rows used



Logit (1, 0) 714



Response Information Variable Survived



Value 1 0 Total



Count 290 424 714



(Event)



Deviance Table Source Regression



DF 6



Adj Dev 328.707



Adj Mean 54.785



Chi-Square 328.71



12



P-Value 0.000



Pclass Age SibSp Parch Fare Sex Error Total



1 1 1 1 1 1 707 713



59.450 31.816 9.440 0.256 0.814 179.370 635.809 964.516



59.450 31.816 9.440 0.256 0.814 179.370 0.899



59.45 31.82 9.44 0.26 0.81 179.37



0.000 0.000 0.002 0.613 0.367 0.000



Regression Analysis: Survived versus Pclass, Age, SibSp, Parch, Fare, Sex Method Categorical predictor coding



(1, 0)



Analysis of Variance Source Regression Pclass Age SibSp Parch Fare Sex Error Lack-of-Fit Pure Error Total



DF 6 1 1 1 1 1 1 707 657 50 713



Adj SS 68.989 10.822 4.893 1.376 0.059 0.119 35.450 103.224 97.890 5.333 172.213



Adj MS 11.4982 10.8219 4.8928 1.3761 0.0593 0.1188 35.4502 0.1460 0.1490 0.1067



F-Value 78.75 74.12 33.51 9.42 0.41 0.81 242.81



P-Value 0.000 0.000 0.000 0.002 0.524 0.367 0.000



1.40



0.070



Model Summary S 0.382102



R-sq 40.06%



R-sq(adj) 39.55%



R-sq(pred) 38.85%



Coefficients Term Constant Pclass Age SibSp Parch Fare Sex male



Coef 1.3656 -0.1939 -0.00653 -0.0533 -0.0121 0.000307



SE Coef 0.0777 0.0225 0.00113 0.0174 0.0190 0.000340



T-Value 17.58 -8.61 -5.79 -3.07 -0.64 0.90



P-Value 0.000 0.000 0.000 0.002 0.524 0.367



VIF 1.74 1.31 1.27 1.28 1.59



-0.4885



0.0313



-15.58



0.000



1.11



Regression Equation Sex female Survived - 0.0121 Parch



=



1.3656



- 0.1939 Pclass



- 0.00653 Age



- 0.0533 SibSp



- 0.00653 Age



- 0.0533 SibSp



+ 0.000307 Fare male Survived = 0.8771 - 0.1939 Pclass - 0.0121 Parch + 0.000307 Fare



> > > >



prediksilogistik=predict(modellogistik,testinglogistik) pred_logreg.5) tabel_logreg confusionMatrix(pred_logreg,testinglogistik$Survived,positive = "1")



Semoga sukses ---------------------



---------------------



a. Jelaskan persyaratan terhadap data predictor dan respon yang dapat digunakan untuk analisis diskriminan Jawaban



Nilai 8 6 2 0



Deskripsi Predictor bersifat numerik, Respon bersifat kategorik dengan dua kelas atau tiga kelas Diberikan persyaratan untuk prediktor saja atau kategorik saja Menjawab tapi salah Tidak menjawab



b. Lakukan analisis group means menggunakan data total 900 observasi berdasarkan nilai creditability sebagai grouping variable. Jelaskan maknanya untuk setiap variable predictor Poin Penilaian Semua rata-rata benar Sebagian benar Peserta menjawab tapi salah Peserta tidak menjawab sama sekali



8 6 2 0



Jawaban



Results for: soal900.MTW Descriptive Statistics: Duration.of.Credit..month. Variable Duration.of.Credit..mont



Creditability 0 1



N 237 663



N* 0 0



Variable Duration.of.Credit..mont



Creditability 0 1



Median 24,000 18,000



14



Mean 25,110 19,109 Q3 36,000 24,000



SE Mean 0,865 0,431 Maximum 72,000 60,000



StDev 13,323 11,088



Minimum 6,000 4,000



Q1 15,000 12,000



dari output diatas jika diperhatikan bahwa rata -rata yang membayar kredit tidak tepat waktu pada dengan duration of creditnya 26.23846, credit amount nya rata-rata 441.569, value saving sebesar 1.576923, lengh of current sebesar 2.284615 dan yang terakhir age nya sebesar 33.50769. Sedangkan rata-rata nasabah yang membayar credit tepat waktu pada masing-masing variabel predictor seperti variabel duration of credit sebesar 19.81250, credit amount sebesar 2876.553, value saving stock sebesar 2.015625, length of current sebesar 19.81250 dan yang terahir dari segi usia rata-rata 36 tahun. dari output diatas jika diperhatikan nasabah yang cenderung membayar tepat waktu dengan ciri ciri duration of credit nya kecil,kemudian usiangnya rata-rata 36 tahun



c. Lakukan analisis boxplot untuk setiap variable predictor. Jelaskan maknanya Poin Penilaian Membaut boxplot dan menjelaskannya Membuat boxplot dan tidak menjelaskannya Peserta tidak menjawab sama sekali



8 4 0



Boxplot of Value.Savings.Stocks 4,0



Value.Savings.Stocks



3,5 3,0 2,5



2,0 1,5 1,0 0



1



Creditability Duration Of credit



15



Boxplot of Credit.Amount 20000



Credit.Amount



15000



10000



5000



0 0



1



Creditability Jika diperhatikan boxplot diatas diketahui bahwa terdapat data outlier yaitu berada dikisaran nilai 60. Selain itu inforasi yang didapatkan dada boxplot diatas yaitu nilai Q1 12, MEDIAN 18 Q3 27 dan range kuarti 1 dengan kuartil 3 sebesar 15 dengan total data 450. Credit Amount



Boxplot of Duration.of.Credit..month. 80



Duration.of.Credit..month.



70 60 50 40 30 20 10 0 0



1



Creditability pada boxplot credit amount diatas tidak jauh berbeda dengan boxplot sebelumnya masih terdapat data outlier yang menyebar jauh diatas nilai kuarti 3 data. Nilai kuarti 1 pada boxplot diatas sebesar 1359.5, kuartil 2 sebesar 2241, kuartil 3 sebesar 3941.5 dengan total data sebesar 450.



16



pada data value saving diatas nilai kuartil satu sama dengan nilai median yaitu masing-masing bernilai 1. Kemudian nilai uartil 3 sebesar 3 dari total data 450.Nilai tersebuti berbeda dengan boxplot sebelumnya hal ini diakibatkan nilai pada data value saving rentangnya sangat kecil. Length of Current



Pada boxpot length of current diatas jiak diperhatikan tidak terdapat adanya data outlier. Hasilnya tidak jauh berbeda dengan boxplot sebelumnya pada value saving nilai median dan kuartilnya sama yaitu 2 dan kuartil 3 sebesar 3.25 dengan total data sebesar 450.



Jika diperhatikan pada boxplot usia diatas terdapat data outlier yaitu berada diatas usia 6 tahun dengan nilai kuartil 1 27, median sebesar 33 dan kuartil 3 sebesar 41.



d. Lakukan linier discriminant analysis (LDA) menggunakan data training untuk membangun model yang dapat digunakan untuk memprediksi kelas risiko kredit. Jelaskan makna persamaan yang didapatkan serta nilai confusion matrix-nya Poin Penilaian Membuat model LDA dan menjelaskannya 8 Membuat model LDA dan tidak menjelaskannya 4 Peserta menjawab tapi salah 2 Peserta tidak menjawab sama sekali 0



17



Jawaban Coefficients of linear discriminants: LD1 Duration.of.Credit..month. -5.202029e-02 Credit.Amount -8.210601e-05 Value.Savings.Stocks 4.263134e-01 Length.of.current.employment 2.835502e-01 Age..years. 1.593387e-02



e. Berikan sebuah contoh perhitungan untuk mendapatkan nilai prediksi bila terdapat data baru. Misalkan data baru itu adalah data yang sama dengan data ke 450 dari data tes. Poin Penilaian Menanpilkan script yang ada di R dan menjelaskannya Peserta melakukan salah satu diantara poin yang pertama Peserta menjawab tapi salah Peserta tidak menjawab sama sekali



8 4 2 0



Jawaban prediksi$class [1] 1 1 1 1 1 [32] 1 1 1 1 1 [63] 1 1 1 1 1 [94] 1 1 1 1 1 [125] 1 1 1 1 1 [156] 1 1 1 1 1 [187] 1 1 1 1 1 [218] 0 1 1 1 1 [249] 1 1 1 1 0 [280] 1 1 1 1 1 [311] 1 1 1 1 0 [342] 1 1 0 1 1 [373] 1 1 1 1 1 [404] 1 1 1 1 1 [435] 1 1 0 1 0 Levels: 0 1



1 1 1 1 1 1 1 1 0 1 0 0 1 0 1



1 1 1 1 1 1 1 1 0 1 1 1 0 1 0



1 1 1 1 1 1 1 1 1 1 1 0 1 1 1



0 1 1 1 1 1 1 1 1 1 1 1 1 1 1



1 1 1 1 1 1 1 1 1 1 1 1 1 1 1



1 1 1 1 1 1 1 1 1 0 1 1 1 1 1



1 1 1 1 1 1 1 1 1 1 1 1 0 1 1



1 1 1 1 1 1 1 1 1 0 1 0 1 0 1



1 1 1 1 1 1 1 1 1 1 1 1 1 0 1



1 1 1 1 1 1 1 1 1 1 1 1 1 1 1



1 1 1 1 1 1 1 1 1 1 1 0 1 1 1



1 1 1 1 1 1 1 1 1 1 1 1 1 1



1 1 1 1 1 1 1 1 1 1 1 1 1 1



1 1 1 0 1 1 1 1 1 1 1 1 1 0



1 1 1 1 1 1 1 1 1 1 1 0 1 0



1 1 0 1 1 1 1 1 1 1 1 1 1 1



1 1 1 1 1 1 1 1 1 1 1 1 1 1



0 1 1 1 1 1 1 1 1 1 1 1 1 1



1 1 1 1 1 1 1 1 1 1 1 1 1 1



1 0 1 1 1 1 1 1 1 1 1 1 1 1



1 1 1 1 1 1 1 1 0 1 1 1 1 1



2. a. Lakukan analisis regresi linier terhadap untuk memprediksi variabel MPG. Poin Penilaian Nilai Mampu menampilkan model regresi dan menentukan 15 variabel predictor dan respon serta menjelaskannya Mampu menampilkan analisis regresi dan tidak 10 menjelaskannya Mampu menampilkan analisis regresi salah menentukan 5 variabel respon dan predictor Peserta menjawab tapi salah sama sekali 2 Peserta tidak menjawab sama sekali 0 Jawaban



Regression Analysis: MPG versus Odometer; Octane; Car type Method Categorical predictor coding



(1; 0)



Analysis of Variance Source Regression



DF 4



Adj SS 8303



Adj MS 2076



F-Value 0,85



P-Value 0,515



18



1 1 1 1 1 1 1 1 0 1 1 1 1 1



1 1 1 1 1 1 1 1 1 0 1 1 1 1



1 1 1 1 1 1 1 1 1 1 1 1 1 0



1 1 1 1 1 1 1 1 1 0 1 1 1 1



1 1 1 1 1 1 1 1 1 1 1 1 1 0



Odometer Octane Car type Error Total



1 1 2 16 20



2453 4519 2197 39178 47481



2453 4519 1098 2449



1,00 1,85 0,45



0,332 0,193 0,646



Model Summary S 49,4836



R-sq 17,49%



R-sq(adj) 0,00%



R-sq(pred) 0,00%



Coefficients Term Constant Odometer Octane Car type SUV van



Coef -210 -0,423 3,21



SE Coef 195 0,423 2,36



T-Value -1,07 -1,00 1,36



P-Value 0,299 0,332 0,193



VIF 1,22 1,10



-20,5 1,9



28,3 28,8



-0,72 0,07



0,479 0,947



1,53 1,68



Regression Equation Car type sedan



MPG = -210 - 0,423 Odometer + 3,21 Octane



SUV



MPG = -230 - 0,423 Odometer + 3,21 Octane



van



MPG = -208 - 0,423 Odometer + 3,21 Octane



Fits and Diagnostics for Unusual Observations Obs 11 R



MPG 245,1



Fit 69,7



Resid 175,4



Std Resid 4,00



R



Large residual



Call: lm(formula = MPG ~ Odometer + Octane, data = dataku) Residuals: Min 1Q Median -7.2354 -5.3667 -0.8997



3Q Max 4.6302 11.4080



Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 9.97664 24.97812 0.399 0.694 Odometer 0.02887 0.05067 0.570 0.576 Octane 0.13902 0.29737 0.467 0.646 Residual standard error: 6.355 on 18 degrees of freedom Multiple R-squared: 0.03798, Adjusted R-squared: -0.06891 F-statistic: 0.3553 on 2 and 18 DF, p-value: 0.7058 Analysis of Variance Source Regression Odometer Octane Error Total



DF 2 1 1 18 20



Adj SS 28,701 13,111 8,827 727,017 755,718



Adj MS 14,351 13,111 8,827 40,390



F-Value 0,36 0,32 0,22



P-Value 0,706 0,576 0,646



Model Summary



19



S 6,35530



R-sq 3,80%



R-sq(adj) 0,00%



R-sq(pred) 0,00%



Coefficients Term Constant Odometer Octane



Coef 10,0 0,0289 0,139



SE Coef 25,0 0,0507 0,297



T-Value 0,40 0,57 0,47



P-Value 0,694 0,576 0,646



VIF 1,06 1,06



Dari hasil output diatas diketahui bahwa yang menjadi respon adalah MPG sedangkan yang menjadi predictor adalah Odometer dan Octane. Jika diperhatika kedua variabel prediktor tidak signifkan terhadap variabel respon MPG.



b. Lakukan evaluasi terhadap model regresi yang digunakan serta pengujian asumsinya. Poin Penilaian Nilai Melakukan evaluasi model dan melakukan seluruh uji 15 asumsi Melakukan evaluasi model dan hanya melakukan 3 uji 13 asumsi Melakukan evaluasi model dan hanya melakukan 2 uji 10 asumsi Melakukan evaluasi model dan hanya melakukan 21uji 8 asumsi Melakukan evaluasi model tidak melakukan uji asumsi 5 Peserta menjawab tapi salah sama sekali 2 Peserta tidak menjawab sama sekali 0 jika diperhatikan pada hasil regresi diatas diketahui bahwa variabel Odometer dan Octane tidak berpengaruh secara signifikan karena nilai p-valuenya lebih dari 0.05 uji normalitas



jika diperhatikan plot diatas residual data masih agak sedikit membingungkan apakah residual data berdistribusi noral atau tidak. Karena banyak titik-titik menjauhi garis tapi disisilai juga terdapat ititk titik yang mendekati garis. sehingga untuk menguatkan apakah residual dari data berdistribusi normal atau tidak maka digunakan uji normalitas. beriktu diabawah ini adalah hasil dari uji nromalitas. ----------------------------------------------Test Statistic pvalue ----------------------------------------------Shapiro-Wilk 0.9034 0.0407 Kolmogorov-Smirnov 0.1361 0.7829 Cramer-von Mises 1.9386 0.0000 Anderson-Darling 0.7045 0.0560 ----------------------------------------------jika diperhatikan tabel normalitas diatas terdapat dua metode yang menyatakan normal dan dua metode yang menyatakan tidak normal. Karena jumlah data kurang dari 30



20



maka yang dipilih adalah shapiro wilk test. Nilai p-Value pada Shapiro sebesar 0.00407 dwtest(model) Durbin-Watson test data: model DW = 0.3679, p-value = 6.648e-07 alternative hypothesis: true autocorrelation is greater than 0 jika diperhatika nilai p-Value yang dihasilkan 0.0000006648 lmtest::bptest(model) studentized Breusch-Pagan test data: model BP = 3.6082, df = 2, p-value = 0.1646



nilai p-value lebih besar dari 0.05 0.1646>0.05 maka terima h0 artinya ragam sisaan homogen ragam sisaan homogen 4. multikolonieritas > ols_vif_tol(model) # A tibble: 2 x 3 Variables Tolerance VIF



1 Odometer 0.943 1.06 2 Octane 0.943 1.06 Soal Nomor 3



e. Lakukan analisis dengan menggunakan regresi logistic untuk memprediksi penumpang selamat atau tidak berdasarkan minimal dari dua predictor yaitu gender dan age (data titanic.csv). Kasus ini adalah binary classification yang artinya memilih dari 2 pilihan (selamat atau tidak). Data set dibagi menjadi dua yaitu training data set (60 %) dan test data set (40 %). Training data set akan kita gunakan untuk



21



membuat model. Test data set adalah dataset yang kita pakai untuk membuat prediksi apakah selamat atau tidak. > databaru=read.delim("clipboard") > sampel1 traininglogistik testinglogistik modellogistik=glm(Survived~.,data=traininglogistik,family = binomial) > summary(modellogistik) Call: glm(formula = Survived ~ ., family = binomial, data = traininglogistik) Deviance Residuals: Min 1Q Median -1.6170 -0.6318 -0.6278



3Q 0.8012



Max 1.8634



Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.9934721 0.2673455 3.716 0.000202 *** Sexmale -2.4859605 0.2154058 -11.541 < 2e-16 *** Age -0.0008023 0.0077239 -0.104 0.917268 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 705.42 Residual deviance: 546.42 AIC: 552.42



on 531 on 529



degrees of freedom degrees of freedom



Number of Fisher Scoring iterations: 4 > prediksilogistik=predict(modellogistik,testinglogistik) > pred_logreg.5) > pred_logreg [1] 1 1 1 0 0 1 0 0 1 0 1 0 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 1 0 0 [41] 0 0 1 0 0 0 1 0 1 1 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 0 1 1 0 [81] 0 0 0 1 0 1 0 1 1 0 0 0 0 1 0 0 0 1 1 0 1 1 0 0 1 1 1 0 1 0 [121] 1 1 0 1 0 0 1 0 1 0 1 1 0 0 0 0 0 1 1 0 1 1 1 0 1 1 0 0 1 1 [161] 0 0 0 1 1 0 1 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 1 1 [201] 0 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0 1 0 [241] 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 1 1 0 0 0 0 0 1 0 0 0 1 0 0 [281] 0 1 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 [321] 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0



22



1 0 0 0 0 0 1 0 1 0 0 0 1 1 0 0 0 1 1 1 0 1 0 1 1 1 0 1 0 1 0 1 0 0 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0 0 1 0 1 0 0 0 1 0



Soal nomor 1 B pakai R > dataku=read.delim("clipboard") > View(dataku) > library(MASS) > train=sample(1:900,450) > table(dataku$Sp[train]) < table of extent 0 > > dim(dataku) [1] 900 21 > dim(train) NULL > table(dataku$Creditability[train]) 0 1 94 356



> discri=lda(dataku$Creditability ~ dataku$Value.Savings.Stocks+dataku$Length.of.current.employme +dataku$Credit.Amount+dataku$Age..years., subset = train) > discri Call: lda(dataku$Creditability ~ dataku$Value.Savings.Stocks + dataku$Length.of.current.employment + dataku$Duration.of.Credit..month. + dataku$Credit.Amount + dataku$Age..years., subset = train) Prior probabilities of groups: 0 1 0.2088889 0.7911111 Group means: dataku$Value.Savings.Stocks dataku$Length.of.current.employment 0 1.829787 3.095745 1 2.272472 3.505618 dataku$Duration.of.Credit..month. dataku$Credit.Amount 0 26.67021 >lebih lama 3617.340 1 19.65730 3043.663 dataku$Age..years. 0 33.60638 1 36.25000 Coefficients of linear discriminants: LD1 dataku$Value.Savings.Stocks 0.2265407636 dataku$Length.of.current.employment 0.4089989736 dataku$Duration.of.Credit..month. -0.0858664528 dataku$Credit.Amount 0.0001463224 dataku$Age..years. 0.0094115318



>



23