Soal UTS Statistik Multivariat [PDF]

No Soal Bobot CO/CPL 1 Kasus : Minimization of risk and maximization of profit on behalf of the bank CO.1/CO.2/ Respon :

5 0 2 MB

Report DMCA / Copyright

DOWNLOAD FILE

Soal Uts Statistik

0 0 127 KB Read more

Soal UTS Statistik 1

0 0 223 KB Read more

Soal Uts Statistik

0 0 128 KB Read more

Penggunaan Statistik Multivariat Dalam Penelitian

0 0 16 MB Read more

Buku Latihan SPSS - Statistik Multivariat

0 0 73 MB Read more

Soal UTS Statistik 2020 - 2021

4 0 707 KB Read more

Uts Kelompok Iii Statistik

1 0 272 KB Read more

Jawaban Uts Statistik Inferensial

4 0 146 KB Read more

Soal UTS Statistik Genap 2019-2020

4 0 85 KB Read more

Soal D UTS Statistik Genap S1PTI

0 0 129 KB Read more

File loading please wait...

Citation preview

No Soal Bobot CO/CPL 1 Kasus : Minimization of risk and maximization of profit on behalf of the bank CO.1/CO.2/ Respon : Creditability (1=Good credit risk, 2= Bad credit risk) CO.3/Cpp3/ Prediktor : Value Savings Stocks, Length of current employment, Duration of Credit, Cpkk1 Credit Amount, Age Data : German_credit.csv (total 900 observasi), 450 untuk training dan 450 untuk uji (tes) a. Jelaskan persyaratan terhadap data predictor dan respon yang dapat digunakan untuk analisis diskriminan 8 Predictor bersifat numerik, Respon bersifat kategorik dengan dua kelas atau tiga kelas 8 b. Lakukan analisis group means menggunakan data total 900 observasi berdasarkan nilai creditability sebagai grouping variable. Jelaskan maknanya untuk setiap variable predictor 8 8

8

With R > andrio=read.delim("clipboard") > View(andrio) > library(MASS) > train=sample(1:900,450) > table(dataku$Sp[train]) < table of extent 0 > > dim(dataku) [1] 7 3 > by(andrio$Value.Savings.Stocks,andrio$Creditability, mean) andrio$Creditability: 0 [1] 1.75 -----------------------------------------------------------------------andrio$Creditability: 1 [1] 2.29 > by(andrio$Duration.of.Credit..month.,andrio$Creditability, mean) andrio$Creditability: 0 [1] 25.335 -----------------------------------------------------------------------andrio$Creditability: 1 [1] 19.20714

>

c. Lakukan analisis boxplot untuk setiap variable predictor. Jelaskan maknanya

1

d. Lakukan linier discriminant analysis (LDA) menggunakan data training untuk membangun model yang dapat digunakan untuk memprediksi kelas risiko kredit. Jelaskan makna persamaan yang didapatkan serta nilai confusion matrix-nya

2

Predictors: Duration of Credit (month), Value Savings/Stocks, Age (years), Length of current employment, Credit Amount Group Count

0 14

1 436

Summary of classification Put into Group

True Group 0 1

3

0 1 Total N N correct Proportion N = 450

12 2 14 12 0.857

192 244 436 244 0.560

N Correct = 256

Proportion Correct = 0.569

(Artinya kebenaran data ini adalah 56,9%) Squared Distance Between Groups 0 1

0 0.000000 0.609476

1 0.609476 0.000000

Linear Discriminant Function for Groups Constant Duration of Credit (month) Value Savings/Stocks Age (years) Length of current employment Credit Amount

0 -8.0581 0.1430 0.0819 0.2099 1.9113 -0.0000

1 -9.3687 0.1130 0.4825 0.2349 1.8600 0.0002

Summary of Misclassified Observations Observation 1**

True Group 1

Pred Group 0

3**

1

0

4**

1

0

5**

1

0

13**

1

0

19**

1

0

24**

1

0

27**

1

0

28**

1

0

30**

1

0

31**

1

0

32**

1

0

33**

1

0

34**

1

0

35**

1

0

36**

1

0

37**

1

0

38**

1

0

40**

1

0

Group 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0

Squared Distance 2.696 4.375 2.247 2.945 1.118 1.257 1.027 1.198 2.760 3.100 6.202 8.057 1.368 2.509 4.219 5.839 3.167 3.779 10.44 10.77 4.209 4.911 3.621 4.893 6.052 6.470 2.758 2.933 2.061 2.571 3.907 4.345 2.637 3.257 3.880 4.940 2.742

4

Probability 0.698 0.302 0.586 0.414 0.517 0.483 0.521 0.479 0.542 0.458 0.717 0.283 0.639 0.361 0.692 0.308 0.576 0.424 0.542 0.458 0.587 0.413 0.654 0.346 0.552 0.448 0.522 0.478 0.563 0.437 0.555 0.445 0.577 0.423 0.630 0.370 0.542

42**

1

0

43**

1

0

47**

1

0

49**

1

0

50**

1

0

51**

1

0

52**

1

0

53**

1

0

58**

1

0

62**

1

0

65**

1

0

68**

1

0

69**

1

0

70**

1

0

73**

1

0

77**

1

0

79**

1

0

81**

1

0

87**

1

0

88**

1

0

93**

1

0

97**

1

0

99**

1

0

100**

1

0

102**

1

0

105**

1

0

106**

1

0

107**

1

0

108**

1

0

109**

1

0

112**

1

0

114**

1

0

117**

1

0

121**

1

0

1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1

3.078 6.713 6.961 0.8607 1.9022 2.276 4.245 3.550 4.037 2.104 3.178 3.264 3.438 3.936 5.665 0.9256 1.6565 1.899 3.098 2.153 3.207 1.569 1.789 1.014 2.465 1.311 2.498 7.307 7.355 6.679 6.795 2.297 2.915 2.688 4.208 1.216 2.210 0.7125 1.7922 3.382 4.370 1.649 2.660 2.866 3.281 1.782 2.434 5.995 6.557 1.394 3.033 1.012 2.369 1.519 3.038 0.5336 1.4266 2.778 3.407 3.828 4.845 4.955 5.050 0.8988 2.1747 1.590 1.924 5.066 6.028

5

0.458 0.531 0.469 0.627 0.373 0.728 0.272 0.561 0.439 0.631 0.369 0.522 0.478 0.704 0.296 0.590 0.410 0.646 0.354 0.629 0.371 0.527 0.473 0.674 0.326 0.644 0.356 0.506 0.494 0.515 0.485 0.577 0.423 0.681 0.319 0.622 0.378 0.632 0.368 0.621 0.379 0.624 0.376 0.552 0.448 0.581 0.419 0.570 0.430 0.694 0.306 0.663 0.337 0.681 0.319 0.610 0.390 0.578 0.422 0.624 0.376 0.512 0.488 0.654 0.346 0.542 0.458 0.618 0.382

122**

1

0

123**

1

0

124**

1

0

129**

1

0

130**

1

0

131**

1

0

132**

1

0

134**

1

0

138**

1

0

144**

1

0

149**

1

0

150**

1

0

152**

1

0

156**

1

0

157**

1

0

159**

0

1

160**

1

0

161**

1

0

163**

1

0

164**

1

0

165**

1

0

167**

1

0

169**

1

0

170**

1

0

171**

1

0

173**

1

0

174**

1

0

175**

1

0

179**

1

0

181**

1

0

182**

1

0

184**

1

0

185**

1

0

189**

1

0

190**

1

0

0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0

5.083 5.728 3.372 3.519 1.412 1.769 0.2356 1.2915 2.100 2.242 1.203 2.780 1.366 1.524 1.929 3.214 0.7841 1.2198 5.725 5.776 0.7797 1.3794 3.826 4.577 1.960 2.478 0.7063 1.5619 1.142 2.304 14.45 14.41 5.444 5.799 0.5613 1.1985 1.598 2.592 1.199 1.627 2.734 4.370 3.503 4.209 1.786 2.716 1.835 2.429 4.047 5.033 1.141 2.375 1.306 2.821 1.003 1.701 0.3278 1.2402 2.487 3.460 2.186 3.414 1.996 3.258 1.825 2.727 5.063 7.038 0.5748

6

0.580 0.420 0.518 0.482 0.545 0.455 0.629 0.371 0.518 0.482 0.688 0.312 0.520 0.480 0.655 0.345 0.554 0.446 0.506 0.494 0.574 0.426 0.593 0.407 0.564 0.436 0.605 0.395 0.641 0.359 0.495 0.505 0.544 0.456 0.579 0.421 0.622 0.378 0.553 0.447 0.694 0.306 0.587 0.413 0.614 0.386 0.574 0.426 0.621 0.379 0.649 0.351 0.681 0.319 0.586 0.414 0.612 0.388 0.619 0.381 0.649 0.351 0.653 0.347 0.611 0.389 0.729 0.271 0.517

191**

1

0

195**

1

0

198**

1

0

200**

1

0

201**

1

0

206**

1

0

207**

1

0

221**

1

0

223**

1

0

228**

1

0

230**

1

0

231**

1

0

232**

1

0

234**

1

0

236**

1

0

237**

1

0

239**

1

0

240**

1

0

242**

1

0

243**

1

0

246**

1

0

247**

1

0

249**

1

0

253**

1

0

254**

1

0

256**

1

0

257**

1

0

258**

1

0

261**

1

0

262**

1

0

263**

1

0

264**

1

0

265**

1

0

267**

1

0

1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1

0.7126 1.225 1.860 0.8724 2.0187 0.3204 1.4772 11.46 13.83 4.565 4.759 4.284 4.454 1.705 3.156 2.111 2.722 1.645 1.886 0.7494 2.0812 10.70 12.23 3.112 4.628 3.821 4.416 2.305 2.849 5.792 6.244 3.632 3.924 3.476 4.378 7.907 8.648 19.77 19.88 1.091 1.736 1.747 2.213 0.7030 2.0654 1.150 1.183 2.663 3.531 5.291 7.092 1.386 2.253 4.602 5.178 2.657 3.363 1.878 2.482 2.186 2.624 2.338 3.357 5.841 7.244 2.000 2.512 1.567 1.627

7

0.483 0.579 0.421 0.639 0.361 0.641 0.359 0.765 0.235 0.524 0.476 0.521 0.479 0.674 0.326 0.576 0.424 0.530 0.470 0.661 0.339 0.682 0.318 0.681 0.319 0.574 0.426 0.568 0.432 0.556 0.444 0.536 0.464 0.611 0.389 0.592 0.408 0.513 0.487 0.580 0.420 0.558 0.442 0.664 0.336 0.504 0.496 0.607 0.393 0.711 0.289 0.607 0.393 0.571 0.429 0.587 0.413 0.575 0.425 0.555 0.445 0.625 0.375 0.669 0.331 0.564 0.436 0.508 0.492

268**

1

0

269**

1

0

270**

1

0

275**

1

0

278**

1

0

279**

1

0

281**

1

0

284**

1

0

288**

1

0

290**

1

0

300**

1

0

301**

1

0

302**

1

0

303**

1

0

306**

1

0

307**

1

0

309**

1

0

314**

1

0

315**

1

0

317**

1

0

318**

1

0

319**

1

0

325**

1

0

332**

1

0

333**

1

0

336**

1

0

338**

1

0

342**

1

0

346**

1

0

349**

1

0

350**

1

0

358**

1

0

359**

1

0

362**

1

0

364**

1

0

0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0

9.652 10.418 2.244 3.439 2.381 2.552 2.228 3.294 1.218 2.047 0.7335 1.5873 2.649 3.342 2.461 2.657 1.946 2.047 0.2863 1.1358 5.183 5.655 3.408 4.094 2.968 3.537 2.249 3.068 2.996 3.393 1.811 2.009 1.758 2.708 3.490 5.225 3.814 3.916 1.617 2.730 1.953 2.518 0.3048 1.2965 0.7919 1.4171 0.4272 1.4727 3.278 4.112 2.945 4.583 2.842 2.855 1.355 2.518 1.282 1.422 0.6878 1.2760 0.6385 1.6374 3.203 4.096 3.726 5.286 2.277 3.256 1.241

8

0.595 0.405 0.645 0.355 0.521 0.479 0.630 0.370 0.602 0.398 0.605 0.395 0.586 0.414 0.525 0.475 0.513 0.487 0.605 0.395 0.559 0.441 0.585 0.415 0.571 0.429 0.601 0.399 0.549 0.451 0.525 0.475 0.617 0.383 0.704 0.296 0.513 0.487 0.636 0.364 0.570 0.430 0.621 0.379 0.578 0.422 0.628 0.372 0.603 0.397 0.694 0.306 0.502 0.498 0.641 0.359 0.518 0.482 0.573 0.427 0.622 0.378 0.610 0.390 0.686 0.314 0.620 0.380 0.607

366**

1

0

368**

1

0

369**

1

0

370**

1

0

371**

1

0

374**

1

0

375**

1

0

376**

1

0

378**

1

0

379**

1

0

381**

1

0

382**

1

0

384**

1

0

386**

1

0

389**

1

0

391**

1

0

394**

1

0

396**

1

0

398**

1

0

399**

1

0

401**

1

0

404**

1

0

408**

1

0

416**

1

0

420**

1

0

421**

1

0

425**

1

0

426**

1

0

431**

1

0

432**

0

1

437**

1

0

438**

1

0

439**

1

0

441**

1

0

1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1

2.113 3.564 3.929 0.4718 1.2657 0.4008 1.5267 0.9529 2.2359 5.873 6.031 2.733 3.648 0.7758 1.1958 1.080 2.252 5.457 5.767 1.410 1.994 2.636 3.330 1.306 2.204 1.910 3.380 1.517 2.823 0.9495 1.3909 1.086 1.480 0.3724 1.1247 4.509 5.701 0.6622 1.7587 1.216 1.478 3.074 4.212 2.119 3.142 1.147 1.967 3.270 4.849 2.688 3.195 0.7265 1.8979 2.978 3.258 4.612 4.813 2.144 3.247 7.630 4.976 0.5445 0.6731 2.069 3.023 3.168 4.096 2.088 3.402

9

0.393 0.545 0.455 0.598 0.402 0.637 0.363 0.655 0.345 0.520 0.480 0.612 0.388 0.552 0.448 0.642 0.358 0.539 0.461 0.572 0.428 0.586 0.414 0.610 0.390 0.676 0.324 0.658 0.342 0.555 0.445 0.549 0.451 0.593 0.407 0.645 0.355 0.634 0.366 0.533 0.467 0.639 0.361 0.625 0.375 0.601 0.399 0.688 0.312 0.563 0.437 0.642 0.358 0.535 0.465 0.525 0.475 0.634 0.366 0.210 0.790 0.516 0.484 0.617 0.383 0.614 0.386 0.659 0.341

442**

1

0

445**

1

0

449**

1

0

0 1 0 1 0 1

2.529 3.242 5.829 5.866 3.263 4.267

0.588 0.412 0.505 0.495 0.623 0.377

e. Berikan sebuah contoh perhitungan untuk mendapatkan nilai prediksi bila terdapat data baru. Misalkan data baru itu adalah data yang sama dengan data ke 450 dari data tes.

2

https://cojamalo.github.io/German_Credit_Analysis/report.html https://github.com/abhaymise/loan_credebility_for_a_customer/blob/master/german_c redit/german_credit.csv a. Lakukan analisis regresi linier terhadap untuk memprediksi variabel MPG. b. Lakukan evaluasi terhadap model regresi yang digunakan serta pengujian asumsinya. MPG 33.5 33.3 31.4 32.8 32.5 29.6 17.8 19.2 22.6 24.4 24.1 18.8 15.8 17.4 15.6 17.3 20.8 21.3

Car type sedan sedan sedan sedan sedan sedan van van van van van van van van SUV SUV SUV SUV

Odomete r 75 60 88 15 102 98 56 72 15.5 22 35 97.5 65.5 42 65 55.5 26.5 77.5

10

Octane 87.5 87.5 78 79 90 87.5 87.5 90 87.5 90 91 87.5 78 78 79 87.5 87.5 90

15 CO.1/ CO.3/Cpp3/ 15 Cpkk1

3

20.7 SUV 19.5 78 24.1 SUV 87 90 23.1 SUV 85 89 a. Lakukan analisis dengan menggunakan regresi logistic untuk memprediksi penumpang selamat atau tidak berdasarkan minimal dari dua predictor yaitu gender dan age (data titanic.csv). Kasus ini adalah binary classification yang artinya memilih dari 2 pilihan (selamat atau tidak). Data set dibagi menjadi dua yaitu training data set (60 %) dan test data set (40 %). Training data set akan kita gunakan untuk membuat model. Test data set adalah dataset yang kita pakai untuk membuat prediksi apakah selamat atau tidak. b. Berikan penjelasan atas output yang didapatkan Jawab :

10

Overview The data has been split into two groups:  

20 CO.1/ CO.3/Cpp3/ Cpkk1

training set (train.csv) test set (test.csv)

The training set should be used to build your machine learning models. For the training set, we provide the outcome (also known as the “ground truth”) for each passenger. Your model will be based on “features” like passengers’ gender and class. You can also use feature engineering to create new features. The test set should be used to see how well your model performs on unseen data. For the test set, we do not provide the ground truth for each passenger. It is your job to predict these outcomes. For each passenger in the test set, use the model you trained to predict whether or not they survived the sinking of the Titanic. We also include gender_submission.csv, a set of predictions that assume all and only female passengers survive, as an example of what a submission file should look like.

Data Dictionary VariableDefinitionKey survival Survival 0 = No, 1 = Yes pclass Ticket class 1 = 1st, 2 = 2nd, 3 = 3rd sex Sex Age Age in years sibsp # of siblings / spouses aboard the Titanic parch # of parents / children aboard the Titanic ticket Ticket number fare Passenger fare cabin Cabin number embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton

Variable Notes pclass: A proxy for socio-economic status (SES) 1st = Upper 2nd = Middle 3rd = Lower age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5 sibsp: The dataset defines family relations in this way...

11

Sibling = brother, sister, stepbrother, stepsister Spouse = husband, wife (mistresses and fiancés were ignored) parch: The dataset defines family relations in this way... Parent = mother, father Child = daughter, son, stepdaughter, stepson Some children travelled only with a nanny, therefore parch=0 for them. https://www.kaggle.com/jeremyd/titanic-logistic-regression-in-r/data

> databaru=read.delim("clipboard") > str(databaru)

> sampel1 traininglogistik testinglogistik modellogistik=glm(Survived~.,data=traininglogistik,family = binomial) > summary(modellogistik)

Binary Logistic Regression: Survived versus Pclass, Age, SibSp, Parch, Fare, Sex Method Link function Categorical predictor coding Rows used

Logit (1, 0) 714

Response Information Variable Survived

Value 1 0 Total

Count 290 424 714

(Event)

Deviance Table Source Regression

DF 6

Adj Dev 328.707

Adj Mean 54.785

Chi-Square 328.71

12

P-Value 0.000

Pclass Age SibSp Parch Fare Sex Error Total

1 1 1 1 1 1 707 713

59.450 31.816 9.440 0.256 0.814 179.370 635.809 964.516

59.450 31.816 9.440 0.256 0.814 179.370 0.899

59.45 31.82 9.44 0.26 0.81 179.37

0.000 0.000 0.002 0.613 0.367 0.000

Regression Analysis: Survived versus Pclass, Age, SibSp, Parch, Fare, Sex Method Categorical predictor coding

(1, 0)

Analysis of Variance Source Regression Pclass Age SibSp Parch Fare Sex Error Lack-of-Fit Pure Error Total

DF 6 1 1 1 1 1 1 707 657 50 713

Adj SS 68.989 10.822 4.893 1.376 0.059 0.119 35.450 103.224 97.890 5.333 172.213

Adj MS 11.4982 10.8219 4.8928 1.3761 0.0593 0.1188 35.4502 0.1460 0.1490 0.1067

F-Value 78.75 74.12 33.51 9.42 0.41 0.81 242.81

P-Value 0.000 0.000 0.000 0.002 0.524 0.367 0.000

1.40

0.070

Model Summary S 0.382102

R-sq 40.06%

R-sq(adj) 39.55%

R-sq(pred) 38.85%

Coefficients Term Constant Pclass Age SibSp Parch Fare Sex male

Coef 1.3656 -0.1939 -0.00653 -0.0533 -0.0121 0.000307

SE Coef 0.0777 0.0225 0.00113 0.0174 0.0190 0.000340

T-Value 17.58 -8.61 -5.79 -3.07 -0.64 0.90

P-Value 0.000 0.000 0.000 0.002 0.524 0.367

VIF 1.74 1.31 1.27 1.28 1.59

-0.4885

0.0313

-15.58

0.000

1.11

Regression Equation Sex female Survived - 0.0121 Parch

=

1.3656

- 0.1939 Pclass

- 0.00653 Age

- 0.0533 SibSp

- 0.00653 Age

- 0.0533 SibSp

+ 0.000307 Fare male Survived = 0.8771 - 0.1939 Pclass - 0.0121 Parch + 0.000307 Fare

> > > >

prediksilogistik=predict(modellogistik,testinglogistik) pred_logreg.5) tabel_logreg confusionMatrix(pred_logreg,testinglogistik$Survived,positive = "1")

Semoga sukses ---------------------

---------------------

a. Jelaskan persyaratan terhadap data predictor dan respon yang dapat digunakan untuk analisis diskriminan Jawaban

Nilai 8 6 2 0

Deskripsi Predictor bersifat numerik, Respon bersifat kategorik dengan dua kelas atau tiga kelas Diberikan persyaratan untuk prediktor saja atau kategorik saja Menjawab tapi salah Tidak menjawab

b. Lakukan analisis group means menggunakan data total 900 observasi berdasarkan nilai creditability sebagai grouping variable. Jelaskan maknanya untuk setiap variable predictor Poin Penilaian Semua rata-rata benar Sebagian benar Peserta menjawab tapi salah Peserta tidak menjawab sama sekali

8 6 2 0

Jawaban

Results for: soal900.MTW Descriptive Statistics: Duration.of.Credit..month. Variable Duration.of.Credit..mont

Creditability 0 1

N 237 663

N* 0 0

Variable Duration.of.Credit..mont

Creditability 0 1

Median 24,000 18,000

14

Mean 25,110 19,109 Q3 36,000 24,000

SE Mean 0,865 0,431 Maximum 72,000 60,000

StDev 13,323 11,088

Minimum 6,000 4,000

Q1 15,000 12,000

dari output diatas jika diperhatikan bahwa rata -rata yang membayar kredit tidak tepat waktu pada dengan duration of creditnya 26.23846, credit amount nya rata-rata 441.569, value saving sebesar 1.576923, lengh of current sebesar 2.284615 dan yang terakhir age nya sebesar 33.50769. Sedangkan rata-rata nasabah yang membayar credit tepat waktu pada masing-masing variabel predictor seperti variabel duration of credit sebesar 19.81250, credit amount sebesar 2876.553, value saving stock sebesar 2.015625, length of current sebesar 19.81250 dan yang terahir dari segi usia rata-rata 36 tahun. dari output diatas jika diperhatikan nasabah yang cenderung membayar tepat waktu dengan ciri ciri duration of credit nya kecil,kemudian usiangnya rata-rata 36 tahun

c. Lakukan analisis boxplot untuk setiap variable predictor. Jelaskan maknanya Poin Penilaian Membaut boxplot dan menjelaskannya Membuat boxplot dan tidak menjelaskannya Peserta tidak menjawab sama sekali

8 4 0

Boxplot of Value.Savings.Stocks 4,0

Value.Savings.Stocks

3,5 3,0 2,5

2,0 1,5 1,0 0

1

Creditability Duration Of credit

15

Boxplot of Credit.Amount 20000

Credit.Amount

15000

10000

5000

0 0

1

Creditability Jika diperhatikan boxplot diatas diketahui bahwa terdapat data outlier yaitu berada dikisaran nilai 60. Selain itu inforasi yang didapatkan dada boxplot diatas yaitu nilai Q1 12, MEDIAN 18 Q3 27 dan range kuarti 1 dengan kuartil 3 sebesar 15 dengan total data 450. Credit Amount

Boxplot of Duration.of.Credit..month. 80

Duration.of.Credit..month.

70 60 50 40 30 20 10 0 0

1

Creditability pada boxplot credit amount diatas tidak jauh berbeda dengan boxplot sebelumnya masih terdapat data outlier yang menyebar jauh diatas nilai kuarti 3 data. Nilai kuarti 1 pada boxplot diatas sebesar 1359.5, kuartil 2 sebesar 2241, kuartil 3 sebesar 3941.5 dengan total data sebesar 450.

16

pada data value saving diatas nilai kuartil satu sama dengan nilai median yaitu masing-masing bernilai 1. Kemudian nilai uartil 3 sebesar 3 dari total data 450.Nilai tersebuti berbeda dengan boxplot sebelumnya hal ini diakibatkan nilai pada data value saving rentangnya sangat kecil. Length of Current

Pada boxpot length of current diatas jiak diperhatikan tidak terdapat adanya data outlier. Hasilnya tidak jauh berbeda dengan boxplot sebelumnya pada value saving nilai median dan kuartilnya sama yaitu 2 dan kuartil 3 sebesar 3.25 dengan total data sebesar 450.

Jika diperhatikan pada boxplot usia diatas terdapat data outlier yaitu berada diatas usia 6 tahun dengan nilai kuartil 1 27, median sebesar 33 dan kuartil 3 sebesar 41.

d. Lakukan linier discriminant analysis (LDA) menggunakan data training untuk membangun model yang dapat digunakan untuk memprediksi kelas risiko kredit. Jelaskan makna persamaan yang didapatkan serta nilai confusion matrix-nya Poin Penilaian Membuat model LDA dan menjelaskannya 8 Membuat model LDA dan tidak menjelaskannya 4 Peserta menjawab tapi salah 2 Peserta tidak menjawab sama sekali 0

17

Jawaban Coefficients of linear discriminants: LD1 Duration.of.Credit..month. -5.202029e-02 Credit.Amount -8.210601e-05 Value.Savings.Stocks 4.263134e-01 Length.of.current.employment 2.835502e-01 Age..years. 1.593387e-02

e. Berikan sebuah contoh perhitungan untuk mendapatkan nilai prediksi bila terdapat data baru. Misalkan data baru itu adalah data yang sama dengan data ke 450 dari data tes. Poin Penilaian Menanpilkan script yang ada di R dan menjelaskannya Peserta melakukan salah satu diantara poin yang pertama Peserta menjawab tapi salah Peserta tidak menjawab sama sekali

8 4 2 0

Jawaban prediksi$class [1] 1 1 1 1 1 [32] 1 1 1 1 1 [63] 1 1 1 1 1 [94] 1 1 1 1 1 [125] 1 1 1 1 1 [156] 1 1 1 1 1 [187] 1 1 1 1 1 [218] 0 1 1 1 1 [249] 1 1 1 1 0 [280] 1 1 1 1 1 [311] 1 1 1 1 0 [342] 1 1 0 1 1 [373] 1 1 1 1 1 [404] 1 1 1 1 1 [435] 1 1 0 1 0 Levels: 0 1

1 1 1 1 1 1 1 1 0 1 0 0 1 0 1

1 1 1 1 1 1 1 1 0 1 1 1 0 1 0

1 1 1 1 1 1 1 1 1 1 1 0 1 1 1

0 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 0 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 0 1 1

1 1 1 1 1 1 1 1 1 0 1 0 1 0 1

1 1 1 1 1 1 1 1 1 1 1 1 1 0 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 0 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 0 1 1 1 1 1 1 1 1 1 0

1 1 1 1 1 1 1 1 1 1 1 0 1 0

1 1 0 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1

0 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 0 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 0 1 1 1 1 1

2. a. Lakukan analisis regresi linier terhadap untuk memprediksi variabel MPG. Poin Penilaian Nilai Mampu menampilkan model regresi dan menentukan 15 variabel predictor dan respon serta menjelaskannya Mampu menampilkan analisis regresi dan tidak 10 menjelaskannya Mampu menampilkan analisis regresi salah menentukan 5 variabel respon dan predictor Peserta menjawab tapi salah sama sekali 2 Peserta tidak menjawab sama sekali 0 Jawaban

Regression Analysis: MPG versus Odometer; Octane; Car type Method Categorical predictor coding

(1; 0)

Analysis of Variance Source Regression

DF 4

Adj SS 8303

Adj MS 2076

F-Value 0,85

P-Value 0,515

18

1 1 1 1 1 1 1 1 0 1 1 1 1 1

1 1 1 1 1 1 1 1 1 0 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 0

1 1 1 1 1 1 1 1 1 0 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 0

Odometer Octane Car type Error Total

1 1 2 16 20

2453 4519 2197 39178 47481

2453 4519 1098 2449

1,00 1,85 0,45

0,332 0,193 0,646

Model Summary S 49,4836

R-sq 17,49%

R-sq(adj) 0,00%

R-sq(pred) 0,00%

Coefficients Term Constant Odometer Octane Car type SUV van

Coef -210 -0,423 3,21

SE Coef 195 0,423 2,36

T-Value -1,07 -1,00 1,36

P-Value 0,299 0,332 0,193

VIF 1,22 1,10

-20,5 1,9

28,3 28,8

-0,72 0,07

0,479 0,947

1,53 1,68

Regression Equation Car type sedan

MPG = -210 - 0,423 Odometer + 3,21 Octane

SUV

MPG = -230 - 0,423 Odometer + 3,21 Octane

van

MPG = -208 - 0,423 Odometer + 3,21 Octane

Fits and Diagnostics for Unusual Observations Obs 11 R

MPG 245,1

Fit 69,7

Resid 175,4

Std Resid 4,00

R

Large residual

Call: lm(formula = MPG ~ Odometer + Octane, data = dataku) Residuals: Min 1Q Median -7.2354 -5.3667 -0.8997

3Q Max 4.6302 11.4080

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 9.97664 24.97812 0.399 0.694 Odometer 0.02887 0.05067 0.570 0.576 Octane 0.13902 0.29737 0.467 0.646 Residual standard error: 6.355 on 18 degrees of freedom Multiple R-squared: 0.03798, Adjusted R-squared: -0.06891 F-statistic: 0.3553 on 2 and 18 DF, p-value: 0.7058 Analysis of Variance Source Regression Odometer Octane Error Total

DF 2 1 1 18 20

Adj SS 28,701 13,111 8,827 727,017 755,718

Adj MS 14,351 13,111 8,827 40,390

F-Value 0,36 0,32 0,22

P-Value 0,706 0,576 0,646

Model Summary

19

S 6,35530

R-sq 3,80%

R-sq(adj) 0,00%

R-sq(pred) 0,00%

Coefficients Term Constant Odometer Octane

Coef 10,0 0,0289 0,139

SE Coef 25,0 0,0507 0,297

T-Value 0,40 0,57 0,47

P-Value 0,694 0,576 0,646

VIF 1,06 1,06

Dari hasil output diatas diketahui bahwa yang menjadi respon adalah MPG sedangkan yang menjadi predictor adalah Odometer dan Octane. Jika diperhatika kedua variabel prediktor tidak signifkan terhadap variabel respon MPG.

b. Lakukan evaluasi terhadap model regresi yang digunakan serta pengujian asumsinya. Poin Penilaian Nilai Melakukan evaluasi model dan melakukan seluruh uji 15 asumsi Melakukan evaluasi model dan hanya melakukan 3 uji 13 asumsi Melakukan evaluasi model dan hanya melakukan 2 uji 10 asumsi Melakukan evaluasi model dan hanya melakukan 21uji 8 asumsi Melakukan evaluasi model tidak melakukan uji asumsi 5 Peserta menjawab tapi salah sama sekali 2 Peserta tidak menjawab sama sekali 0 jika diperhatikan pada hasil regresi diatas diketahui bahwa variabel Odometer dan Octane tidak berpengaruh secara signifikan karena nilai p-valuenya lebih dari 0.05 uji normalitas

jika diperhatikan plot diatas residual data masih agak sedikit membingungkan apakah residual data berdistribusi noral atau tidak. Karena banyak titik-titik menjauhi garis tapi disisilai juga terdapat ititk titik yang mendekati garis. sehingga untuk menguatkan apakah residual dari data berdistribusi normal atau tidak maka digunakan uji normalitas. beriktu diabawah ini adalah hasil dari uji nromalitas. ----------------------------------------------Test Statistic pvalue ----------------------------------------------Shapiro-Wilk 0.9034 0.0407 Kolmogorov-Smirnov 0.1361 0.7829 Cramer-von Mises 1.9386 0.0000 Anderson-Darling 0.7045 0.0560 ----------------------------------------------jika diperhatikan tabel normalitas diatas terdapat dua metode yang menyatakan normal dan dua metode yang menyatakan tidak normal. Karena jumlah data kurang dari 30

20

maka yang dipilih adalah shapiro wilk test. Nilai p-Value pada Shapiro sebesar 0.00407 dwtest(model) Durbin-Watson test data: model DW = 0.3679, p-value = 6.648e-07 alternative hypothesis: true autocorrelation is greater than 0 jika diperhatika nilai p-Value yang dihasilkan 0.0000006648 lmtest::bptest(model) studentized Breusch-Pagan test data: model BP = 3.6082, df = 2, p-value = 0.1646

nilai p-value lebih besar dari 0.05 0.1646>0.05 maka terima h0 artinya ragam sisaan homogen ragam sisaan homogen 4. multikolonieritas > ols_vif_tol(model) # A tibble: 2 x 3 Variables Tolerance VIF

1 Odometer 0.943 1.06 2 Octane 0.943 1.06 Soal Nomor 3

e. Lakukan analisis dengan menggunakan regresi logistic untuk memprediksi penumpang selamat atau tidak berdasarkan minimal dari dua predictor yaitu gender dan age (data titanic.csv). Kasus ini adalah binary classification yang artinya memilih dari 2 pilihan (selamat atau tidak). Data set dibagi menjadi dua yaitu training data set (60 %) dan test data set (40 %). Training data set akan kita gunakan untuk

21

membuat model. Test data set adalah dataset yang kita pakai untuk membuat prediksi apakah selamat atau tidak. > databaru=read.delim("clipboard") > sampel1 traininglogistik testinglogistik modellogistik=glm(Survived~.,data=traininglogistik,family = binomial) > summary(modellogistik) Call: glm(formula = Survived ~ ., family = binomial, data = traininglogistik) Deviance Residuals: Min 1Q Median -1.6170 -0.6318 -0.6278

3Q 0.8012

Max 1.8634

Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.9934721 0.2673455 3.716 0.000202 *** Sexmale -2.4859605 0.2154058 -11.541 < 2e-16 *** Age -0.0008023 0.0077239 -0.104 0.917268 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 705.42 Residual deviance: 546.42 AIC: 552.42

on 531 on 529

degrees of freedom degrees of freedom

Number of Fisher Scoring iterations: 4 > prediksilogistik=predict(modellogistik,testinglogistik) > pred_logreg.5) > pred_logreg [1] 1 1 1 0 0 1 0 0 1 0 1 0 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 1 0 0 [41] 0 0 1 0 0 0 1 0 1 1 0 0 1 0 0 0 1 0 1 0 0 0 0 1 0 0 0 1 1 0 [81] 0 0 0 1 0 1 0 1 1 0 0 0 0 1 0 0 0 1 1 0 1 1 0 0 1 1 1 0 1 0 [121] 1 1 0 1 0 0 1 0 1 0 1 1 0 0 0 0 0 1 1 0 1 1 1 0 1 1 0 0 1 1 [161] 0 0 0 1 1 0 1 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 1 1 [201] 0 0 0 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 1 0 0 1 0 0 1 0 [241] 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 1 1 0 0 0 0 0 1 0 0 0 1 0 0 [281] 0 1 0 1 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 [321] 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0

22

1 0 0 0 0 0 1 0 1 0 0 0 1 1 0 0 0 1 1 1 0 1 0 1 1 1 0 1 0 1 0 1 0 0 1 1 0 0 1 1 0 1 0 0 1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0 0 1 0 1 0 0 0 1 0

Soal nomor 1 B pakai R > dataku=read.delim("clipboard") > View(dataku) > library(MASS) > train=sample(1:900,450) > table(dataku$Sp[train]) < table of extent 0 > > dim(dataku) [1] 900 21 > dim(train) NULL > table(dataku$Creditability[train]) 0 1 94 356

> discri=lda(dataku$Creditability ~ dataku$Value.Savings.Stocks+dataku$Length.of.current.employme +dataku$Credit.Amount+dataku$Age..years., subset = train) > discri Call: lda(dataku$Creditability ~ dataku$Value.Savings.Stocks + dataku$Length.of.current.employment + dataku$Duration.of.Credit..month. + dataku$Credit.Amount + dataku$Age..years., subset = train) Prior probabilities of groups: 0 1 0.2088889 0.7911111 Group means: dataku$Value.Savings.Stocks dataku$Length.of.current.employment 0 1.829787 3.095745 1 2.272472 3.505618 dataku$Duration.of.Credit..month. dataku$Credit.Amount 0 26.67021 >lebih lama 3617.340 1 19.65730 3043.663 dataku$Age..years. 0 33.60638 1 36.25000 Coefficients of linear discriminants: LD1 dataku$Value.Savings.Stocks 0.2265407636 dataku$Length.of.current.employment 0.4089989736 dataku$Duration.of.Credit..month. -0.0858664528 dataku$Credit.Amount 0.0001463224 dataku$Age..years. 0.0094115318

>

23