N.H. Prater desarrolló una ecuación de regresión para estimar la producción de gasolina como una función de las propiedades de destilación de cierto tipo de petróleo crudo. Se identificaron cuatro variables de predicción: la graduación del petróleo crudo, grados API (\(x1\)); la presión de vapor del petróleo crudo, psi (\(x2\)); el punto de 10% ASTM para el petróleo crudo, grados Fahrenheit (\(x3\)) y el punto final ASTM para la gasolina, grados Farenheit (\(x4\)). Los dos primeros miden la graduación y la presión de vapor del petróleo crudo. El punto de 10% ASTM es la temperatura para la cual se ha evaporado cierta cantidad de líquido, y el punto final para la gasolina es la temperatura para la cual se ha evaporado todo el líquido. La variable respuesta (\(y\)) fue la cantidad de gasolina producida expresada como un porcentaje respecto al total de petróleo crudo. Los datos de laboratorio obtenidos por Prater se muestran en el archivo PRATER.DAT. Se trata de realizar un análisis de estos datos.
Vamos a importar y chequear los datos.
prater<-read.table("./datos/prater.dat",head=T)
colnames(prater)
## [1] "y" "x1" "x2" "x3" "x4"
summary(prater)
## y x1 x2 x3
## Min. : 2.80 Min. :31.80 Min. :0.200 Min. :190.0
## 1st Qu.:11.65 1st Qu.:36.62 1st Qu.:1.800 1st Qu.:217.0
## Median :17.80 Median :40.00 Median :4.800 Median :231.0
## Mean :19.66 Mean :39.25 Mean :4.181 Mean :241.5
## 3rd Qu.:27.05 3rd Qu.:40.92 3rd Qu.:6.100 3rd Qu.:268.8
## Max. :45.70 Max. :50.80 Max. :8.600 Max. :316.0
## x4
## Min. :205.0
## 1st Qu.:274.5
## Median :349.0
## Mean :332.1
## 3rd Qu.:383.0
## Max. :444.0
Ajustamos el modelo de regresión lineal de \(y\) sobre el resto de variables:
\(y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\varepsilon\)
ml1<-lm(y~x1+x2+x3+x4,data=prater)
summary(ml1)
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4, data = prater)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.5804 -1.5223 -0.1098 1.4237 4.6214
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.820774 10.123152 -0.674 0.5062
## x1 0.227246 0.099937 2.274 0.0311 *
## x2 0.553726 0.369752 1.498 0.1458
## x3 -0.149536 0.029229 -5.116 2.23e-05 ***
## x4 0.154650 0.006446 23.992 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.234 on 27 degrees of freedom
## Multiple R-squared: 0.9622, Adjusted R-squared: 0.9566
## F-statistic: 171.7 on 4 and 27 DF, p-value: < 2.2e-16
Multicolinealidad Se utilizan los factores de inflacción de la varianza (vif).
library(car)
vif(ml1)
## x1 x2 x3 x4
## 1.969365 5.826260 7.476132 1.255293
Si el modelo presenta multicolinealidad o si deseamos eliminar variables regresoras que no sean significativas, debemos utilizar métodos de selección de variables. Estos métodos se basan en ciertos coeficientes que proporcionan información sobre la adecuación del modelo con y sin la variable. Se consideran para su selección desde el modelo sin variables regresoras hasta el modelo que hemos analizado con todas las posibles variables regresoras.
Ajustemos el modelo sin variables regresoras:
ml0<-lm(y~1,data=prater)
Selección basada en AIC. El Criterio de Información de Akaike (AIC) está basado en la verosimilitud máxima (\(Lmax\)) del modelo: \[ AIC=2k-2\log(Lmax) \] siendo \(k\) el número de parámetros del modelo. El ajuste será mejor cuanto mayor sea el valor de AIC. Se busca por tanto el modelo con el menor AIC de todos los considerados.
library(MASS)
ml0<-lm(y~1,data=prater)
stepAIC(ml0,scope=list(upper=ml1,lower=ml0),direction="forward")
## Start: AIC=152.81
## y ~ 1
##
## Df Sum of Sq RSS AIC
## + x4 1 1804.38 1759.7 132.23
## + x2 1 525.74 3038.3 149.71
## + x3 1 353.70 3210.4 151.47
## + x1 1 216.26 3347.8 152.81
## <none> 3564.1 152.81
##
## Step: AIC=132.23
## y ~ x4
##
## Df Sum of Sq RSS AIC
## + x3 1 1589.08 170.61 59.557
## + x2 1 1389.83 369.87 84.317
## + x1 1 897.75 861.95 111.391
## <none> 1759.69 132.229
##
## Step: AIC=59.56
## y ~ x4 + x3
##
## Df Sum of Sq RSS AIC
## + x1 1 24.610 146.00 56.572
## <none> 170.61 59.557
## + x2 1 9.992 160.62 59.626
##
## Step: AIC=56.57
## y ~ x4 + x3 + x1
##
## Df Sum of Sq RSS AIC
## + x2 1 11.197 134.8 56.019
## <none> 146.0 56.572
##
## Step: AIC=56.02
## y ~ x4 + x3 + x1 + x2
##
## Call:
## lm(formula = y ~ x4 + x3 + x1 + x2, data = prater)
##
## Coefficients:
## (Intercept) x4 x3 x1 x2
## -6.8208 0.1547 -0.1495 0.2272 0.5537
stepAIC(ml1,scope=list(upper=ml1,lower=ml0),direction="backward")
## Start: AIC=56.02
## y ~ x1 + x2 + x3 + x4
##
## Df Sum of Sq RSS AIC
## <none> 134.80 56.019
## - x2 1 11.20 146.00 56.572
## - x1 1 25.82 160.62 59.626
## - x3 1 130.68 265.48 75.706
## - x4 1 2873.95 3008.76 153.393
##
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4, data = prater)
##
## Coefficients:
## (Intercept) x1 x2 x3 x4
## -6.8208 0.2272 0.5537 -0.1495 0.1547
Comentarios
Selección basada en los p-valores. Se fija un umbral. En el método forward entra en el modelo la variable con el menor p-valor por debajo de dicho umbral (caso de que exista). En el método backward sale del modelo la variable con mayor p-valor por encima de dicho umbral.
library(olsrr)
ols_step_backward_p(ml1, p_val=0.1,print_plot=T)
##
##
## Stepwise Summary
## ------------------------------------------------------------------------
## Step Variable AIC SBC SBIC R2 Adj. R2
## ------------------------------------------------------------------------
## 0 Full Model 148.831 157.625 59.802 0.96218 0.95657
## 1 x2 149.384 156.713 59.309 0.95904 0.95465
## ------------------------------------------------------------------------
##
## Final Model Output
## ------------------
##
## Model Summary
## ---------------------------------------------------------------
## R 0.979 RMSE 2.136
## R-Squared 0.959 MSE 4.563
## Adj. R-Squared 0.955 Coef. Var 11.615
## Pred R-Squared 0.949 AIC 149.384
## MAE 1.766 SBC 156.713
## ---------------------------------------------------------------
## RMSE: Root Mean Square Error
## MSE: Mean Square Error
## MAE: Mean Absolute Error
## AIC: Akaike Information Criteria
## SBC: Schwarz Bayesian Criteria
##
## ANOVA
## ---------------------------------------------------------------------
## Sum of
## Squares DF Mean Square F Sig.
## ---------------------------------------------------------------------
## Regression 3418.076 3 1139.359 218.505 0.0000
## Residual 146.001 28 5.214
## Total 3564.077 31
## ---------------------------------------------------------------------
##
## Parameter Estimates
## ------------------------------------------------------------------------------------------
## model Beta Std. Error Std. Beta t Sig lower upper
## ------------------------------------------------------------------------------------------
## (Intercept) 4.032 7.223 0.558 0.581 -10.764 18.828
## x1 0.222 0.102 0.117 2.173 0.038 0.013 0.431
## x3 -0.187 0.016 -0.653 -11.718 0.000 -0.219 -0.154
## x4 0.157 0.006 1.018 24.224 0.000 0.143 0.170
## ------------------------------------------------------------------------------------------
ols_step_forward_p(ml1, p_val = 0.1)
##
##
## Stepwise Summary
## -------------------------------------------------------------------------
## Step Variable AIC SBC SBIC R2 Adj. R2
## -------------------------------------------------------------------------
## 0 Base Model 245.626 248.557 151.079 0.00000 0.00000
## 1 x4 225.041 229.438 128.939 0.50627 0.48981
## 2 x3 152.369 158.232 61.167 0.95213 0.94883
## 3 x1 149.384 156.713 59.309 0.95904 0.95465
## -------------------------------------------------------------------------
##
## Final Model Output
## ------------------
##
## Model Summary
## ---------------------------------------------------------------
## R 0.979 RMSE 2.136
## R-Squared 0.959 MSE 4.563
## Adj. R-Squared 0.955 Coef. Var 11.615
## Pred R-Squared 0.949 AIC 149.384
## MAE 1.766 SBC 156.713
## ---------------------------------------------------------------
## RMSE: Root Mean Square Error
## MSE: Mean Square Error
## MAE: Mean Absolute Error
## AIC: Akaike Information Criteria
## SBC: Schwarz Bayesian Criteria
##
## ANOVA
## ---------------------------------------------------------------------
## Sum of
## Squares DF Mean Square F Sig.
## ---------------------------------------------------------------------
## Regression 3418.076 3 1139.359 218.505 0.0000
## Residual 146.001 28 5.214
## Total 3564.077 31
## ---------------------------------------------------------------------
##
## Parameter Estimates
## ------------------------------------------------------------------------------------------
## model Beta Std. Error Std. Beta t Sig lower upper
## ------------------------------------------------------------------------------------------
## (Intercept) 4.032 7.223 0.558 0.581 -10.764 18.828
## x4 0.157 0.006 1.018 24.224 0.000 0.143 0.170
## x3 -0.187 0.016 -0.653 -11.718 0.000 -0.219 -0.154
## x1 0.222 0.102 0.117 2.173 0.038 0.013 0.431
## ------------------------------------------------------------------------------------------
ols_step_forward_p(ml1, p_val = 0.1,details=T)
## Forward Selection Method
## ------------------------
##
## Candidate Terms:
##
## 1. x1
## 2. x2
## 3. x3
## 4. x4
##
##
## Step => 0
## Model => y ~ 1
## R2 => 0
##
## Initiating stepwise selection...
##
## Selection Metrics Table
## ---------------------------------------------------------------
## Predictor Pr(>|t|) R-Squared Adj. R-Squared AIC
## ---------------------------------------------------------------
## x4 0.00000 0.506 0.490 225.041
## x2 0.02999 0.148 0.119 242.519
## x3 0.07906 0.099 0.069 244.281
## x1 0.17413 0.061 0.029 245.623
## ---------------------------------------------------------------
##
## Step => 1
## Selected => x4
## Model => y ~ x4
## R2 => 0.506
##
## Selection Metrics Table
## ---------------------------------------------------------------
## Predictor Pr(>|t|) R-Squared Adj. R-Squared AIC
## ---------------------------------------------------------------
## x3 0.00000 0.952 0.949 152.369
## x2 0.00000 0.896 0.889 177.129
## x1 1e-05 0.758 0.741 204.203
## ---------------------------------------------------------------
##
## Step => 2
## Selected => x3
## Model => y ~ x4 + x3
## R2 => 0.952
##
## Selection Metrics Table
## ---------------------------------------------------------------
## Predictor Pr(>|t|) R-Squared Adj. R-Squared AIC
## ---------------------------------------------------------------
## x1 0.03844 0.959 0.955 149.384
## x2 0.19759 0.955 0.950 152.438
## ---------------------------------------------------------------
##
## Step => 3
## Selected => x1
## Model => y ~ x4 + x3 + x1
## R2 => 0.959
##
## Selection Metrics Table
## ---------------------------------------------------------------
## Predictor Pr(>|t|) R-Squared Adj. R-Squared AIC
## ---------------------------------------------------------------
## x2 0.14585 0.962 0.957 148.831
## ---------------------------------------------------------------
##
##
## No more variables to be added.
##
## Variables Selected:
##
## => x4
## => x3
## => x1
##
##
## Stepwise Summary
## -------------------------------------------------------------------------
## Step Variable AIC SBC SBIC R2 Adj. R2
## -------------------------------------------------------------------------
## 0 Base Model 245.626 248.557 151.079 0.00000 0.00000
## 1 x4 225.041 229.438 128.939 0.50627 0.48981
## 2 x3 152.369 158.232 61.167 0.95213 0.94883
## 3 x1 149.384 156.713 59.309 0.95904 0.95465
## -------------------------------------------------------------------------
##
## Final Model Output
## ------------------
##
## Model Summary
## ---------------------------------------------------------------
## R 0.979 RMSE 2.136
## R-Squared 0.959 MSE 4.563
## Adj. R-Squared 0.955 Coef. Var 11.615
## Pred R-Squared 0.949 AIC 149.384
## MAE 1.766 SBC 156.713
## ---------------------------------------------------------------
## RMSE: Root Mean Square Error
## MSE: Mean Square Error
## MAE: Mean Absolute Error
## AIC: Akaike Information Criteria
## SBC: Schwarz Bayesian Criteria
##
## ANOVA
## ---------------------------------------------------------------------
## Sum of
## Squares DF Mean Square F Sig.
## ---------------------------------------------------------------------
## Regression 3418.076 3 1139.359 218.505 0.0000
## Residual 146.001 28 5.214
## Total 3564.077 31
## ---------------------------------------------------------------------
##
## Parameter Estimates
## ------------------------------------------------------------------------------------------
## model Beta Std. Error Std. Beta t Sig lower upper
## ------------------------------------------------------------------------------------------
## (Intercept) 4.032 7.223 0.558 0.581 -10.764 18.828
## x4 0.157 0.006 1.018 24.224 0.000 0.143 0.170
## x3 -0.187 0.016 -0.653 -11.718 0.000 -0.219 -0.154
## x1 0.222 0.102 0.117 2.173 0.038 0.013 0.431
## ------------------------------------------------------------------------------------------
Comentarios
Utilicemos el modelo para realizar predicciones de nuevos valores de \(y\).
ml2<-lm(y~x1+x2+x4,data=prater)
predict(ml2,data.frame(x1=40, x2=5, x3=270, x4=350), interval="confidence")
## fit lwr upr
## 1 24.3266 23.08519 25.56801
predict(ml2,data.frame(x1=40, x2=5, x3=270, x4=350), interval="prediction")
## fit lwr upr
## 1 24.3266 17.89816 30.75504
Comentarios
Se realiza un experimento para determinar el calor desarrollado en la fabricación de cemento en función de los porcentajes de 4 compuestos activos que se utilizan en la fabricación. Para ello se elige una muestra de 13 cementos, midiéndose el calor desarrollado de cals/g (\(y\)) y los porcentajes de los compuestos referidos (\(x1, x2, x3, x4\)). Los datos se encuentran en el archivo CEMENTO.DAT. Calcula la ecuación pedida, investigando la bondad del ajuste y eliminando de modo razonado alguna de las variables predictoras del modelo, si ello fuera necesario.
Ajuste y análisis del modelo
cemento<-read.table("./datos/cemento.dat",head=T)
colnames(cemento)
## [1] "x1" "x2" "x3" "x4" "y"
ml3<-lm(y~.,data=cemento)
summary(ml3)
##
## Call:
## lm(formula = y ~ ., data = cemento)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.1750 -1.6709 0.2508 1.3783 3.9254
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 62.4054 70.0710 0.891 0.3991
## x1 1.5511 0.7448 2.083 0.0708 .
## x2 0.5102 0.7238 0.705 0.5009
## x3 0.1019 0.7547 0.135 0.8959
## x4 -0.1441 0.7091 -0.203 0.8441
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.446 on 8 degrees of freedom
## Multiple R-squared: 0.9824, Adjusted R-squared: 0.9736
## F-statistic: 111.5 on 4 and 8 DF, p-value: 4.756e-07
Comentarios
Estudio de multicolinealidad
library(car)
vif(ml3)
## x1 x2 x3 x4
## 38.49621 254.42317 46.86839 282.51286
Comentarios
Selección de variables
library(olsrr)
ols_step_backward_p(ml3,prem=0.1,details=T)
## Backward Elimination Method
## ---------------------------
##
## Candidate Terms:
##
## 1. x1
## 2. x2
## 3. x3
## 4. x4
##
##
## Step => 0
## Model => y ~ x1 + x2 + x3 + x4
## R2 => 0.982
##
## Initiating stepwise selection...
##
## Step => 1
## Removed => x3
## Model => y ~ x1 + x2 + x4
## R2 => 0.98234
##
##
## No more variables to be removed.
##
## Variables Removed:
##
## => x3
##
##
## Stepwise Summary
## ----------------------------------------------------------------------
## Step Variable AIC SBC SBIC R2 Adj. R2
## ----------------------------------------------------------------------
## 0 Full Model 65.837 69.226 34.413 0.98238 0.97356
## 1 x3 63.866 66.691 31.172 0.98234 0.97645
## ----------------------------------------------------------------------
##
## Final Model Output
## ------------------
##
## Model Summary
## --------------------------------------------------------------
## R 0.991 RMSE 1.921
## R-Squared 0.982 MSE 3.690
## Adj. R-Squared 0.976 Coef. Var 2.419
## Pred R-Squared 0.969 AIC 63.866
## MAE 1.606 SBC 66.691
## --------------------------------------------------------------
## RMSE: Root Mean Square Error
## MSE: Mean Square Error
## MAE: Mean Absolute Error
## AIC: Akaike Information Criteria
## SBC: Schwarz Bayesian Criteria
##
## ANOVA
## ---------------------------------------------------------------------
## Sum of
## Squares DF Mean Square F Sig.
## ---------------------------------------------------------------------
## Regression 2667.790 3 889.263 166.832 0.0000
## Residual 47.973 9 5.330
## Total 2715.763 12
## ---------------------------------------------------------------------
##
## Parameter Estimates
## -----------------------------------------------------------------------------------------
## model Beta Std. Error Std. Beta t Sig lower upper
## -----------------------------------------------------------------------------------------
## (Intercept) 71.648 14.142 5.066 0.001 39.656 103.641
## x1 1.452 0.117 0.568 12.410 0.000 1.187 1.717
## x2 0.416 0.186 0.430 2.242 0.052 -0.004 0.836
## x4 -0.237 0.173 -0.263 -1.365 0.205 -0.629 0.155
## -----------------------------------------------------------------------------------------
ols_step_backward_aic(ml3,details=T)
## Backward Elimination Method
## ---------------------------
##
## Candidate Terms:
##
## 1. x1
## 2. x2
## 3. x3
## 4. x4
##
##
## Step => 0
## Model => y ~ x1 + x2 + x3 + x4
## AIC => 65.83669
##
## Initiating stepwise selection...
##
## Table: Removing Existing Variables
## -------------------------------------------------------------------
## Predictor DF AIC SBC SBIC R2 Adj. R2
## -------------------------------------------------------------------
## x3 1 63.866 66.691 31.172 0.98234 0.97645
## x4 1 63.904 66.728 31.184 0.98228 0.97638
## x2 1 64.620 67.445 31.406 0.98128 0.97504
## x1 1 69.468 72.293 33.000 0.97282 0.96376
## -------------------------------------------------------------------
##
## Step => 1
## Removed => x3
## Model => y ~ x1 + x2 + x4
## AIC => 63.86629
##
## Table: Removing Existing Variables
## --------------------------------------------------------------------
## Predictor DF AIC SBC SBIC R2 Adj. R2
## --------------------------------------------------------------------
## x4 1 64.312 66.572 29.244 0.97868 0.97441
## x2 1 67.634 69.894 30.981 0.97247 0.96697
## x1 1 99.522 101.782 55.508 0.68006 0.61607
## --------------------------------------------------------------------
##
##
## No more variables to be removed.
##
## Variables Removed:
##
## => x3
##
##
## Stepwise Summary
## ----------------------------------------------------------------------
## Step Variable AIC SBC SBIC R2 Adj. R2
## ----------------------------------------------------------------------
## 0 Full Model 65.837 69.226 34.413 0.98238 0.97356
## 1 x3 63.866 66.691 30.134 0.98234 0.97645
## ----------------------------------------------------------------------
##
## Final Model Output
## ------------------
##
## Model Summary
## --------------------------------------------------------------
## R 0.991 RMSE 1.921
## R-Squared 0.982 MSE 3.690
## Adj. R-Squared 0.976 Coef. Var 2.419
## Pred R-Squared 0.969 AIC 63.866
## MAE 1.606 SBC 66.691
## --------------------------------------------------------------
## RMSE: Root Mean Square Error
## MSE: Mean Square Error
## MAE: Mean Absolute Error
## AIC: Akaike Information Criteria
## SBC: Schwarz Bayesian Criteria
##
## ANOVA
## ---------------------------------------------------------------------
## Sum of
## Squares DF Mean Square F Sig.
## ---------------------------------------------------------------------
## Regression 2667.790 3 889.263 166.832 0.0000
## Residual 47.973 9 5.330
## Total 2715.763 12
## ---------------------------------------------------------------------
##
## Parameter Estimates
## -----------------------------------------------------------------------------------------
## model Beta Std. Error Std. Beta t Sig lower upper
## -----------------------------------------------------------------------------------------
## (Intercept) 71.648 14.142 5.066 0.001 39.656 103.641
## x1 1.452 0.117 0.568 12.410 0.000 1.187 1.717
## x2 0.416 0.186 0.430 2.242 0.052 -0.004 0.836
## x4 -0.237 0.173 -0.263 -1.365 0.205 -0.629 0.155
## -----------------------------------------------------------------------------------------
ols_step_forward_p(ml3,prem=0.1,details=T)
## Forward Selection Method
## ------------------------
##
## Candidate Terms:
##
## 1. x1
## 2. x2
## 3. x3
## 4. x4
##
##
## Step => 0
## Model => y ~ 1
## R2 => 0
##
## Initiating stepwise selection...
##
## Selection Metrics Table
## ---------------------------------------------------------------
## Predictor Pr(>|t|) R-Squared Adj. R-Squared AIC
## ---------------------------------------------------------------
## x4 0.00058 0.675 0.645 97.744
## x2 0.00066 0.666 0.636 98.070
## x1 0.00455 0.534 0.492 102.412
## x3 0.05976 0.286 0.221 107.960
## ---------------------------------------------------------------
##
## Step => 1
## Selected => x4
## Model => y ~ x4
## R2 => 0.675
##
## Selection Metrics Table
## --------------------------------------------------------------
## Predictor Pr(>|t|) R-Squared Adj. R-Squared AIC
## --------------------------------------------------------------
## x1 0.00000 0.972 0.967 67.634
## x3 8e-05 0.935 0.922 78.745
## x2 0.68668 0.680 0.616 99.522
## --------------------------------------------------------------
##
## Step => 2
## Selected => x1
## Model => y ~ x4 + x1
## R2 => 0.972
##
## Selection Metrics Table
## --------------------------------------------------------------
## Predictor Pr(>|t|) R-Squared Adj. R-Squared AIC
## --------------------------------------------------------------
## x2 0.05169 0.982 0.976 63.866
## x3 0.06969 0.981 0.975 64.620
## --------------------------------------------------------------
##
## Step => 3
## Selected => x2
## Model => y ~ x4 + x1 + x2
## R2 => 0.982
##
## Selection Metrics Table
## --------------------------------------------------------------
## Predictor Pr(>|t|) R-Squared Adj. R-Squared AIC
## --------------------------------------------------------------
## x3 0.89592 0.982 0.974 65.837
## --------------------------------------------------------------
##
##
## No more variables to be added.
##
## Variables Selected:
##
## => x4
## => x1
## => x2
##
##
## Stepwise Summary
## ------------------------------------------------------------------------
## Step Variable AIC SBC SBIC R2 Adj. R2
## ------------------------------------------------------------------------
## 0 Base Model 110.337 111.467 69.615 0.00000 0.00000
## 1 x4 97.744 99.439 55.540 0.67454 0.64495
## 2 x1 67.634 69.894 30.981 0.97247 0.96697
## 3 x2 63.866 66.691 31.172 0.98234 0.97645
## ------------------------------------------------------------------------
##
## Final Model Output
## ------------------
##
## Model Summary
## --------------------------------------------------------------
## R 0.991 RMSE 1.921
## R-Squared 0.982 MSE 3.690
## Adj. R-Squared 0.976 Coef. Var 2.419
## Pred R-Squared 0.969 AIC 63.866
## MAE 1.606 SBC 66.691
## --------------------------------------------------------------
## RMSE: Root Mean Square Error
## MSE: Mean Square Error
## MAE: Mean Absolute Error
## AIC: Akaike Information Criteria
## SBC: Schwarz Bayesian Criteria
##
## ANOVA
## ---------------------------------------------------------------------
## Sum of
## Squares DF Mean Square F Sig.
## ---------------------------------------------------------------------
## Regression 2667.790 3 889.263 166.832 0.0000
## Residual 47.973 9 5.330
## Total 2715.763 12
## ---------------------------------------------------------------------
##
## Parameter Estimates
## -----------------------------------------------------------------------------------------
## model Beta Std. Error Std. Beta t Sig lower upper
## -----------------------------------------------------------------------------------------
## (Intercept) 71.648 14.142 5.066 0.001 39.656 103.641
## x4 -0.237 0.173 -0.263 -1.365 0.205 -0.629 0.155
## x1 1.452 0.117 0.568 12.410 0.000 1.187 1.717
## x2 0.416 0.186 0.430 2.242 0.052 -0.004 0.836
## -----------------------------------------------------------------------------------------
ols_step_forward_aic(ml3,details=T)
## Forward Selection Method
## ------------------------
##
## Candidate Terms:
##
## 1. x1
## 2. x2
## 3. x3
## 4. x4
##
##
## Step => 0
## Model => y ~ 1
## AIC => 110.3368
##
## Initiating stepwise selection...
##
## Table: Adding New Variables
## ---------------------------------------------------------------------
## Predictor DF AIC SBC SBIC R2 Adj. R2
## ---------------------------------------------------------------------
## x4 1 97.744 99.439 55.540 0.67454 0.64495
## x2 1 98.070 99.765 55.850 0.66627 0.63593
## x1 1 102.412 104.107 60.004 0.53395 0.49158
## x3 1 107.960 109.655 65.385 0.28587 0.22095
## ---------------------------------------------------------------------
##
## Step => 1
## Added => x4
## Model => y ~ x4
## AIC => 97.74404
##
## Table: Adding New Variables
## --------------------------------------------------------------------
## Predictor DF AIC SBC SBIC R2 Adj. R2
## --------------------------------------------------------------------
## x1 1 67.634 69.894 30.981 0.97247 0.96697
## x3 1 78.745 81.005 37.887 0.93529 0.92235
## x2 1 99.522 101.782 55.508 0.68006 0.61607
## --------------------------------------------------------------------
##
## Step => 2
## Added => x1
## Model => y ~ x4 + x1
## AIC => 67.63411
##
## Table: Adding New Variables
## -------------------------------------------------------------------
## Predictor DF AIC SBC SBIC R2 Adj. R2
## -------------------------------------------------------------------
## x2 1 63.866 66.691 31.172 0.98234 0.97645
## x3 1 64.620 67.445 31.406 0.98128 0.97504
## -------------------------------------------------------------------
##
## Step => 3
## Added => x2
## Model => y ~ x4 + x1 + x2
## AIC => 63.86629
##
## Table: Adding New Variables
## -------------------------------------------------------------------
## Predictor DF AIC SBC SBIC R2 Adj. R2
## -------------------------------------------------------------------
## x3 1 65.837 69.226 34.413 0.98238 0.97356
## -------------------------------------------------------------------
##
##
## No more variables to be added.
##
## Variables Selected:
##
## => x4
## => x1
## => x2
##
##
## Stepwise Summary
## ------------------------------------------------------------------------
## Step Variable AIC SBC SBIC R2 Adj. R2
## ------------------------------------------------------------------------
## 0 Base Model 110.337 111.467 69.615 0.00000 0.00000
## 1 x4 97.744 99.439 55.540 0.67454 0.64495
## 2 x1 67.634 69.894 30.981 0.97247 0.96697
## 3 x2 63.866 66.691 31.172 0.98234 0.97645
## ------------------------------------------------------------------------
##
## Final Model Output
## ------------------
##
## Model Summary
## --------------------------------------------------------------
## R 0.991 RMSE 1.921
## R-Squared 0.982 MSE 3.690
## Adj. R-Squared 0.976 Coef. Var 2.419
## Pred R-Squared 0.969 AIC 63.866
## MAE 1.606 SBC 66.691
## --------------------------------------------------------------
## RMSE: Root Mean Square Error
## MSE: Mean Square Error
## MAE: Mean Absolute Error
## AIC: Akaike Information Criteria
## SBC: Schwarz Bayesian Criteria
##
## ANOVA
## ---------------------------------------------------------------------
## Sum of
## Squares DF Mean Square F Sig.
## ---------------------------------------------------------------------
## Regression 2667.790 3 889.263 166.832 0.0000
## Residual 47.973 9 5.330
## Total 2715.763 12
## ---------------------------------------------------------------------
##
## Parameter Estimates
## -----------------------------------------------------------------------------------------
## model Beta Std. Error Std. Beta t Sig lower upper
## -----------------------------------------------------------------------------------------
## (Intercept) 71.648 14.142 5.066 0.001 39.656 103.641
## x4 -0.237 0.173 -0.263 -1.365 0.205 -0.629 0.155
## x1 1.452 0.117 0.568 12.410 0.000 1.187 1.717
## x2 0.416 0.186 0.430 2.242 0.052 -0.004 0.836
## -----------------------------------------------------------------------------------------
Comentarios
A la hora de vigilar la concentración de contaminantes en los acuíferos, se piensa que un cambio en la concentración de un contaminante causará un cambio en el valor del flujo de radiaciones, es decir, si se conocen los valores de la radiación para diferentes bandas espectrales, entonces es posibles predecir la concentración de un contaminante en una fuente de agua dada. El problema reside en el hecho de identificar, de entre todas las bandas, cuál es la que puede predecir la concentración del contaminante. En un laboratorio, se obtuvieron datos reales de percepción remota, bajo condiciones controladas, que empleó cinco bandas y varios constituyentes, entre ellos el sedimento del feldespato. Los datos de la muestra se proporcionan en el archivo ACUIF.DAT.
Como continuación del análisis realizado en la práctica anterior, selecciona las bandas espectrales que determinan la concentración del contaminante.
Se toman datos de 209 ordenadores con el objeto de predecir el rendimiento de la cpu (\(y\)) en función de una serie de variables. El rendimiento se mide tomando como punto de referencia la cpu de un determinado modelo de la firma IBM. Las variables predictoras son el tiempo de cada ciclo en nanosegundos (\(x1\)), la memoria principal máxima (\(x2\)), la memoria principal mínima (\(x3\)), ambas en kilobytes, el tamaño de la memoria caché (\(x4\)), también en kilobytes, el número mínimo (\(x5\)) y máximo (\(x6\)) de canales. Los datos se encuentran en el archivo CPUS.DAT.
Como continuación del análisis realizado en la práctica anterior, determina el grupo de variables que resultan significativas mediante un procedimiento de entrada o salida.