Ejercicio 1:

N.H. Prater desarrolló una ecuación de regresión para estimar la producción de gasolina como una función de las propiedades de destilación de cierto tipo de petróleo crudo. Se identificaron cuatro variables de predicción: la graduación del petróleo crudo, grados API (\(x1\)); la presión de vapor del petróleo crudo, psi (\(x2\)); el punto de 10% ASTM para el petróleo crudo, grados Fahrenheit (\(x3\)) y el punto final ASTM para la gasolina, grados Farenheit (\(x4\)). Los dos primeros miden la graduación y la presión de vapor del petróleo crudo. El punto de 10% ASTM es la temperatura para la cual se ha evaporado cierta cantidad de líquido, y el punto final para la gasolina es la temperatura para la cual se ha evaporado todo el líquido. La variable respuesta (\(y\)) fue la cantidad de gasolina producida expresada como un porcentaje respecto al total de petróleo crudo. Los datos de laboratorio obtenidos por Prater se muestran en el archivo PRATER.DAT. Se trata de realizar un análisis de estos datos.

Vamos a importar y chequear los datos.

prater<-read.table("./datos/prater.dat",head=T)
  colnames(prater)
## [1] "y"  "x1" "x2" "x3" "x4"
  summary(prater)
##        y               x1              x2              x3       
##  Min.   : 2.80   Min.   :31.80   Min.   :0.200   Min.   :190.0  
##  1st Qu.:11.65   1st Qu.:36.62   1st Qu.:1.800   1st Qu.:217.0  
##  Median :17.80   Median :40.00   Median :4.800   Median :231.0  
##  Mean   :19.66   Mean   :39.25   Mean   :4.181   Mean   :241.5  
##  3rd Qu.:27.05   3rd Qu.:40.92   3rd Qu.:6.100   3rd Qu.:268.8  
##  Max.   :45.70   Max.   :50.80   Max.   :8.600   Max.   :316.0  
##        x4       
##  Min.   :205.0  
##  1st Qu.:274.5  
##  Median :349.0  
##  Mean   :332.1  
##  3rd Qu.:383.0  
##  Max.   :444.0

Ajuste del modelo

Ajustamos el modelo de regresión lineal de \(y\) sobre el resto de variables:

\(y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\varepsilon\)

ml1<-lm(y~x1+x2+x3+x4,data=prater)
  summary(ml1)
## 
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4, data = prater)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.5804 -1.5223 -0.1098  1.4237  4.6214 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -6.820774  10.123152  -0.674   0.5062    
## x1           0.227246   0.099937   2.274   0.0311 *  
## x2           0.553726   0.369752   1.498   0.1458    
## x3          -0.149536   0.029229  -5.116 2.23e-05 ***
## x4           0.154650   0.006446  23.992  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.234 on 27 degrees of freedom
## Multiple R-squared:  0.9622, Adjusted R-squared:  0.9566 
## F-statistic: 171.7 on 4 and 27 DF,  p-value: < 2.2e-16

Multicolinealidad Se utilizan los factores de inflacción de la varianza (vif).

  library(car)
  vif(ml1)
##       x1       x2       x3       x4 
## 1.969365 5.826260 7.476132 1.255293

Selección de variables

Si el modelo presenta multicolinealidad o si deseamos eliminar variables regresoras que no sean significativas, debemos utilizar métodos de selección de variables. Estos métodos se basan en ciertos coeficientes que proporcionan información sobre la adecuación del modelo con y sin la variable. Se consideran para su selección desde el modelo sin variables regresoras hasta el modelo que hemos analizado con todas las posibles variables regresoras.

Ajustemos el modelo sin variables regresoras:

   ml0<-lm(y~1,data=prater)

Selección basada en AIC. El Criterio de Información de Akaike (AIC) está basado en la verosimilitud máxima (\(Lmax\)) del modelo: \[ AIC=2k-2\log(Lmax) \] siendo \(k\) el número de parámetros del modelo. El ajuste será mejor cuanto mayor sea el valor de AIC. Se busca por tanto el modelo con el menor AIC de todos los considerados.

   library(MASS)
   ml0<-lm(y~1,data=prater)
   stepAIC(ml0,scope=list(upper=ml1,lower=ml0),direction="forward")
## Start:  AIC=152.81
## y ~ 1
## 
##        Df Sum of Sq    RSS    AIC
## + x4    1   1804.38 1759.7 132.23
## + x2    1    525.74 3038.3 149.71
## + x3    1    353.70 3210.4 151.47
## + x1    1    216.26 3347.8 152.81
## <none>              3564.1 152.81
## 
## Step:  AIC=132.23
## y ~ x4
## 
##        Df Sum of Sq     RSS     AIC
## + x3    1   1589.08  170.61  59.557
## + x2    1   1389.83  369.87  84.317
## + x1    1    897.75  861.95 111.391
## <none>              1759.69 132.229
## 
## Step:  AIC=59.56
## y ~ x4 + x3
## 
##        Df Sum of Sq    RSS    AIC
## + x1    1    24.610 146.00 56.572
## <none>              170.61 59.557
## + x2    1     9.992 160.62 59.626
## 
## Step:  AIC=56.57
## y ~ x4 + x3 + x1
## 
##        Df Sum of Sq   RSS    AIC
## + x2    1    11.197 134.8 56.019
## <none>              146.0 56.572
## 
## Step:  AIC=56.02
## y ~ x4 + x3 + x1 + x2
## 
## Call:
## lm(formula = y ~ x4 + x3 + x1 + x2, data = prater)
## 
## Coefficients:
## (Intercept)           x4           x3           x1           x2  
##     -6.8208       0.1547      -0.1495       0.2272       0.5537
   stepAIC(ml1,scope=list(upper=ml1,lower=ml0),direction="backward")
## Start:  AIC=56.02
## y ~ x1 + x2 + x3 + x4
## 
##        Df Sum of Sq     RSS     AIC
## <none>               134.80  56.019
## - x2    1     11.20  146.00  56.572
## - x1    1     25.82  160.62  59.626
## - x3    1    130.68  265.48  75.706
## - x4    1   2873.95 3008.76 153.393
## 
## Call:
## lm(formula = y ~ x1 + x2 + x3 + x4, data = prater)
## 
## Coefficients:
## (Intercept)           x1           x2           x3           x4  
##     -6.8208       0.2272       0.5537      -0.1495       0.1547

Comentarios

Selección basada en los p-valores. Se fija un umbral. En el método forward entra en el modelo la variable con el menor p-valor por debajo de dicho umbral (caso de que exista). En el método backward sale del modelo la variable con mayor p-valor por encima de dicho umbral.

  library(olsrr)
  ols_step_backward_p(ml1, p_val=0.1,print_plot=T)
## 
## 
##                              Stepwise Summary                             
## ------------------------------------------------------------------------
## Step    Variable        AIC        SBC       SBIC       R2       Adj. R2 
## ------------------------------------------------------------------------
##  0      Full Model    148.831    157.625    59.802    0.96218    0.95657 
##  1      x2            149.384    156.713    59.309    0.95904    0.95465 
## ------------------------------------------------------------------------
## 
## Final Model Output 
## ------------------
## 
##                          Model Summary                          
## ---------------------------------------------------------------
## R                       0.979       RMSE                 2.136 
## R-Squared               0.959       MSE                  4.563 
## Adj. R-Squared          0.955       Coef. Var           11.615 
## Pred R-Squared          0.949       AIC                149.384 
## MAE                     1.766       SBC                156.713 
## ---------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
##  AIC: Akaike Information Criteria 
##  SBC: Schwarz Bayesian Criteria 
## 
##                                 ANOVA                                 
## ---------------------------------------------------------------------
##                 Sum of                                               
##                Squares        DF    Mean Square       F         Sig. 
## ---------------------------------------------------------------------
## Regression    3418.076         3       1139.359    218.505    0.0000 
## Residual       146.001        28          5.214                      
## Total         3564.077        31                                     
## ---------------------------------------------------------------------
## 
##                                    Parameter Estimates                                     
## ------------------------------------------------------------------------------------------
##       model      Beta    Std. Error    Std. Beta       t        Sig       lower     upper 
## ------------------------------------------------------------------------------------------
## (Intercept)     4.032         7.223                   0.558    0.581    -10.764    18.828 
##          x1     0.222         0.102        0.117      2.173    0.038      0.013     0.431 
##          x3    -0.187         0.016       -0.653    -11.718    0.000     -0.219    -0.154 
##          x4     0.157         0.006        1.018     24.224    0.000      0.143     0.170 
## ------------------------------------------------------------------------------------------
  ols_step_forward_p(ml1, p_val = 0.1)
## 
## 
##                              Stepwise Summary                              
## -------------------------------------------------------------------------
## Step    Variable        AIC        SBC       SBIC        R2       Adj. R2 
## -------------------------------------------------------------------------
##  0      Base Model    245.626    248.557    151.079    0.00000    0.00000 
##  1      x4            225.041    229.438    128.939    0.50627    0.48981 
##  2      x3            152.369    158.232     61.167    0.95213    0.94883 
##  3      x1            149.384    156.713     59.309    0.95904    0.95465 
## -------------------------------------------------------------------------
## 
## Final Model Output 
## ------------------
## 
##                          Model Summary                          
## ---------------------------------------------------------------
## R                       0.979       RMSE                 2.136 
## R-Squared               0.959       MSE                  4.563 
## Adj. R-Squared          0.955       Coef. Var           11.615 
## Pred R-Squared          0.949       AIC                149.384 
## MAE                     1.766       SBC                156.713 
## ---------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
##  AIC: Akaike Information Criteria 
##  SBC: Schwarz Bayesian Criteria 
## 
##                                 ANOVA                                 
## ---------------------------------------------------------------------
##                 Sum of                                               
##                Squares        DF    Mean Square       F         Sig. 
## ---------------------------------------------------------------------
## Regression    3418.076         3       1139.359    218.505    0.0000 
## Residual       146.001        28          5.214                      
## Total         3564.077        31                                     
## ---------------------------------------------------------------------
## 
##                                    Parameter Estimates                                     
## ------------------------------------------------------------------------------------------
##       model      Beta    Std. Error    Std. Beta       t        Sig       lower     upper 
## ------------------------------------------------------------------------------------------
## (Intercept)     4.032         7.223                   0.558    0.581    -10.764    18.828 
##          x4     0.157         0.006        1.018     24.224    0.000      0.143     0.170 
##          x3    -0.187         0.016       -0.653    -11.718    0.000     -0.219    -0.154 
##          x1     0.222         0.102        0.117      2.173    0.038      0.013     0.431 
## ------------------------------------------------------------------------------------------
  ols_step_forward_p(ml1, p_val = 0.1,details=T)
## Forward Selection Method 
## ------------------------
## 
## Candidate Terms: 
## 
## 1. x1 
## 2. x2 
## 3. x3 
## 4. x4 
## 
## 
## Step   => 0 
## Model  => y ~ 1 
## R2     => 0 
## 
## Initiating stepwise selection... 
## 
##                     Selection Metrics Table                     
## ---------------------------------------------------------------
## Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared      AIC   
## ---------------------------------------------------------------
## x4            0.00000        0.506             0.490    225.041 
## x2            0.02999        0.148             0.119    242.519 
## x3            0.07906        0.099             0.069    244.281 
## x1            0.17413        0.061             0.029    245.623 
## ---------------------------------------------------------------
## 
## Step      => 1 
## Selected  => x4 
## Model     => y ~ x4 
## R2        => 0.506 
## 
##                     Selection Metrics Table                     
## ---------------------------------------------------------------
## Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared      AIC   
## ---------------------------------------------------------------
## x3            0.00000        0.952             0.949    152.369 
## x2            0.00000        0.896             0.889    177.129 
## x1              1e-05        0.758             0.741    204.203 
## ---------------------------------------------------------------
## 
## Step      => 2 
## Selected  => x3 
## Model     => y ~ x4 + x3 
## R2        => 0.952 
## 
##                     Selection Metrics Table                     
## ---------------------------------------------------------------
## Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared      AIC   
## ---------------------------------------------------------------
## x1            0.03844        0.959             0.955    149.384 
## x2            0.19759        0.955             0.950    152.438 
## ---------------------------------------------------------------
## 
## Step      => 3 
## Selected  => x1 
## Model     => y ~ x4 + x3 + x1 
## R2        => 0.959 
## 
##                     Selection Metrics Table                     
## ---------------------------------------------------------------
## Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared      AIC   
## ---------------------------------------------------------------
## x2            0.14585        0.962             0.957    148.831 
## ---------------------------------------------------------------
## 
## 
## No more variables to be added.
## 
## Variables Selected: 
## 
## => x4 
## => x3 
## => x1
## 
## 
##                              Stepwise Summary                              
## -------------------------------------------------------------------------
## Step    Variable        AIC        SBC       SBIC        R2       Adj. R2 
## -------------------------------------------------------------------------
##  0      Base Model    245.626    248.557    151.079    0.00000    0.00000 
##  1      x4            225.041    229.438    128.939    0.50627    0.48981 
##  2      x3            152.369    158.232     61.167    0.95213    0.94883 
##  3      x1            149.384    156.713     59.309    0.95904    0.95465 
## -------------------------------------------------------------------------
## 
## Final Model Output 
## ------------------
## 
##                          Model Summary                          
## ---------------------------------------------------------------
## R                       0.979       RMSE                 2.136 
## R-Squared               0.959       MSE                  4.563 
## Adj. R-Squared          0.955       Coef. Var           11.615 
## Pred R-Squared          0.949       AIC                149.384 
## MAE                     1.766       SBC                156.713 
## ---------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
##  AIC: Akaike Information Criteria 
##  SBC: Schwarz Bayesian Criteria 
## 
##                                 ANOVA                                 
## ---------------------------------------------------------------------
##                 Sum of                                               
##                Squares        DF    Mean Square       F         Sig. 
## ---------------------------------------------------------------------
## Regression    3418.076         3       1139.359    218.505    0.0000 
## Residual       146.001        28          5.214                      
## Total         3564.077        31                                     
## ---------------------------------------------------------------------
## 
##                                    Parameter Estimates                                     
## ------------------------------------------------------------------------------------------
##       model      Beta    Std. Error    Std. Beta       t        Sig       lower     upper 
## ------------------------------------------------------------------------------------------
## (Intercept)     4.032         7.223                   0.558    0.581    -10.764    18.828 
##          x4     0.157         0.006        1.018     24.224    0.000      0.143     0.170 
##          x3    -0.187         0.016       -0.653    -11.718    0.000     -0.219    -0.154 
##          x1     0.222         0.102        0.117      2.173    0.038      0.013     0.431 
## ------------------------------------------------------------------------------------------

Comentarios

Predicciones

Utilicemos el modelo para realizar predicciones de nuevos valores de \(y\).

  ml2<-lm(y~x1+x2+x4,data=prater)
  predict(ml2,data.frame(x1=40, x2=5, x3=270,  x4=350), interval="confidence")
##       fit      lwr      upr
## 1 24.3266 23.08519 25.56801
  predict(ml2,data.frame(x1=40, x2=5, x3=270,  x4=350), interval="prediction")
##       fit      lwr      upr
## 1 24.3266 17.89816 30.75504

Comentarios

Ejercicio 2:

Se realiza un experimento para determinar el calor desarrollado en la fabricación de cemento en función de los porcentajes de 4 compuestos activos que se utilizan en la fabricación. Para ello se elige una muestra de 13 cementos, midiéndose el calor desarrollado de cals/g (\(y\)) y los porcentajes de los compuestos referidos (\(x1, x2, x3, x4\)). Los datos se encuentran en el archivo CEMENTO.DAT. Calcula la ecuación pedida, investigando la bondad del ajuste y eliminando de modo razonado alguna de las variables predictoras del modelo, si ello fuera necesario.

Ajuste y análisis del modelo

  cemento<-read.table("./datos/cemento.dat",head=T)
  colnames(cemento)
## [1] "x1" "x2" "x3" "x4" "y"
  ml3<-lm(y~.,data=cemento)
  summary(ml3)
## 
## Call:
## lm(formula = y ~ ., data = cemento)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.1750 -1.6709  0.2508  1.3783  3.9254 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept)  62.4054    70.0710   0.891   0.3991  
## x1            1.5511     0.7448   2.083   0.0708 .
## x2            0.5102     0.7238   0.705   0.5009  
## x3            0.1019     0.7547   0.135   0.8959  
## x4           -0.1441     0.7091  -0.203   0.8441  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.446 on 8 degrees of freedom
## Multiple R-squared:  0.9824, Adjusted R-squared:  0.9736 
## F-statistic: 111.5 on 4 and 8 DF,  p-value: 4.756e-07

Comentarios

Estudio de multicolinealidad

  library(car)
  vif(ml3)
##        x1        x2        x3        x4 
##  38.49621 254.42317  46.86839 282.51286

Comentarios

Selección de variables

  library(olsrr)
  ols_step_backward_p(ml3,prem=0.1,details=T)
## Backward Elimination Method 
## ---------------------------
## 
## Candidate Terms: 
## 
## 1. x1 
## 2. x2 
## 3. x3 
## 4. x4 
## 
## 
## Step   => 0 
## Model  => y ~ x1 + x2 + x3 + x4 
## R2     => 0.982 
## 
## Initiating stepwise selection... 
## 
## Step     => 1 
## Removed  => x3 
## Model    => y ~ x1 + x2 + x4 
## R2       => 0.98234 
## 
## 
## No more variables to be removed.
## 
## Variables Removed: 
## 
## => x3
## 
## 
##                             Stepwise Summary                            
## ----------------------------------------------------------------------
## Step    Variable       AIC       SBC       SBIC       R2       Adj. R2 
## ----------------------------------------------------------------------
##  0      Full Model    65.837    69.226    34.413    0.98238    0.97356 
##  1      x3            63.866    66.691    31.172    0.98234    0.97645 
## ----------------------------------------------------------------------
## 
## Final Model Output 
## ------------------
## 
##                         Model Summary                          
## --------------------------------------------------------------
## R                       0.991       RMSE                1.921 
## R-Squared               0.982       MSE                 3.690 
## Adj. R-Squared          0.976       Coef. Var           2.419 
## Pred R-Squared          0.969       AIC                63.866 
## MAE                     1.606       SBC                66.691 
## --------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
##  AIC: Akaike Information Criteria 
##  SBC: Schwarz Bayesian Criteria 
## 
##                                 ANOVA                                 
## ---------------------------------------------------------------------
##                 Sum of                                               
##                Squares        DF    Mean Square       F         Sig. 
## ---------------------------------------------------------------------
## Regression    2667.790         3        889.263    166.832    0.0000 
## Residual        47.973         9          5.330                      
## Total         2715.763        12                                     
## ---------------------------------------------------------------------
## 
##                                    Parameter Estimates                                    
## -----------------------------------------------------------------------------------------
##       model      Beta    Std. Error    Std. Beta      t        Sig      lower      upper 
## -----------------------------------------------------------------------------------------
## (Intercept)    71.648        14.142                  5.066    0.001    39.656    103.641 
##          x1     1.452         0.117        0.568    12.410    0.000     1.187      1.717 
##          x2     0.416         0.186        0.430     2.242    0.052    -0.004      0.836 
##          x4    -0.237         0.173       -0.263    -1.365    0.205    -0.629      0.155 
## -----------------------------------------------------------------------------------------
  ols_step_backward_aic(ml3,details=T)
## Backward Elimination Method 
## ---------------------------
## 
## Candidate Terms: 
## 
## 1. x1 
## 2. x2 
## 3. x3 
## 4. x4 
## 
## 
## Step     => 0 
## Model    => y ~ x1 + x2 + x3 + x4 
## AIC      => 65.83669 
## 
## Initiating stepwise selection... 
## 
##                 Table: Removing Existing Variables                  
## -------------------------------------------------------------------
## Predictor    DF     AIC       SBC       SBIC       R2       Adj. R2 
## -------------------------------------------------------------------
## x3            1    63.866    66.691    31.172    0.98234    0.97645 
## x4            1    63.904    66.728    31.184    0.98228    0.97638 
## x2            1    64.620    67.445    31.406    0.98128    0.97504 
## x1            1    69.468    72.293    33.000    0.97282    0.96376 
## -------------------------------------------------------------------
## 
## Step     => 1 
## Removed  => x3 
## Model    => y ~ x1 + x2 + x4 
## AIC      => 63.86629 
## 
##                  Table: Removing Existing Variables                  
## --------------------------------------------------------------------
## Predictor    DF     AIC        SBC       SBIC       R2       Adj. R2 
## --------------------------------------------------------------------
## x4            1    64.312     66.572    29.244    0.97868    0.97441 
## x2            1    67.634     69.894    30.981    0.97247    0.96697 
## x1            1    99.522    101.782    55.508    0.68006    0.61607 
## --------------------------------------------------------------------
## 
## 
## No more variables to be removed.
## 
## Variables Removed: 
## 
## => x3
## 
## 
##                             Stepwise Summary                            
## ----------------------------------------------------------------------
## Step    Variable       AIC       SBC       SBIC       R2       Adj. R2 
## ----------------------------------------------------------------------
##  0      Full Model    65.837    69.226    34.413    0.98238    0.97356 
##  1      x3            63.866    66.691    30.134    0.98234    0.97645 
## ----------------------------------------------------------------------
## 
## Final Model Output 
## ------------------
## 
##                         Model Summary                          
## --------------------------------------------------------------
## R                       0.991       RMSE                1.921 
## R-Squared               0.982       MSE                 3.690 
## Adj. R-Squared          0.976       Coef. Var           2.419 
## Pred R-Squared          0.969       AIC                63.866 
## MAE                     1.606       SBC                66.691 
## --------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
##  AIC: Akaike Information Criteria 
##  SBC: Schwarz Bayesian Criteria 
## 
##                                 ANOVA                                 
## ---------------------------------------------------------------------
##                 Sum of                                               
##                Squares        DF    Mean Square       F         Sig. 
## ---------------------------------------------------------------------
## Regression    2667.790         3        889.263    166.832    0.0000 
## Residual        47.973         9          5.330                      
## Total         2715.763        12                                     
## ---------------------------------------------------------------------
## 
##                                    Parameter Estimates                                    
## -----------------------------------------------------------------------------------------
##       model      Beta    Std. Error    Std. Beta      t        Sig      lower      upper 
## -----------------------------------------------------------------------------------------
## (Intercept)    71.648        14.142                  5.066    0.001    39.656    103.641 
##          x1     1.452         0.117        0.568    12.410    0.000     1.187      1.717 
##          x2     0.416         0.186        0.430     2.242    0.052    -0.004      0.836 
##          x4    -0.237         0.173       -0.263    -1.365    0.205    -0.629      0.155 
## -----------------------------------------------------------------------------------------
  ols_step_forward_p(ml3,prem=0.1,details=T)
## Forward Selection Method 
## ------------------------
## 
## Candidate Terms: 
## 
## 1. x1 
## 2. x2 
## 3. x3 
## 4. x4 
## 
## 
## Step   => 0 
## Model  => y ~ 1 
## R2     => 0 
## 
## Initiating stepwise selection... 
## 
##                     Selection Metrics Table                     
## ---------------------------------------------------------------
## Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared      AIC   
## ---------------------------------------------------------------
## x4            0.00058        0.675             0.645     97.744 
## x2            0.00066        0.666             0.636     98.070 
## x1            0.00455        0.534             0.492    102.412 
## x3            0.05976        0.286             0.221    107.960 
## ---------------------------------------------------------------
## 
## Step      => 1 
## Selected  => x4 
## Model     => y ~ x4 
## R2        => 0.675 
## 
##                    Selection Metrics Table                     
## --------------------------------------------------------------
## Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared     AIC   
## --------------------------------------------------------------
## x1            0.00000        0.972             0.967    67.634 
## x3              8e-05        0.935             0.922    78.745 
## x2            0.68668        0.680             0.616    99.522 
## --------------------------------------------------------------
## 
## Step      => 2 
## Selected  => x1 
## Model     => y ~ x4 + x1 
## R2        => 0.972 
## 
##                    Selection Metrics Table                     
## --------------------------------------------------------------
## Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared     AIC   
## --------------------------------------------------------------
## x2            0.05169        0.982             0.976    63.866 
## x3            0.06969        0.981             0.975    64.620 
## --------------------------------------------------------------
## 
## Step      => 3 
## Selected  => x2 
## Model     => y ~ x4 + x1 + x2 
## R2        => 0.982 
## 
##                    Selection Metrics Table                     
## --------------------------------------------------------------
## Predictor    Pr(>|t|)    R-Squared    Adj. R-Squared     AIC   
## --------------------------------------------------------------
## x3            0.89592        0.982             0.974    65.837 
## --------------------------------------------------------------
## 
## 
## No more variables to be added.
## 
## Variables Selected: 
## 
## => x4 
## => x1 
## => x2
## 
## 
##                              Stepwise Summary                             
## ------------------------------------------------------------------------
## Step    Variable        AIC        SBC       SBIC       R2       Adj. R2 
## ------------------------------------------------------------------------
##  0      Base Model    110.337    111.467    69.615    0.00000    0.00000 
##  1      x4             97.744     99.439    55.540    0.67454    0.64495 
##  2      x1             67.634     69.894    30.981    0.97247    0.96697 
##  3      x2             63.866     66.691    31.172    0.98234    0.97645 
## ------------------------------------------------------------------------
## 
## Final Model Output 
## ------------------
## 
##                         Model Summary                          
## --------------------------------------------------------------
## R                       0.991       RMSE                1.921 
## R-Squared               0.982       MSE                 3.690 
## Adj. R-Squared          0.976       Coef. Var           2.419 
## Pred R-Squared          0.969       AIC                63.866 
## MAE                     1.606       SBC                66.691 
## --------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
##  AIC: Akaike Information Criteria 
##  SBC: Schwarz Bayesian Criteria 
## 
##                                 ANOVA                                 
## ---------------------------------------------------------------------
##                 Sum of                                               
##                Squares        DF    Mean Square       F         Sig. 
## ---------------------------------------------------------------------
## Regression    2667.790         3        889.263    166.832    0.0000 
## Residual        47.973         9          5.330                      
## Total         2715.763        12                                     
## ---------------------------------------------------------------------
## 
##                                    Parameter Estimates                                    
## -----------------------------------------------------------------------------------------
##       model      Beta    Std. Error    Std. Beta      t        Sig      lower      upper 
## -----------------------------------------------------------------------------------------
## (Intercept)    71.648        14.142                  5.066    0.001    39.656    103.641 
##          x4    -0.237         0.173       -0.263    -1.365    0.205    -0.629      0.155 
##          x1     1.452         0.117        0.568    12.410    0.000     1.187      1.717 
##          x2     0.416         0.186        0.430     2.242    0.052    -0.004      0.836 
## -----------------------------------------------------------------------------------------
  ols_step_forward_aic(ml3,details=T)
## Forward Selection Method 
## ------------------------
## 
## Candidate Terms: 
## 
## 1. x1 
## 2. x2 
## 3. x3 
## 4. x4 
## 
## 
## Step     => 0 
## Model    => y ~ 1 
## AIC      => 110.3368 
## 
## Initiating stepwise selection... 
## 
##                      Table: Adding New Variables                      
## ---------------------------------------------------------------------
## Predictor    DF      AIC        SBC       SBIC       R2       Adj. R2 
## ---------------------------------------------------------------------
## x4            1     97.744     99.439    55.540    0.67454    0.64495 
## x2            1     98.070     99.765    55.850    0.66627    0.63593 
## x1            1    102.412    104.107    60.004    0.53395    0.49158 
## x3            1    107.960    109.655    65.385    0.28587    0.22095 
## ---------------------------------------------------------------------
## 
## Step     => 1 
## Added    => x4 
## Model    => y ~ x4 
## AIC      => 97.74404 
## 
##                     Table: Adding New Variables                      
## --------------------------------------------------------------------
## Predictor    DF     AIC        SBC       SBIC       R2       Adj. R2 
## --------------------------------------------------------------------
## x1            1    67.634     69.894    30.981    0.97247    0.96697 
## x3            1    78.745     81.005    37.887    0.93529    0.92235 
## x2            1    99.522    101.782    55.508    0.68006    0.61607 
## --------------------------------------------------------------------
## 
## Step     => 2 
## Added    => x1 
## Model    => y ~ x4 + x1 
## AIC      => 67.63411 
## 
##                     Table: Adding New Variables                     
## -------------------------------------------------------------------
## Predictor    DF     AIC       SBC       SBIC       R2       Adj. R2 
## -------------------------------------------------------------------
## x2            1    63.866    66.691    31.172    0.98234    0.97645 
## x3            1    64.620    67.445    31.406    0.98128    0.97504 
## -------------------------------------------------------------------
## 
## Step     => 3 
## Added    => x2 
## Model    => y ~ x4 + x1 + x2 
## AIC      => 63.86629 
## 
##                     Table: Adding New Variables                     
## -------------------------------------------------------------------
## Predictor    DF     AIC       SBC       SBIC       R2       Adj. R2 
## -------------------------------------------------------------------
## x3            1    65.837    69.226    34.413    0.98238    0.97356 
## -------------------------------------------------------------------
## 
## 
## No more variables to be added.
## 
## Variables Selected: 
## 
## => x4 
## => x1 
## => x2
## 
## 
##                              Stepwise Summary                             
## ------------------------------------------------------------------------
## Step    Variable        AIC        SBC       SBIC       R2       Adj. R2 
## ------------------------------------------------------------------------
##  0      Base Model    110.337    111.467    69.615    0.00000    0.00000 
##  1      x4             97.744     99.439    55.540    0.67454    0.64495 
##  2      x1             67.634     69.894    30.981    0.97247    0.96697 
##  3      x2             63.866     66.691    31.172    0.98234    0.97645 
## ------------------------------------------------------------------------
## 
## Final Model Output 
## ------------------
## 
##                         Model Summary                          
## --------------------------------------------------------------
## R                       0.991       RMSE                1.921 
## R-Squared               0.982       MSE                 3.690 
## Adj. R-Squared          0.976       Coef. Var           2.419 
## Pred R-Squared          0.969       AIC                63.866 
## MAE                     1.606       SBC                66.691 
## --------------------------------------------------------------
##  RMSE: Root Mean Square Error 
##  MSE: Mean Square Error 
##  MAE: Mean Absolute Error 
##  AIC: Akaike Information Criteria 
##  SBC: Schwarz Bayesian Criteria 
## 
##                                 ANOVA                                 
## ---------------------------------------------------------------------
##                 Sum of                                               
##                Squares        DF    Mean Square       F         Sig. 
## ---------------------------------------------------------------------
## Regression    2667.790         3        889.263    166.832    0.0000 
## Residual        47.973         9          5.330                      
## Total         2715.763        12                                     
## ---------------------------------------------------------------------
## 
##                                    Parameter Estimates                                    
## -----------------------------------------------------------------------------------------
##       model      Beta    Std. Error    Std. Beta      t        Sig      lower      upper 
## -----------------------------------------------------------------------------------------
## (Intercept)    71.648        14.142                  5.066    0.001    39.656    103.641 
##          x4    -0.237         0.173       -0.263    -1.365    0.205    -0.629      0.155 
##          x1     1.452         0.117        0.568    12.410    0.000     1.187      1.717 
##          x2     0.416         0.186        0.430     2.242    0.052    -0.004      0.836 
## -----------------------------------------------------------------------------------------

Comentarios

Ejercicio 3:

A la hora de vigilar la concentración de contaminantes en los acuíferos, se piensa que un cambio en la concentración de un contaminante causará un cambio en el valor del flujo de radiaciones, es decir, si se conocen los valores de la radiación para diferentes bandas espectrales, entonces es posibles predecir la concentración de un contaminante en una fuente de agua dada. El problema reside en el hecho de identificar, de entre todas las bandas, cuál es la que puede predecir la concentración del contaminante. En un laboratorio, se obtuvieron datos reales de percepción remota, bajo condiciones controladas, que empleó cinco bandas y varios constituyentes, entre ellos el sedimento del feldespato. Los datos de la muestra se proporcionan en el archivo ACUIF.DAT.

Como continuación del análisis realizado en la práctica anterior, selecciona las bandas espectrales que determinan la concentración del contaminante.

Ejercicio 4

Se toman datos de 209 ordenadores con el objeto de predecir el rendimiento de la cpu (\(y\)) en función de una serie de variables. El rendimiento se mide tomando como punto de referencia la cpu de un determinado modelo de la firma IBM. Las variables predictoras son el tiempo de cada ciclo en nanosegundos (\(x1\)), la memoria principal máxima (\(x2\)), la memoria principal mínima (\(x3\)), ambas en kilobytes, el tamaño de la memoria caché (\(x4\)), también en kilobytes, el número mínimo (\(x5\)) y máximo (\(x6\)) de canales. Los datos se encuentran en el archivo CPUS.DAT.

Como continuación del análisis realizado en la práctica anterior, determina el grupo de variables que resultan significativas mediante un procedimiento de entrada o salida.