---
title: "Práctica 4"
output: html_document
date: "`r Sys.Date()`"
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

# MODELOS CON UN FACTOR

## Ejercicio 1
Una operación de llenado tiene tres máquinas idénticas que se ajustan para vaciar una cantidad especifica de un producto en recipientes de igual tamaño. Con el propósito de identificar diferencias entre las cantidades (en litros) vaciadas por cada máquina, se toman muestras aleatorias, en forma periódica, de cada una. Para un periodo particular se observaron los datos que aparecen en el fichero maquina.dat. ¿Existen algunas diferencias estadísticamente significativas en las cantidades promedio vaciadas por las tres máquinas?


Se trata de un diseño de un factor completamente aleatorizado, ya que las muestras han sido tomadas de forma aleatoria de las tres máquinas. 

$$Y_{ij}=\mu+\tau_i+\varepsilon_{ij}$$

Vamos a importar los datos y a representarlos en un gráfico de dispersión:

```{r gráfico de maquina, message=FALSE}
maquina<-read.table("./datos/maquina.dat", head=T)
stripchart(y~maq,data=maquina,vertical=T,method="jitter", pch=1)
```

Ajustemos un modelo lineal a estos datos:

```{r modelo maquina, message=FALSE}
ml1<-lm(y~maq,data=maquina)
```


Veamos que este modelo verifica las condiciones teóricas para proceder a su análisis. En primer lugar dibujamos los gráficos de residuos:

```{r gráficos residuos máquina, message=FALSE}
layout(matrix(1:4,2))
plot(ml1)
```

Contrastemos la normalidad de los datos:

```{r normalidad máquina, message=FALSE}
shapiro.test(rstandard(ml1))
```

Contrastemos también la homocedasticidad:

```{r homocedasticidad máquina, message=FALSE}
library(lmtest)
bptest(ml1)
```


Por último, la no correlación de errores:


```{r autocorrelación máquina, message=FALSE}
library(lmtest)
dwtest(ml1)
```


***Comentarios a los diagnósticos:***


Procedamos al análisis, realizando el contraste

$$H_0:\tau_1=\tau_2=\tau_3$$
mediante la tabla de análisis de la varianza:

```{r anova maquina, message=FALSE}
anova(ml1)
```


Calculemos los estimadores de las cantidades promedio vaciadas por cada máquina ($\mu+\tau_i$)
```{r medias maquina, message=FALSE}
tapply(maquina$y, maquina$maq, mean)
```

***Comentarios al análisis:***


Procedamos a realizar las comparaciones múltiples por el método de Tukey:

```{r Tukey maquina, message=FALSE}
TukeyHSD(aov(ml1))
```

***Comentarios al análisis:***


## Ejercicio 2
Un fabricante desea emplear un nuevo tipo de aleación en la producción de filtros y quiere determinar la velocidad de agitación adecuada ya que piensa que ésta puede influir en la resistencia que alcanza el producto final. En el local de la fábrica se cuenta con 4 hornos, cada uno de los cuales tiene sus propias características de operación, lo que los convierte en posibles fuentes de variabilidad.

Cada horno puede operarse a las tres velocidades propuestas por un experto (10 rpm, 15 rpm y 20 rpm). Los datos de resistencia (en Kg/cm2) se encuentran en el archivo filtros.dat. Se desea saber si dicha resistencia cambia con la velocidad.


Como los hornos son una fuente de variabilidad y se ha probado cada una de las velocidades en todos los hornos, se trata de un diseño de bloques al azar: 

$$Y_{ij}=\mu+\tau_i+\delta_j+\varepsilon_{ij}$$

Vamos a importar los datos y a representarlos en un gráfico de dispersión:


```{r gráfico de filtro, message=FALSE}
filtros<-read.table("./datos/filtros.dat", head=T)
filtros$Horno<-as.factor(filtros$Horno)
filtros$Velocidad<-as.factor(filtros$Velocidad)
interaction.plot(filtros$Velocidad,filtros$Horno,filtros$Resistencia,type="p",lty=0,pch=19,col=1:4,legend = F)
legend("topleft", legend = levels(filtros$Horno), col = 1:4, pch = 19, title = "Horno")
```

Ajustemos un modelo lineal a estos datos:

```{r modelo filtros, message=FALSE}
ml2<-lm(Resistencia~Velocidad+Horno,data=filtros)
```


Veamos que este modelo verifica las condiciones teóricas para proceder a su análisis. En primer lugar dibujamos los gráficos de residuos:

```{r gráficos residuos filtros, message=FALSE}
layout(matrix(1:4,2))
plot(ml2)
```

Contrastemos la normalidad de los datos:

```{r normalidad filtros, message=FALSE}
shapiro.test(rstandard(ml2))
```

Contrastemos también la homocedasticidad:

```{r homocedasticidad filtros, message=FALSE}
library(lmtest)
bptest(ml2)
```


Por último, la no correlación de errores:


```{r autocorrelación filtros, message=FALSE}
library(lmtest)
dwtest(ml2)
```


***Comentarios a los diagnósticos:***


Procedamos al análisis, realizando el contraste

$$H_0:\tau_1=\tau_2=\tau_3$$
mediante la tabla de análisis de la varianza:

```{r anova filtros, message=FALSE}
anova(ml2)
```


Calculemos los estimadores de las resistencias promedio a las tres velocidades de agitación:
```{r medias filtros, message=FALSE}
tapply(filtros$Resistencia, filtros$Velocidad, mean)
```

***Comentarios al análisis:***


Procedamos a realizar las comparaciones múltiples por el método de Tukey:

```{r Tukey filtros, message=FALSE}
TukeyHSD(aov(ml2))
```

***Comentarios al análisis:***


## Ejercicio 3
Un investigador quiere evaluar la productividad de cuatro variedades de aguacate, Reed, Hass, Pinkerton	y Bacon. Para ello decide realizar el ensayo en un terreno que posee un gradiente de pendiente de oriente a occidente y además, diferencias en la disponibilidad de Nitrógeno de norte a sur. Para controlar los efectos de la pendiente y la disponibilidad de Nitrógeno, utilizó un diseño de cuadrado latino. Los datos correspondientes a la producción (en kg/parcela) se encuentran en el archivo aguacate.txt. Estudiar las diferencias de productividad de las cuatro variedades de aguacate.


Como dice el propio ejercicio se ha utilizado un diseño de cuadrado latino

$$Y_{ijh}=\mu+\tau_i+\delta_j+\gamma_h+\varepsilon_{ijh}$$
Vamos a importar los datos:

```{r aguacate, message=FALSE}
aguacate<-read.table("./datos/aguacate.txt", head=T, sep="\t")
aguacate$Nitrogeno<-as.factor(aguacate$Nitrogeno)
aguacate$Pendiente<-as.factor(aguacate$Pendiente)
```

Ajustemos el modelo de cuadrado latino:

```{r ajuste aguacate, message=FALSE}
ml3<-lm(Produccion~Variedad+Nitrogeno+Pendiente, data=aguacate)
```

Veamos que este modelo verifica las condiciones teóricas para proceder a su análisis. En primer lugar dibujamos los gráficos de residuos:

```{r gráficos residuos aguacate, message=FALSE}
layout(matrix(1:4,2))
plot(ml3)
```

Contrastemos la normalidad de los datos:

```{r normalidad aguacate, message=FALSE}
shapiro.test(rstandard(ml3))
```

Contrastemos también la homocedasticidad:

```{r homocedasticidad aguacate, message=FALSE}
library(lmtest)
bptest(ml3)
```


Por último, la no correlación de errores:


```{r autocorrelación aguacate, message=FALSE}
library(lmtest)
dwtest(ml3)
```


***Comentarios a los diagnósticos:***


Procedamos al análisis, realizando el contraste

$$H_0:\tau_1=\tau_2=\tau_3=\tau_4$$
mediante la tabla de análisis de la varianza:

```{r anova aguacate, message=FALSE}
anova(ml3)
```


Calculemos los estimadores de las producciones promedio de las cuatro variedades de aguacate:
```{r medias aguacate, message=FALSE}
tapply(aguacate$Produccion, aguacate$Variedad, mean)
```

***Comentarios al análisis:***


Procedamos a realizar las comparaciones múltiples por el método de Tukey:

```{r Tukey aguacate, message=FALSE}
TukeyHSD(aov(ml3))
```

***Comentarios al análisis:***


## Ejercicio 4
Desde el incremento en los precios de la gasolina, se han desarrollado varios dispositivos que se colocan en los carburadores de los automóviles. Una empresa selecciona tres de estos dispositivos para someterlos a prueba. La empresa desea compararlos con los carburadores estándar, con el propósito de determinar si existe un incremento apreciable de kilómetros por litro de gasolina con el uso de estos dispositivos. La compañía selecciona cinco automóviles para el experimento. Para controlar la variación, se planea utilizar el mismo conductor para todo el experimento. Se observan los datos del archivo carbu.dat. Estudia las posibles diferencias de consumo entre los carburadores.

## Ejercicio 5
El conjunto de datos iris.dat proporciona las medidas en centímetros de las variables longitud del sépalo, anchura del sépalo, longitud del pétalo y anchura del pétalo, respectivamente, para 50 flores de tres especies de iris:  setosa, versicolor y virginica. Detectar si hay diferencias significativas entre las tres especies en las cuatro medidas.

## Ejercicio 6
Una empresa de bebidas está interesada en evaluar el impacto de diferentes métodos de carbonatación en la efervescencia de sus refrescos. Se han identificado cuatro métodos de carbonatación que se aplicarán a un lote de refrescos:
  
  - A: Carbonatación por inyección de CO₂
  - B: Carbonatación natural (fermentación)
  - C: Carbonatación por absorción
  - D: Carbonatación por mezcla de gases

El objetivo del estudio es determinar si hay diferencias significativas en la efervescencia de los refrescos, medida a través de la cantidad de dióxido de carbono (CO₂) disuelto, al aplicar los diferentes métodos de carbonatación. 

Para controlar la variabilidad entre los diferentes lotes de refrescos y el tiempo de almacenamiento, cada método de carbonatación se aplicará una vez para cada lote de refresco y en cada tiempo de almacenamiento. Los datos se encuentran en el archivo carbonatacion.txt. Analiza estos datos para determinar las posibles diferencias en contenido de dióxido de carbono de refrescos carbonatados con los 4 métodos.