¿Qué hacemos cuando tenemos dos medidas consecutivas de una variable en un sujeto?


 El número 173 nos ha servido para darnos cuenta de que nunca en esta sección hemos tratado qué hacemos cuando en un sujeto (lechón, cerda, …) tenemos dos o más medidas de una variable separadas por intervalos regulares o no en el tiempo. 

Por ejemplo, dos pesos, uno al nacimiento y otro al destete. O dos temperaturas, una al inicio de un proceso y otra al final. Y no sólo debemos pensar en animales en cuanto a datos pareados: Imaginad una fábrica de pienso que mide la temperatura del pienso al entrar en la granuladora y al salir de ella. También son datos pareados que los podemos definir como aquellos datos provenientes de muestras dependientes de los mismos individuos y responden a observaciones realizadas sobre esa muestra en momentos diferentes del estudio, ya sea antes y después de la aplicación de un tratamiento o sin introducir ningún tratamiento.

El análisis de los datos pareados se realiza de una forma especial. Comencemos viendo un conjunto de datos. Primero introducimos los datos denominados “pareados”. Para analizar los datos con R, cargaremos RCommander con library (Rcmdr) y cargaremos los datos en Datos/Importar datos/Desde un archivo Excel eligiendo la Hoja 1. Lo denominaremos “pareados” y lo visualizaremos mediante la pestaña “Visualizar conjunto de datos” y veremos los datos de la tabla 1:

Los datos corresponden a las temperaturas de un grupo de 40 animales tomadas en dos momentos diferentes: T_1 y T_2, y para estudiar si existen diferencias usaremos un test t de Student que estudia las diferencias entre valores.

Lo primero que tenemos que hacer para aplicar un test t de Student es saber si los datos se distribuyen de forma normal. Para ello iremos a “Resúmenes/Test de normalidad”. Ya tenemos la variable problema seleccionada (temperatura) y yendo al botón “Test por grupos”, ya tendremos seleccionada la variable “tiempo”. La salida nos informará si las distribuciones de las temperaturas difieren de la distribución normal.


Podemos observar en la siguiente figura que las temperaturas del tiempo T_2 no siguen la ley normal, pero para nuestro ejercicio, seguiremos considerándolas normales.

A continuación, debemos saber si las varianzas de las temperaturas en cada tiempo son iguales.
Para ello, iremos a “Estadísticos/Varianzas/Test F para dos varianzas” y simplemente aceptando
lo que por defecto tenemos, la variable “tiempo” como factor y la variable “temperatura” como
dependiente, veremos que las varianza son iguales.


Con lo que ya podemos usar el test t de Student. Para ello iremos a “Estadísticos/Medias/Test t para
muestras independientes”. Y en la pestaña “Opciones”, elegiremos la opción “¿Suponer varianzas
iguales?”. Elegiremos “Sí”, ya que lo hemos comprobado.
Obtendremos:

Si supusiésemos que estas muestras fueran independientes, encontramos que las diferencias no son significativas (p-value = 0.5388) y el intervalo de la diferencia al 95% de confianza está entre -0.18 y 0.09 grados.

Si ahora importamos los datos del mismo fichero, pero de la Hoja 2 y lo denominamos “p2”, veremos que su estructuración es diferente apareciendo como en la tabla siguiente:

¿Podríamos llegar a estos datos desde el primer fichero en R? Sí, existen varios métodos. El paquete “reshape” nos ayuda a ello, pero en modo programación. Para cambiar los datos desde la estructura de la tabla 1 (formato conocido como “long”) a la tabla 2 (formato conocido como “wide”) debemos escribir en la consola las siguientes instrucciones:



Si ahora elegimos el nuevo conjunto de datos “p2” veremos que ya tiene la estructura de la tabla

2. Entonces vamos a ver el test t-Student, pero para datos pareados o dependientes, iremos a “Estadísticos/ Medias/” y ya no nos aparecerá activada la opción de muestras independientes. Elegimos la opción de muestras relacionadas y elegimos en la primera variable la que aparece como temperatura T_1 y en la segunda la temperatura T_2. Obtendremos:



Aquí vemos que el valor p es diferente del valor obtenido anteriormente y que la diferencia de las medias es de -0,0415 grados. 

Veamos un ejemplo con mayores diferencias. Estos datos (están en nuestro blog y se denominan “streams”) se han obtenido de un índice compuesto de biodiversidad que cuenta el número de invertebrados de una muestra de agua en dos tramos diferentes de un arroyo. Proviene del libro “The R book” (pág. 298). Si los cargamos en R Commander veremos que hay dos variables, “up” y “down” que se refieren a la localización del arroyo donde se tomaron las muestras. 

Con este formato RCommander no dos deja realizar un análisis t-Student como datos independientes. Si queremos ver las diferencias, lo tenemos que escribir con código. Si copiamos este código:

t.test(down, up)

y lo ejecutamos, obtendremos:

Si ahora lo hacemos mediante la opción (por defecto en RCommander) de datos relacionados o pareados obtendremos:

Como vemos, son completamente diferentes los resultados:

Mientras que si los datos eran independientes no existía diferencia, ahora al tratarlos como relacionados o pareados, vemos que sí que existe una diferencia entre ellos.

En el próximo número seguiremos con estos ejemplos introduciendo otra idea y más variantes. ¡Estate atento para no perderte nada!







Comentarios

Entradas populares