Dichos gráficos pueden ofrecer una información muy valiosa a la hora de analizar la relación que pueda existir entre las variables de nuestro estudio.
DATOS Y OBJETIVOS
Para seguir el ejemplo es necesario descargarse el archivo denominado “numero4.xls” el cual se encuentra al final de la pagina. Una vez descargado, hay que abrir R y cargar RCommander (bien con la instrucción “library(“Rcdmr” o a través de “Paquetes/Cargar paquete...” y eligiendo “Rcmdr”).
Para cargar el archivo “numero4.xls” en RCommander, hay que ir a “Datos/Importar datos/Desde
conjunto de datos Excel...” y, mediante el buscador de Windows, acceder a la carpeta donde hayamos almacenado el archivo “numero4.xls”.
datos”. Allí aparecerán los datos del archivo “numero4.xls”. Una vez comprobado, cerraremos el visor.
“Estadísticos” nos aparece la opción “Resúmenes/Conjunto de datos activos” (figura 1). Cuando elegimos esta opción, lo que hace RCommander
es darnos información sobre cada una de las variables de nuestros datos. De este modo sabremos cuántas crianzas hemos realizado en cada una de las tres granjas y para cuántas crianzas ha fabricado pienso cada fábrica. Así mismo, la variable cuantitativa “pesoentra” (peso de entrada en kg de nuestros animales), nos da una serie de valores estadísticos. Nos informa acerca del peso mínimo y del máximo, de la media y de una serie de medidas de dispersión, como los cuartiles.
El “1st Qu.” se refiere al cuartil 25, “3rd Qu.”es el cuartil 75 y la mediana o cuartil 50 viene indicado por el estadístico “Median”. Podemos ver que la instrucción generada en la ventana de instrucciones es “summary(Datos)” que no parece demasiado complicada. De hecho, si vamos a la ventana de R y escribimos en la línea de comandos “summary(Datos)” nos aparecerán los mismos resultados que hemos obtenido a través de RCommander.
Si escogemos la siguiente opción, “Resúmenes numéricos”, RCommander nos permite obtener para la variable cuantitativa “pesoentra” una serie de estadísticos resumidos por grupos formados por las variables cualitativas (en este caso “granja” y “fabrica”; figura 2).
Podemos seleccionarlos todos (“Media” (mean), “Desviación típica” (typical desviation), “Coeficiente de variación” (coefficient of variation), “Asimetría” (skewness), “Apuntamiento” (kurtosis) y “Cuantiles” (quantiles).
Seleccionamos con el botón “Resumir por grupos” primero la variable “granja”, aceptamos y obtendremos los estadísticos anteriormente seleccionados de la variable “pesoentra” (peso de entrada) para cada una de nuestras tres granjas en cuestión (figura 3).
Seleccionamos con el botón “Resumir por grupos” primero la variable “granja”, aceptamos y obtendremos los estadísticos anteriormente seleccionados de la variable “pesoentra” (peso de entrada) para cada una de nuestras tres granjas en cuestión (figura 3).
Si repetimos la operación, pero esta vez eligiendo la variable “fabrica” obtendremos los anteriores estadísticos, pero ahora agrupados por dicha variable.En ambos casos RCommander nos informa ade-
más del número total de crianzas realizadas en cada granja o fábrica mediante la columna denominada “data:n” y también de los valores perdidos o missing (si los hubiera) mediante la colum-
na “data:NA” (Not Available).
Seguimos explorando la ventana “Estadísticos” y la siguiente opción que nos encontramos es la “Distribución de frecuencias”, que ya vimos cómo usar en el artículo anterior. El lector puede recordar su uso si la selecciona.
La siguiente opción nos informa de algo que ya hemos visto, los valores missing o valores ausentes. Si seleccionamos la opción, podremos confirmar si tenemos un valor ausente o missing. Dedicaremos al menos un artículo de esta serie al tratamiento de los valores missing que R etiqueta como NA (Not Available).Si seleccionamos “Tabla de estadísticas” tendremos la opción de obtener un solo estadístico o los que nosotros queramos en vez de todos los que nos ofrecía la opción “Resúmenes numéricos”. Dejamos al lector la libertad para interactuar con esta selección.
más del número total de crianzas realizadas en cada granja o fábrica mediante la columna denominada “data:n” y también de los valores perdidos o missing (si los hubiera) mediante la colum-
na “data:NA” (Not Available).
Seguimos explorando la ventana “Estadísticos” y la siguiente opción que nos encontramos es la “Distribución de frecuencias”, que ya vimos cómo usar en el artículo anterior. El lector puede recordar su uso si la selecciona.
La siguiente opción nos informa de algo que ya hemos visto, los valores missing o valores ausentes. Si seleccionamos la opción, podremos confirmar si tenemos un valor ausente o missing. Dedicaremos al menos un artículo de esta serie al tratamiento de los valores missing que R etiqueta como NA (Not Available).Si seleccionamos “Tabla de estadísticas” tendremos la opción de obtener un solo estadístico o los que nosotros queramos en vez de todos los que nos ofrecía la opción “Resúmenes numéricos”. Dejamos al lector la libertad para interactuar con esta selección.
►
La programación no es complicada
EDITAR DATOS PARA FACILITAR LA LECTURA
Dijimos en el primer artículo que una de las grandes posibilidades que nos da R es la multitud de gráficas que es capaz de generar, así como su potencia en el análisis gráfico. Hoy vamos a usar la opción “Gráficas” para ver de qué somos capaces y cómo podemos presentar nuestros datos con opciones del menú de RCommander.Gráfica de tallos y hojas
En el menú “Gráficas” aparece una opción que no es muy usada pero que sirve para ver no sólo la forma de la distribución de nuestros datos, sino también ver todos los datos. Es la “Gráfica de tallo y hojas” también conocido por su nombre en inglés, stem and leaf. Si lo seleccionamos, nos aparecerá en la “Ventana de resultados” una curiosa forma de representar los datos de nuestro conjunto (figura4).
Histograma
Una de las gráficas más usadas en estadística son los histogramas. RCommander nos permite tres formas de ver los datos: mediante el “Recuentos de frecuencias”, en “Porcentajes” y en “Densidades”. Seleccionando cada uno de ellos veremos el resultado de nuestras acciones.
Diagrama de caja
Un gráfico muy útil y descriptivo es el diagrama de caja, también llamado boxplot. RCommander lo habilita en la opción “Diagrama de caja” y nos da la posibilidad de obtener los resultados en función de la variable de clasificación que elijamos, en nuestro caso, las variables a elegir serían “fabrica” o “granja”.Resulta muy útil representar, antes o después del diagrama de caja, un diagrama de puntos donde nos aparecerá cada uno de nuestros valores clasificados por la variable que hayamos elegido.
Un gráfico muy útil y descriptivo es el diagrama de caja, también llamado boxplot. RCommander lo habilita en la opción “Diagrama de caja” y nos da la posibilidad de obtener los resultados en función de la variable de clasificación que elijamos, en nuestro caso, las variables a elegir serían “fabrica” o “granja”.Resulta muy útil representar, antes o después del diagrama de caja, un diagrama de puntos donde nos aparecerá cada uno de nuestros valores clasificados por la variable que hayamos elegido.
¿Por qué elegir gráficas combinadas?
La gráfica avanzada que les proponemos a continuación, que combina el histograma y el diagrama de caja y que añade información específica a las barras del histograma, sólo se puede realizar a través de programación que insertaremos en la “Ventana de instrucciones”. Aquí habrá que copiar, en la “Ventana de instrucciones” (con el fichero “numero3.xls” cargado y sin modificar las etiquetas), el código que aparece en el documento “guion3.doc”, descargable en http://testsndtrials.blogspot.com.es.
Una vez copiado el código, selecciónelo mediante el ratón y active el botón “Ejecutar” en la parte derecha de la pantalla de RCommander que se encuentra separando las ventanas de instrucciones y resultados y aparecerá este gráfico (figura 6). Si no lo vemos, será necesario abrir la ventana principal de R.La gráfica avanzada que les proponemos a continuación, que combina el histograma y el diagrama de caja y que añade información específica a las barras del histograma, sólo se puede realizar a través de programación que insertaremos en la “Ventana de instrucciones”. Aquí habrá que copiar, en la “Ventana de instrucciones” (con el fichero “numero3.xls” cargado y sin modificar las etiquetas), el código que aparece en el documento “guion3.doc”, descargable en http://testsndtrials.blogspot.com.es.
►
Sobre las gráficas
Documento para realizar la prueba: "numero4.xls"
No hay comentarios:
Publicar un comentario