Estadística
Se llama así a la rama de la Matemática que se dedica a la Recolección, Organización, Interpretación y Comunicación de Datos referentes a una determinada Variable de Estudio, y mediante la teoría de Probabilidades y de Error, haciendo uso de esos datos realizará Inferencias y Tomará Decisiones.
Esta rama está dividida en dos, llamándose Estadística Descriptiva a la rama que se dedicará al proceso de recolección, organización, interpretación y comunicación de los datos recogidos o investigados, que permite una mirada general de la realidad en tiempo “Actual”. Es decir hace un diagnóstico de la realidad presente, pero de la realidad en su conjunto, sabiendo que al hacerlo así se pierde certeza de los casos puntuales.
Se llama Estadística Inferencial a la rama que haciendo uso de los datos proyectará la realidad presente hacia el futuro, infiriendo el comportamiento de las variables, y pretendiendo conocer cómo será la realidad en el futuro.
Según la naturaleza de los datos, las variables se clasifican en Cualitativas y Cuantitativas.
Se llaman Cualitativas aquellas variables cuyos datos recogidos hacen referencia a Cualidades. Ejemplo de V’ble Cualitativa:
“Atención recibida por el personal de caja en un supermercado”:
Muy Buena, Buena, Regular, Mala
Se llaman Cuantitativas aquellas variables cuyos datos hacen referencia a Cantidades. Éstas a su vez se clasifican en: Discretas y Continuas. Son Discretas aquellas que reúnen como datos valores numéricos asociados a números Naturales. Mientras que son Continuas aquellas que reúnen como datos valores numéricos asociados a números Reales.
Ejemplo de V’ble Cuantitativa Discreta:
“Cantidad de Bebés nacidos vivos por mes en el hospital de un determinado pueblo”:
12, 15, 20, 31. (Nótese que los valores no pueden ser decimales)
Ejemplo de V’ble Cuantitativa Continua:
“Horas de trabajo efectivo de una fotocopiadora por día”:
9,15; 15; 13,25; 18,75.
Recolección…
Existen distintos modos de recolección de datos, un modo Directo y otro Indirecto. En modo Directo se puede da diversas maneras, por observación in situ sin la necesidad de consulta a ninguna persona (depende de la variable bajo estudio), también se puede haciendo uso de las Encuestas. El modo Indirecto de recolección de datos es recurriendo a archivos de investigaciones previas o de investigaciones contemporáneas de otros investigadores.
Organización…
Una adecuada organización de los datos hace posible un adecuado tratamiento de los datos para la obtención de los datos necesarios.
Existen diferentes formas de organización como el Diagrama de Tallos y Hojas, o el Diagrama de Cajas, Organización de datos en Cuartiles, Deciles, Percentiles, etc.
Todo esto con los datos organizados de menor a mayor, con un simple conteo y ubicación de los datos se pueden calcular algunos valores importantes.
Medidas de Tendencia Central: Hacen referencia al conjunto de datos con un valor representativo.
Moda (o Modo): es el valor que aparece “repetido” con mayor frecuencia, el que aparece más veces en la muestra.
Mediana; es el valor que, perteneciendo o no a la muestra, divide en dos partes iguales a la muestra dejando el 50% de la muestra por debajo de este valor y el 50% restante por encima de este valor.
Media: es el valor de la media aritmética de los datos de la muestra, o el promedio de los datos obtenidos en el relevamiento. Su forma de cálculo es la siguiente:
Donde Xi es cada uno de los valores de los datos, y n es la cantidad total de datos de la muestra.
En ocasiones los datos son tantos que es conveniente organizarlos en intervalos, agrupando así valores que son semejantes o cercanos entre sí de manera que pueden ser tratados como si fueras el mismo valor.
Con la intención de realizar tareas menos trabajosas, pero igualmente significativas, se los agrupa en una tabla de frecuencias.
Variable: “Salarios semanales de 100 trabajadores no cualificados”
Donde la Marca de Clase es el valor intermedio de los limites del intervalo, se determina sumando el valor inferior con el superior y dividiendo entre 2.
La Frecuencia (f) es la cantidad de datos que están comprendidos entre los limites del intervalo
La Columna MC x f se determina multiplicando los valores de Marca de Clase por el valor de frecuencia. En la primera fila: 175 * 20 = 3500.
La Frecuencia Relativa (f/N) se calcula por fila con el valor de frecuencia dividido el total de frecuencias (N) es el resultado de la suma en la columna (f).
La Frecuencia Acumulada se determina con los valores acumulados de frecuencias, es decir se suman los valores de frecuencia de cada intervalo más los valores de los intervalos anteriores.
Media de Datos Agrupados:
Se calcula con el valor de la suma de los datos de la Columna MC x f, dividido el total de frecuencias (N).
Moda de Datos Agrupados: Es el valor de la Marca de Clase del intervalo con mayor frecuencia. En el ejemplo:
Las Medidas de Dispersión son los valores que hacen referencia a la variabilidad de los datos de una muestra, es decir, que tan dispersos están los datos alrededor de la Media. Son varias las medidas de dispersión, el Rango, la Varianza Media, la Varianza, la Desviación Estándar, entre otras.
En este apunte resumo sólo la fórmula para determinar la Desviación Estándar (s) calculada sobre una Muestra
Donde Xi son los valores de la muestra que deben elevarse al cuadrado y sumarse, n es la cantidad de datos de la muestra y (x con "techito") es el valor del promedio de los datos, que también debe elevarse al cuadrado.
En un ejemplo. Variable: “Horas de servicio efectivo de un proyector por semana”
3,5; 3,75; 4; 4,75; 5; 5; 5,25
Para que resulte más cómodo a la vista y al cálculo se los organiza en una pequeña tabla:
Así la media y la desviación estándar se calculan:
Así los valores límites esperables serán:
Se espera que no trabaje menos de 3,07 horas efectivas semanales, y que no trabaje más de 5,86 horas efectivas semanales.