La palabra "estadística" suele utilizarse bajo dos significados distintos, a saber:
1º Como colección de datos numéricos. - Esto es el significado más vulgar de la palabra estadística. Se sobrentiende que dichos datos numéricos han de estar presentados de manera ordenada y sistemática. Una información numérica cualquiera puede no constituir una estadística, para merecer este apelativo, los datos han de constituir un conjunto coherente, establecido de forma sistemática y siguiendo un criterio de ordenación. Tenemos muchos ejemplos de este tipo de estadísticas. El Anuario Estadístico publicado por el Instituto Nacional de Estadística, El Anuario de Estadísticas del Trabajo.
2º Como ciencia. - En este significado, La Estadística estudia el comportamiento de los fenómenos de masas. Como todas las ciencias, busca las características generales de un colectivo y prescinde de las particulares de cada elemento. Así por ejemplo al investigar el sexo de los nacimientos, iniciaremos el trabajo tomando un grupo numeroso de nacimientos y obtener después la proporción de varones. Es muy frecuente enfrentarnos con fenómenos en los que es muy difícil predecir el resultado; así, no podemos dar una lista, con las personas que van a morir con una cierta edad, o el sexo de un nuevo ser hasta que transcurra un determinado tiempo de embarazo.
Por tanto, el objetivo de la estadística es hallar las regularidades que se encuentran en los fenómenos de masa. Consecuentemente desde el punto de vista científico entenderemos como Estadística, la disciplina científica dedicada al desarrollo y aplicación de la teoría y las técnicas apropiadas para la recolección, clasificación, presentación, análisis e interpretación de la información cuantitativa obtenida por observación o experimentación.
Población, elementos y caracteres
Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos población.
Las personas o cosas que forman parte de la población se denominan elementos. En sentido estadístico un elemento puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la temperatura, un voto, o un intervalo de tiempo.
A su vez, cada elemento de la población tiene una serie de características que pueden ser objeto del estudio estadístico. Así por ejemplo si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres: Sexo, Edad, Nivel de estudios, Profesión, Peso, Altura, Color de pelo, y otros.
Luego por tanto de cada elemento de la población podremos estudiar uno o más aspectos cualidades o caracteres.
La población puede ser según su tamaño de dos tipos:
Población finita: cuando el número de elementos que la forman es finito, por ejemplo, el número de alumnos de un centro de enseñanza, o grupo clase.
Población infinita: cuando el número de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos... Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta población podría considerarse infinita.
Ahora bien, normalmente en un estudio estadístico, no se puede trabajar con todos los elementos de la población, sino que se realiza sobre un subconjunto de la misma. Este subconjunto puede ser una muestra, cuando se toman un determinado número de elementos de la población, sin que en principio tengan nada en común; o una subpoblación, que es el subconjunto de la población formado por los elementos de la población que comparten una determinada característica, por ejemplo, de los alumnos del centro educativo, la subpoblación formada por los alumnos de tercer nivel, o la subpoblación de los varones.
Hasta ahora hemos visto el caso de fenómenos o experimentos cuyo espacio muestral asociado tiene un número pequeño de elementos. Ello nos ha servido para introducir la noción de probabilidad, Pero en muchos casos es necesario trabajar con experiencias o procesos que generan un número muy grande de datos o resultados numéricos, es decir, espacios muestrales con un número infinito o muy grande de elementos. Cuando tenemos un conjunto muy grande de datos numéricos para analizar decimos que tenemos un Universo o Población de observaciones.
Cada dato numérico es un elemento de la población o universo. Una Muestra es un subconjunto pequeño de observaciones extraídas de un universo o población.
La Estadística trabaja con poblaciones de datos y con muestras extraídas de las mismas. Los conceptos de población y muestra a veces resultan ambiguos en su aplicación práctica.
Por ejemplo, supongamos que en una ciudad de 5000 habitantes se realiza un censo médico en el cual se mide el peso, la altura y se relevan otros datos de todos los habitantes de la ciudad.
Alguien podría referirse al universo o población censada teniendo in mente el conjunto de los habitantes de la ciudad. Pero cuando hablamos en términos estadísticos, nos referimos a poblaciones o universos de datos.
Por ejemplo, el conjunto de todas las mediciones de altura (De los habitantes de la ciudad) es un conjunto de datos y por lo tanto constituye un universo o población de datos desde el punto de vista estadístico. Otro universo o población de datos son los pesos medidos (De los habitantes de la ciudad). Pero la población de habitantes, es decir, las personas que habitan la ciudad no son la población a la que nos estamos refiriendo desde el punto de vista estadístico.
Supongamos que en una empresa se fabrica un lote de 10 toneladas de un producto químico, y un técnico debe controlar la calidad del mismo.
El técnico toma una pequeña porción, por ejemplo, 100 gramos y dirá que tomó una muestra del producto para analizar en el laboratorio. Hasta el momento, la muestra no fue analizada y por lo tanto no tenemos ningún dato numérico.
Cuando el laboratorio efectúa algún ensayo en la muestra y obtiene un resultado numérico, dicho dato podría ser analizado desde el punto de vista estadístico.
Vamos a suponer hipotéticamente que el técnico continúa sacando otras muestras del producto, hasta agotar el lote y cada una es ensayada en el laboratorio, que nos da los resultados.
Como teníamos 10 toneladas de producto y las muestras son aproximadamente de 100 gramos, el técnico seguramente extraerá alrededor de 100 000 muestras y el laboratorio nos entregará alrededor de 100 000 resultados. Este conjunto de datos numéricos es nuestro universo o población de datos.
Si tomamos al azar 10 de esos resultados, podemos decir que tenemos una muestra de 10 elementos de ese universo o población. No debemos confundir esta muestra (Desde el punto de vista estadístico) con la muestra de material que extrajo el técnico para ser analizada en el laboratorio.
Ahora bien, nuestro universo o población de datos a veces no existe en la realidad, sino que es un concepto o abstracción que utilizamos para referirnos al universo o población que hipotéticamente podría existir.
Veamos el ejemplo anterior. Supongamos que el técnico toma solamente 5 muestras y las envía para analizar al laboratorio. El laboratorio nos enviará sólo 5 resultados, y nosotros diremos que tenemos una muestra de datos extraída del universo o población de datos total. Y estamos pensando en el universo o población que tendríamos si se hubieran extraído y analizado las 100 000 muestras de material.
Muchas veces resulta difícil imaginarse cuál es el universo del cual extrajimos los datos. Supongamos que tenemos una máquina que produce piezas de plástico en serie y un técnico toma 5 piezas sucesivas y les mide la altura con un calibre. Tenemos, entonces, 5 resultados, es decir una muestra de 5 elementos. ¿Cuál es el universo al cual pertenece esa muestra de datos?
Debemos imaginar lo siguiente: Si la máquina continuara trabajando en las mismas condiciones (Es decir, a la misma velocidad, con las mismas materias primas, a la misma temperatura, manejada por el mismo operario, etc.) ...y a cada pieza que produce se le mide la altura tendríamos un conjunto muy grande de resultados numéricos. Ese conjunto muy grande de resultados numéricos que no existe, pero que podría obtenerse en esas condiciones es el universo o población del cual extrajimos la muestra de 5 observaciones.
Veamos otro ejemplo. Supongamos que el sindicato de la industria textil desea saber cuál es el sueldo medio de un operario en esa industria. Entonces, encarga una en-cuesta a una empresa especializada, que entrevista a 20 operarios de la industria textil y averigua sus salarios.
Estos datos son una muestra de 20 observaciones del universo o población formado por los salarios de todos los operarios de la industria textil del país. Aunque el encuestador no disponga de esos datos, sabemos que existen miles de operarios que ganan un salario determinado y por lo tanto podemos hablar de un universo o población cuyos elementos son los salarios de los operarios de la industria textil en el país. Además, esa población de datos es seguramente diferente de la población de salarios de los operarios de la industria textil inglesa o brasileña (Usando una misma moneda de referencia).
¿Qué representa una Población de datos? El análisis estadístico de una población o universo de datos tiene como objetivo final descubrir las características y propiedades de aquello que generó los datos. Por ejemplo, se tiene una población de escolares (Población física, población humana) y se les mide la altura. El con-junto de datos de altura constituye una población o universo estadístico.
El análisis de estos datos de altura (Universo estadístico) sirve para caracterizar y estudiar a la población de estudiantes (Que no es una Población estadística).
Supongamos que un instituto dedicado a estudios económicos ha realizado una encuesta de ingresos en el país. El universo de datos generados por la encuesta sirve a los fines de caracterizar a la población física, a la población real del país, desde un punto de vista económico.
Un ingeniero controla un proceso industrial, que genera a diario muchos lotes de un producto (Población de lotes). Para cada lote se mide una característica de calidad, obteniéndose una gran cantidad de resulta-dos numéricos (Población de datos).
El ingeniero realiza esta tarea porque a través de los datos numéricos obtenidos se puede evaluar el comportamiento del proceso, que es lo que realmente le interesa.
Es importante destacar que detrás de un universo o población de datos se encuentra una población física subyacente, formada por elementos de la realidad que nos rodea, de la cual, a través de algún tipo de medición, se obtuvieron los datos numéricos. Es esa población física subyacente (Elementos de la realidad, seres humanos, lotes de material, etc.) la que deseamos estudiar y caracterizar por medio del análisis estadístico de los datos obtenidos.
La población estadística está representando, entonces, una población física o natural formada por elementos de la realidad, con respecto a una característica o propiedad de esa población física.
Es muy importante, al utilizar métodos estadísticos, no confundir la población física, formada por elementos de la realidad que estamos estudiando, con la población o universo de datos generados a partir de la primera. De aquí en adelante, cuando utilicemos los términos población o universo sin otro adjetivo nos estaremos refiriendo a población o universo de datos numéricos (También llamados observaciones, mediciones o valores).
Parámetro: Son las medidas o datos que se obtienen sobre la distribución de probabilidades de la población, tales como la media, la varianza, la proporción, etc.
Estadístico: Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los parámetros.
Variables y atributos
Como hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en: dos grandes clases:
Variables Cuantitativas.
Variables Cualitativas o Atributos.
Las variables cuantitativas son las que se describen por medio de números, como por ejemplo el peso, Altura, Edad, Número de reprobados.
A su vez este tipo de variables se puede dividir en dos subclases:
• Cuantitativas discretas. Aquellas a las que se les puede asociar un número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo, número de hermanos, páginas de un libro, etc.
• Cuantitativas continuas: Aquellas que no se pueden expresar mediante un número entero, es decir, aquellas que por su naturaleza admiten que, entre dos valores cualesquiera, la variable pueda tomar cualquier valor intermedio, por ejemplo, peso, tiempo. etc.
No obstante, en muchos casos el tratamiento estadístico hace que a variables discretas las trabajemos como si fuesen continuas y viceversa.
Los atributos son aquellos caracteres que para su definición precisan de palabras, es decir, no le podemos asignar un número. Por ejemplo, Sexo Profesión, Estado Civil, etc.
A su vez las podemos clasificar en:
1. Ordinales: Aquellas que sugieren una ordenación, por ejemplo, la graduación militar, El nivel de estudios, etc. Clasifican las observaciones en categorías con un orden significativo.
2. Nominales: Aquellas que sólo admiten una mera ordenación alfabética, pero no establece orden por su naturaleza, por ejemplo, el color de pelo, sexo, estado civil, etc. Son nombres o clasificaciones que se utilizan para clasificar a los datos en categorías distintas y separadas.