martes, 2 de septiembre de 2014

ESTADISTICA

Estadística: La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro.
La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con e fin de realizar una toma de decisión más efectiva.
  •  La estadística es una ciencia formal y una herramienta que estudia el uso y los análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.

  • La estadística es la parte de las matemáticas que se ocupa de los métodos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.

  •  Estadística: es un ciencia que utiliza datos numéricos para obtener inferencias basadas en el cálculo de probabilidades. Una estadística es también un conjunto de datos obtenidos a través de un estudio estadístico.

  •  La Estadística es una ciencia que proporciona un conjunto de métodos que se utilizan para recolectar, resumir, clasificar, analizar e interpretar el comportamiento de los datos con respecto a una característica materia de estudio o investigación. 

  • La Estadística es la postulación de un modelo plausible que explica el mecanismo que genera los datos.

Población: en estadística, también llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan unas de las observaciones. Población es el conjunto sobre el que estamos interesados en obtener conclusiones . Normalmente es demasiado grande para poder abarcarlo.

Muestra: Una muestra estadística es un subconjunto de casos o individuos de una población estadística. Las muestras, se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir, esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con mayor rapidez y menor coste.

Estadística descriptiva: La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables.



Estadística inferencial: La Estadística inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.

Probabilidad: La probabilidad es una medición numérica que va de 0 a 1 de la posibilidad de que un evento ocurra. Si da cerca de 0 es improbable que ocurra el evento y si da cerca de uno es casi seguro que ocurra.



Dato: El dato es una representación simbólica (numérica, alfabética, algorítmica, etc) de un atributo o variable cuantitativa o cualitativa. Los datos describen hechos empíricos, sucesos y entidades. Es un valor o referente que recibe el computador por diferentes medios, los datos representan la información que el programador manipula en la construcción de una solución o en el desarrollo de un algoritmo.

Variable: Una variable estadística es cada una de las características o cualidades que poseen los individuos de una población.
Tipos de variable estadísticas
Variable cualitativaLas variables cualitativas se refieren a características o cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos:
Variable cualitativa nominal
Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de orden.
Fenómeno aleatorio: un fenómeno aleatorio tiene la particularidad que de al ser observado, no se puede predecir con exactitud cual será el resultado observado.
    El presente cociente:



    Nº de veces que se da un resultado particular
    -----------------------------------------------------------------
    Nº de observaciones

    es la forma básica para determinar la probabilidad de ocurrencias de un fenómeno en particular.
    Características de un Fenómeno Aleatorio
    Las características de un fenómeno aleatorio tiene los siguientes rasgos pertinentes:
    1. Se podría repetir indefinidamente las observaciones bajo condiciones esencialmente invariables.
    2. Se es capaz de describir todos los posibles resultados de una observación, aún cuando no es posible establecer lo que será un resultado particular.
    3. Los resultados individuales de las observaciones repetidas pueden ocurrir de manera accidental, pero cuando el número de observaciones es grande aparece el patrón de regularidad estadística.













Fenómeno determinista: Son los hechos o sucesos que ocurren con seguridad. En ellos se conoce de antemano, con certeza, el resultado. Ejemplo:

*Después de las 6:00 son las 7:00.
*Después del día sigue la noche.
*Ir a la escuela todos los días.
*Alimentarse al mediodía.












Variable cualitativa: Una variable cualitativa ordinal presenta modalidades no numéricas, en las que existe un orden. Por ejemplo:

*La nota en un examen: suspenso, aprobado, notable, sobresaliente.

*Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...

*Medallas de una prueba deportiva: oro, plata, bronce.

Variable cuantitativa: Una variable cuantitativa es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:

Variable discreta

Una variable discreta es aquella que toma valores aislados, es decir no admite valores intermedios entre dos valores específicos. Por ejemplo:

El número de hermanos de 5 amigos: 2, 1, 0, 1, 3.
Variable continua

Una variable continua es aquella que puede tomar valores comprendidos entre dos números. Por ejemplo:

La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.

En la práctica medimos la altura con dos decimales, pero también se podría dar con tres decimales.

Población Finita: es el conjunto compuesto por una cantidad limitada de elementos, como el número de especies, el numero de estudiantes, el número de obreros.

Población Infinita: es la que tiene un número extremadamente grande de componentes, como el conjunto de especies que tiene el reino animal.

Escala nominal: Consiste en clasificar objetos o fenómenos, según ciertas características, tipologías o nombres, dándoles una denominación o símbolo, sin que implique ninguna relación de orden, distancia o proporción entre los objetos o fenómeno.

Escala ordinal: Llamada también escala de orden jerárquico, con ella se establecen posiciones relativas de los objetos o fenómenos en estudio, respecto a alguna característica de interés, sin que se reflejen distancias entre ellos. 


Método científico



Por proceso o "método científico" se entiende aquellas prácticas utilizadas y ratificadas por la comunidad científica como válidas a la hora de proceder con el fin de exponer y confirmar sus teorías. Las teorías científicas, destinadas a explicar de alguna manera los fenómenos que observamos, pueden apoyarse o no en experimentos que certifiquen su validez. Sin embargo, hay que dejar claro que el mero uso de metodologías experimentales, no es necesariamente sinónimo del uso del método científico, o su realización al 100%. Por ello, Francis Bacon definió el método científico de la siguiente manera:
Observación: Es aplicar atentamente los sentidos a un objeto o a un fenómeno, para estudiarlos tal como se presentan en realidad, puede ser ocasional o causalmente.
Inducción: La acción y efecto de extraer, a partir de determinadas observaciones o experiencias particulares, el principio particular de cada una de ellas.
Hipótesis: Consiste en elaborar una explicación provisional de los hechos observados y de sus posibles causas.
Probar la hipótesis por experimentación.
Demostración o refutación (antítesis) de la hipótesis.
Tesis o teoría científica.

La Estadística y el método científico : Los métodos estadísticos utilizan el método científico, que consiste en cinco pasos básicos: 
1. Definir cuidadosamente el problema. 
Asegurarse de que esté claro el objeto de un estudio o un análisis. 
2. Formular un plan para recopilar los datos necesarios. 
3. Reunir los datos. 
4. Analizar e interpretar los mismos. 
5. Anotar las conclusiones y otros descubrimientos, de manera que sean fácilmente 
comprendidos por los que utilizarán los resultados al tomar decisiones. 

Relación de la estadística con el método científico: La Estadística puede definirse como un instrumento del método científico y por tanto orientado al estudio. Estudiar fenómenos sencillos, no precisa la utilización de un método estadístico, a pesar de que si puede aplicarse, no es necesario. Donde aparece la necesidad de determinar estadísticamente leyes que rigen y permiten explicar fenómenos y aumentar el conocimiento del ser humano es cuando se presentan situaciones complejas afectadas por la incertidumbre. Es en este terreno, en el de la incertidumbre medible, donde la Estadística encuentra su principal campo de acción.


TABLAS ESTADÍSTICAS
Tablas Estadísticas:
Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente:
ModalidadFrecuencia AbsolutaFrecuencia RelativaPorcentajeFrecuencia Absoluta AcumuladaFrecuencia Relativa Acumulada
ci, xinipi=100 fi

Las tablas estadísticas según el número de observaciones y según el recorrido de la variable estadística, así tenemos los siguientes tipos de tablas estadísticas:
  1. Tablas Tipo I
  2. Tablas Tipo II
  3. Tablas Tipo III



Tablas tipo I:
Cuando el tamaño de la muestra y el recorrido de la variable son pequeños, por ejemplo si tenemos una muestra de las edades de 5 personas, por lo que no hay que hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.
Edad de los 5 miembros de una familia:
5, 8, 16, 38, 45


Tablas tipo II:


Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla:Tablas tipo II:
Personas Activas en 50 familias
2
1
2
2
1
2
4
2
1
1
2
3
2
1
1
1
3
4
2
2
2
2
1
2
1
1
1
3
2
2
3
2
3
1
2
4
2
1
4
1
1
3
4
3
2
2
2
1
3
3
Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:
Personas Activas
Número de Familias
1
16
2
20
3
9
4
5
Total
50

Tablas tipo III:
Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos:

450
1152
250
300
175
80
25
2680
605
785
1595
2300
5000
1200
100
5
180
200
675
500
375
1500
205
985
185
125
315
425
560
1100

Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 pesetas, por lo que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir ¿cuántos intervalos queremos?. Normalmente se suele trabajar con no más de 10 o 12 intervalos.
Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de amplitud 500
Debemos tener en cuenta las siguientes consideraciones:
Tomar pocos intervalos implica que la "pérdida de información" sea mayor.
Los intervalos serán siempre Cerrados por la izquierda y Abiertos por la Derecha [ Li-1 , Li )
Procuraremos que en la decisión de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5% del total de observaciones.
Con estas recomendaciones tendremos la siguiente tabla:
[ Li-1 , L)
Frecuencia
[ 0,500)
16
[ 500, 1000)
6
[ 1000,1500)
3
[ 1500, 2000)
2
[ 2000, 2500)
1
[ 2500, 3000)
1
[ 3000, 3500)
0
[ 3500, 4000)
0
[ 4000, 4500)
0
[ 4500, 5000)
0
[ 5000,5500)
1

COMO CONSTRUIR TABLAS DE VARIABLES CUANTITATIVAS

Tabular datos consiste en confeccionar una tabla en la que aparecen bien organizados los valores de la variables que se están estudiando, junto con otros datos que ahora explicamos:
  1. Frecuencia absoluta (fi) Número de individuos que toma cada valor.
  2. Frecuencia relativa (hi): hi = fi/N, resultado de dividir la frecuencia absoluta entre el total de la población. Da el tanto por uno.
  3. diferencia de  las variable cuantitativas no la podemos calcular ni la Frecuencia absoluta acumulada (Fi), ni  Frecuencia relativa acumulada (Hi), ya que es imposible ordenar de menor a mayor datos no numéricos
  4. Los gráficos se elaborar igual que para las variable cuantitativas.
  5. Siempre es recomendable hacer la tabla con los porcentajes y la proporción de grados para su representación en los diagramas de sectores. Hay que tener en cuenta que si el diagrama de sectores se dibuja sólo en una semicircuenferencia, habrá que repartir sólo 180º proporcionalmente a todos los datos.
 COMO CONSTRUIR TABLAS DE FRECUENCIAS POR                                         INTERVALOS

1- Tablas de frecuencias con datos agrupados
 
Cuando los valores de la variable son muchos, conviene agrupar los datos en intervalos o clases para así realizar un mejor análisis e interpretación de ellos. 
 
• Para construir una tabla de frecuencias con datos agrupados, conociendo los intervalos, se debe determinar la frecuencia absoluta (fi) correspondiente a cada intervalo, contando la cantidad de datos cuyo valor está entre los extremos del intervalo. Luego se calculan las frecuencias relativas y acumuladas, si es pertinente.
 
• Si no se conocen los intervalos, se pueden determinar de la siguiente manera:
 
- Se busca el valor máximo de la variable y el valor mínimo. Con estos datos se  determina el rango
 
 - Se divide el rango en la cantidad de intervalos que se desea tener, obteniéndose así la amplitud o tamaño  de cada intervalo. 
 
 - Comenzando por el mínimo valor de la variable, que será el extremo inferior del  primer intervalo, se suma a este valor la amplitud para obtener el extremo superior  y así sucesivamente.

         REPRESENTACIÓN DE TABLAS DE VARIABLES                                    CUALITATIVAS

Tabla para variable cualitativa
En el caso de variable cualitativa no se pueden calcular las frecuencias acumuladas pues no es posible establecer un orden en las clases dentro de la modalidad.Colocamos en la tabla aquellos valores que son independientes del lugar en que se pongan las modalidades.
Calculemos la tabla de frecuencias para una variable cualitativa.
Inactivos por tipos de inactividad declarada (miles de personas).
Modalidadnifipi
Estudiante522,60,138013,80%
Percibiendo una pensión de jubilación o unos ingresos de prejubilación712,30,188218,82%
Labores del hogar1.480,000,391039,10%
Incapacitado permanente265,90,07027,02%
Percibiendo una pensión distinta de la jubilación o prejubilación525,30,138813,88%
Otras situaciones279,50,07387,38%
 3785,61100,00%
            REPRESENTACIÓN DE TABLAS DE VARIABLES                                    CUANTITAVAS


Tabla para variable cuantitativa continua

Una variable cuantitativa continua puede tomar todos los valores reales comprendidos entre un valor inicial y un final. Estos valores los vamos a agrupar en intervalos de la forma
( l i , l i+1 ]. Diremos que x pertenece al intervalo ( l i , l i+1 ] si , como se puede observar el intervalo que hemos tomado es semicerrado por la derecha, normalmente los intervalos suelen ser semicerrados para tomar todos los valores posibles y evitar que un mismo valor pueda entrar en dos intervalos distintos.
Llamaremos amplitud de un intervalo ( ai ) a la distancia existente entre sus extremos, es decir, ai = l i+1 - l i. Para el cálculo de medidas de centralización y dispersión será necesario usar un representante de cada intervalo, a ese representante lo llamaremos marca de clasey será el punto medio del intervalo, esto es, .
La tabla de frecuencias para una variable cuantitativa continua tiene la siguiente estructura:
ModalidadMarca de claseF. AbsolutaF. RelativaPorcentajeF. Abs. Acumu.F. Rel. Acumu.
( l i , l i+1 ]xinipi=100 fi
Elección de intervalos para variables continuas 
A la hora de seleccionar los intervalos para las variables continuas, se plantean varios problemas como son el número de intervalos a elegir y sus tamaños.
El número de intervalos, k, a utilizar no está determinado de forma fija y por tanto tomaremos un k que nos permita trabajar cómodamente y ver bien la estructura de los datos; Como referencia nosotros tomaremos una de los siguientes valores aproximados:
  1. Si n es pequeño tomaremos como número de intervalos 
  2. Si en cambio n es grande tomaremos 
Por ejemplo si el número de observaciones que tenemos es n=100, un buen criterio es agrupar las observaciones en  intervalos. Sin embargo si tenemosn=1.000.000, será mas razonable elegir intervalos, que 
¿Cómo determinamos los intervalos?
  1. Tomemos el conjunto de datos y lo ordenamos de menor a mayor.
  2. Consideremos el rango de los datos, es decir, la diferencia entre el valor menor y mayor R = xmayor - x menor
  3. Determinamos k usando una de las dos fórmulas anteriormente expuesta, en función del número de datos.
  4. Vamos a considerar intervalos con igual amplitud, y ésta será . Puede que el valor que hemos determinado sea un número poco estético y sea más útil redondearlos, por ejemplo supongamos que a = 15.12654 tomaríamos a = 15, análogamente podemos hacer lo mismo con menor o xmayor.
  • Determinamos los extremos de los intervalos
    • l 0 = menor o l 0 = menor(redondeado).
    • l 1 = l 0 a
    • En general l i = l i-1 a