domingo, 23 de noviembre de 2014

Correlación lineal:

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa


Coeficiente r de Pearson: 
El coeficiente de correlación de Pearson se representa con el símbolo ‘r’ , es un índice que mide el grado de covariación entre distintas variables relacionadas linealmente. Esto significa que puede haber variables fuertemente relacionadas, pero no de forma lineal.
Aplicación del coeficiente de correlación de r Pearson


Para interpretar el coeficiente de correlación utilizamos la siguiente escala:
Valor
Significado
-1
Correlación negativa grande y perfecta
-0,9 a -0,99
Correlación negativa muy alta
-0,7 a -0,89
Correlación negativa alta
-0,4 a -0,69
Correlación negativa moderada
-0,2 a -0,39
Correlación negativa baja
-0,01 a -0,19
Correlación negativa muy baja
0
Correlación nula
0,01 a 0,19
Correlación positiva muy baja
0,2 a 0,39
Correlación positiva baja
0,4 a 0,69
Correlación positiva moderada
0,7 a 0,89
Correlación positiva alta
0,9 a 0,99
Correlación positiva muy alta
1
Correlación positiva grande y perfecta
a) Para datos no agrupados se calcula aplicando la siguiente ecuación:
Monografias.com
Ejemplo ilustrativo:
Con los datos sobre las temperaturas en dos días diferentes en una ciudad, determinar el tipo de correlación que existe entre ellas mediante el coeficiente de PEARSON.
X
18
17
15
16
14
12
9
15
16
14
16
18
SX =180
Y
13
15
14
13
9
10
8
13
12
13
10
8
SY= 138
Solución:
Se calcula la media aritmética
Monografias.com
Se llena la siguiente tabla:
Monografias.com
Se aplica la fórmula:
Monografias.com


b) Para datos agrupados, el coeficiente de Correlación de Pearson se calcula aplicando la siguiente fórmula:
Donde
n = número de datos.
f = frecuencia de celda.
fx = frecuencia de la variable X.
fy = frecuencia de la variable Y.
dx = valores codificados o cambiados para los intervalos de la variable X, procurando que al intervalo central le corresponda dx = 0, para que se hagan más fáciles los cálculos.
dy = valores codificados o cambiados para los intervalos de la variable X, procurando que al intervalo central le corresponda dy = 0, para que se hagan más fáciles los cálculos.
Ejemplo ilustrativo:
Con los siguientes datos sobre los Coeficientes Intelectuales (X) y de las calificaciones en una prueba de conocimiento (Y) de 50 estudiantes:
N° de estudiante
X
Y
N° de estudiante
X
Y
1
76
28
26
88
40
2
77
24
27
88
31
3
78
18
28
88
35
4
79
41
29
88
26
5
79
43
30
89
30
6
80
45
31
89
24
7
80
34
32
90
18
8
81
18
33
90
11
9
82
40
34
90
15
10
82
35
35
91
38
11
83
30
36
92
34
12
83
21
37
92
31
13
83
22
38
93
33
14
83
23
39
93
35
15
84
25
40
93
24
16
84
11
41
94
40
17
84
15
42
96
35
18
85
31
43
97
36
19
85
35
44
98
40
20
86
26
45
99
33
21
86
30
46
100
51
22
86
24
47
101
54
23
86
16
48
101
55
24
87
20
49
102
41
25
88
36
50
102
45
1) Elaborar una tabla de dos variables
2) Calcular el coeficiente de correlación
Solución:
1) En la tabla de frecuencias de dos variables, cada recuadro de esta tabla se llama una celda y corresponde a un par de intervalos, y el número indicado en cada celda se llama frecuencia de celda. Todos los totales indicados en la última fila y en la última columna se llaman totales marginales o frecuencias marginales, y corresponden, respectivamente, a las frecuencias de intervalo de las distribuciones de frecuencia separadas de la variable X y Y.
Para elaborar la tabla se recomienda:
- Agrupar las variables X y Y en un igual número de intervalos.
- Los intervalos de la variable X se ubican en la parte superior de manera horizontal (fila) y en orden ascendente.
- Los intervalos de la variable Y se ubican en la parte izquierda de manera vertical (columna) y en orden descendente.
Para elaborar los intervalos se procede a realizar los cálculos respectivos:
En la variable X:
En la variable Y:



Recta de regresión por el método de los mínimos cuadrados:

Regresión lineal: El modelo de pronóstico de regresión lineal permite hallar el valor esperado de una variable aleatoria a cuando b toma un valor específico. La aplicación de este método implica un supuesto de linealidad cuando la demanda presenta un comportamiento creciente o decreciente, por tal razón, se hace indispensable que previo a la selección de este método exista un análisis de regresión que determine la intensidad de las relaciones entre las variables que componen el modelo.
Método de los mínimos cuadrados:

Estimación por mínimos cuadrados:
  •  Es el mas utilizado
  • Fue desarrollado por Karl Gauss (1777-1855)
  • La idea es producir estimadores de los parámetros ( o, 1) que hagan mínima la suma de cuadrados de las distancias entre los valores observados Yi, y los valores estimados Ŷi 5
Supuestos del método de mínimos cuadrados
  • 1. El modelo de regresión es lineal en los parámetros y
  • 2. Los valores de X son fijos en muestreo repetido.
  • 3. El valor medio de la perturbación i es igual a cero.
  • 4. Homocedasticidad o igual variancia de i.
  • 5. No autocorrelación entre las perturbaciones i.
  • 6. La covariancia entre i y Xi es cero.
  • 7. El número de observaciones n debe ser mayor que el número de parámetros a estimar.
  • 8. Variabilidad en los valores de X.
  • 9. El modelo de regresión está correctamente especificado.
  • 10. No hay relaciones lineales perfectas entre las variables explicativas Xi.
Aplicación de la recta de regresión

Cuadro 1.
Operaciones Mensuales en
una Empresa de Transporte de Pasajeros.
                     Costos      Millas
                    Totales    Vehículo
                     (miles)      (miles)
    Mes Nº          Y              X    

        1            213.9        3147
        2            212.6        3160
        3            215.3        3197
        4            215.3        3173
        5            215.4        3292
        6            228.2        3561
        7            245.6        4013
        8            259.9        4244
        9            250.9        4159
      10            234.5        3776
      11            205.9        3232
      12            202.7        3141
      13            198.5        2928
      14            195.6        3063
      15            200.4        3096
      16            200.1        3096
      17            201.5        3158
      18            213.2        3338
      19            219.5        3492
      20            243.7        4019
      21            262.3        4394
      22            252.3        4251
      23            224.4        3844
      24            215.3        3276
      25            202.5        3184
      26            200.7        3037
      27            201.8        3142
      28            202.1        3159
      29            200.4        3139
      30            209.3        3203
      31            213.9        3307
      32            227.0        3585
      33            246.4        4073


Fuente: J. Johnston, 
Análisis Estadístico de los Costes
 
(Barcelona: Sagitario, S. A., 1966), p. 118.
Como ejemplo, consideremos las cifras del Cuadro 1, que muestra datos mensuales de producción y costos de operación para una empresa británica de transporte de pasajeros por carretera durante los años 1949-52 (la producción se mide en términos de miles de millas-vehículo recorridas por mes, y los costos se miden en términos de miles de libras por mes). Para poder visualizar el grado de relación que existe entre las variables, como primer paso en el análisis es conveniente elaborar undiagrama de dispersión, que es una representación en un sistema de coordenadas cartesianas de los datos numéricos observados. En el diagrama resultante, en el eje X se miden las millas-vehículo recorridas, y en el eje Y se mide el costo de operación mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehículo y costos de operación) que corresponde a un mes determinado. Como era de esperarse, existe una relación positiva entre estas variables: una mayor cantidad de millas-vehículo recorridas corresponde un mayor nivel de costos de operación.
Por otro lado, también se aprecia por qué este gráfico se denomina un diagrama de "dispersión": no existe una relación matemáticamente exacta entre las variables, ya que no toda la variación en el costo de operación puede ser explicada por la variación en las millas-vehículo. Si entre estas variables existiera una relación lineal perfecta, entonces todos los puntos caerían a lo largo de la recta de regresión, que también ha sido trazada y que muestra la relación "promedio" que existe entre las dos variables. En la práctica, se observa que la mayoría de los puntos no caen directamente sobre la recta, sino que están "dispersos" en torno a ella. Esta dispersión representa la variación en Yque no puede atribuirse a la variación en X.


martes, 2 de septiembre de 2014

ESTADISTICA

Estadística: La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro.
La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con e fin de realizar una toma de decisión más efectiva.
  •  La estadística es una ciencia formal y una herramienta que estudia el uso y los análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.

  • La estadística es la parte de las matemáticas que se ocupa de los métodos para recoger, organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.

  •  Estadística: es un ciencia que utiliza datos numéricos para obtener inferencias basadas en el cálculo de probabilidades. Una estadística es también un conjunto de datos obtenidos a través de un estudio estadístico.

  •  La Estadística es una ciencia que proporciona un conjunto de métodos que se utilizan para recolectar, resumir, clasificar, analizar e interpretar el comportamiento de los datos con respecto a una característica materia de estudio o investigación. 

  • La Estadística es la postulación de un modelo plausible que explica el mecanismo que genera los datos.

Población: en estadística, también llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan unas de las observaciones. Población es el conjunto sobre el que estamos interesados en obtener conclusiones . Normalmente es demasiado grande para poder abarcarlo.

Muestra: Una muestra estadística es un subconjunto de casos o individuos de una población estadística. Las muestras, se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma. Para cumplir, esta característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un estudio exhaustivo con mayor rapidez y menor coste.

Estadística descriptiva: La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables.



Estadística inferencial: La Estadística inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos.

Probabilidad: La probabilidad es una medición numérica que va de 0 a 1 de la posibilidad de que un evento ocurra. Si da cerca de 0 es improbable que ocurra el evento y si da cerca de uno es casi seguro que ocurra.



Dato: El dato es una representación simbólica (numérica, alfabética, algorítmica, etc) de un atributo o variable cuantitativa o cualitativa. Los datos describen hechos empíricos, sucesos y entidades. Es un valor o referente que recibe el computador por diferentes medios, los datos representan la información que el programador manipula en la construcción de una solución o en el desarrollo de un algoritmo.

Variable: Una variable estadística es cada una de las características o cualidades que poseen los individuos de una población.
Tipos de variable estadísticas
Variable cualitativaLas variables cualitativas se refieren a características o cualidades que no pueden ser medidas con números. Podemos distinguir dos tipos:
Variable cualitativa nominal
Una variable cualitativa nominal presenta modalidades no numéricas que no admiten un criterio de orden.
Fenómeno aleatorio: un fenómeno aleatorio tiene la particularidad que de al ser observado, no se puede predecir con exactitud cual será el resultado observado.
    El presente cociente:



    Nº de veces que se da un resultado particular
    -----------------------------------------------------------------
    Nº de observaciones

    es la forma básica para determinar la probabilidad de ocurrencias de un fenómeno en particular.
    Características de un Fenómeno Aleatorio
    Las características de un fenómeno aleatorio tiene los siguientes rasgos pertinentes:
    1. Se podría repetir indefinidamente las observaciones bajo condiciones esencialmente invariables.
    2. Se es capaz de describir todos los posibles resultados de una observación, aún cuando no es posible establecer lo que será un resultado particular.
    3. Los resultados individuales de las observaciones repetidas pueden ocurrir de manera accidental, pero cuando el número de observaciones es grande aparece el patrón de regularidad estadística.













Fenómeno determinista: Son los hechos o sucesos que ocurren con seguridad. En ellos se conoce de antemano, con certeza, el resultado. Ejemplo:

*Después de las 6:00 son las 7:00.
*Después del día sigue la noche.
*Ir a la escuela todos los días.
*Alimentarse al mediodía.












Variable cualitativa: Una variable cualitativa ordinal presenta modalidades no numéricas, en las que existe un orden. Por ejemplo:

*La nota en un examen: suspenso, aprobado, notable, sobresaliente.

*Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...

*Medallas de una prueba deportiva: oro, plata, bronce.

Variable cuantitativa: Una variable cuantitativa es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:

Variable discreta

Una variable discreta es aquella que toma valores aislados, es decir no admite valores intermedios entre dos valores específicos. Por ejemplo:

El número de hermanos de 5 amigos: 2, 1, 0, 1, 3.
Variable continua

Una variable continua es aquella que puede tomar valores comprendidos entre dos números. Por ejemplo:

La altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.

En la práctica medimos la altura con dos decimales, pero también se podría dar con tres decimales.

Población Finita: es el conjunto compuesto por una cantidad limitada de elementos, como el número de especies, el numero de estudiantes, el número de obreros.

Población Infinita: es la que tiene un número extremadamente grande de componentes, como el conjunto de especies que tiene el reino animal.

Escala nominal: Consiste en clasificar objetos o fenómenos, según ciertas características, tipologías o nombres, dándoles una denominación o símbolo, sin que implique ninguna relación de orden, distancia o proporción entre los objetos o fenómeno.

Escala ordinal: Llamada también escala de orden jerárquico, con ella se establecen posiciones relativas de los objetos o fenómenos en estudio, respecto a alguna característica de interés, sin que se reflejen distancias entre ellos. 


Método científico



Por proceso o "método científico" se entiende aquellas prácticas utilizadas y ratificadas por la comunidad científica como válidas a la hora de proceder con el fin de exponer y confirmar sus teorías. Las teorías científicas, destinadas a explicar de alguna manera los fenómenos que observamos, pueden apoyarse o no en experimentos que certifiquen su validez. Sin embargo, hay que dejar claro que el mero uso de metodologías experimentales, no es necesariamente sinónimo del uso del método científico, o su realización al 100%. Por ello, Francis Bacon definió el método científico de la siguiente manera:
Observación: Es aplicar atentamente los sentidos a un objeto o a un fenómeno, para estudiarlos tal como se presentan en realidad, puede ser ocasional o causalmente.
Inducción: La acción y efecto de extraer, a partir de determinadas observaciones o experiencias particulares, el principio particular de cada una de ellas.
Hipótesis: Consiste en elaborar una explicación provisional de los hechos observados y de sus posibles causas.
Probar la hipótesis por experimentación.
Demostración o refutación (antítesis) de la hipótesis.
Tesis o teoría científica.

La Estadística y el método científico : Los métodos estadísticos utilizan el método científico, que consiste en cinco pasos básicos: 
1. Definir cuidadosamente el problema. 
Asegurarse de que esté claro el objeto de un estudio o un análisis. 
2. Formular un plan para recopilar los datos necesarios. 
3. Reunir los datos. 
4. Analizar e interpretar los mismos. 
5. Anotar las conclusiones y otros descubrimientos, de manera que sean fácilmente 
comprendidos por los que utilizarán los resultados al tomar decisiones. 

Relación de la estadística con el método científico: La Estadística puede definirse como un instrumento del método científico y por tanto orientado al estudio. Estudiar fenómenos sencillos, no precisa la utilización de un método estadístico, a pesar de que si puede aplicarse, no es necesario. Donde aparece la necesidad de determinar estadísticamente leyes que rigen y permiten explicar fenómenos y aumentar el conocimiento del ser humano es cuando se presentan situaciones complejas afectadas por la incertidumbre. Es en este terreno, en el de la incertidumbre medible, donde la Estadística encuentra su principal campo de acción.


TABLAS ESTADÍSTICAS
Tablas Estadísticas:
Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente:
ModalidadFrecuencia AbsolutaFrecuencia RelativaPorcentajeFrecuencia Absoluta AcumuladaFrecuencia Relativa Acumulada
ci, xinipi=100 fi

Las tablas estadísticas según el número de observaciones y según el recorrido de la variable estadística, así tenemos los siguientes tipos de tablas estadísticas:
  1. Tablas Tipo I
  2. Tablas Tipo II
  3. Tablas Tipo III



Tablas tipo I:
Cuando el tamaño de la muestra y el recorrido de la variable son pequeños, por ejemplo si tenemos una muestra de las edades de 5 personas, por lo que no hay que hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.
Edad de los 5 miembros de una familia:
5, 8, 16, 38, 45


Tablas tipo II:


Cuando el tamaño de la muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla:Tablas tipo II:
Personas Activas en 50 familias
2
1
2
2
1
2
4
2
1
1
2
3
2
1
1
1
3
4
2
2
2
2
1
2
1
1
1
3
2
2
3
2
3
1
2
4
2
1
4
1
1
3
4
3
2
2
2
1
3
3
Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:
Personas Activas
Número de Familias
1
16
2
20
3
9
4
5
Total
50

Tablas tipo III:
Cuando el tamaño de la muestra y el recorrido de la variable son grandes, por lo que será necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que en ese momento llevan encima, nos encontramos con los siguientes datos:

450
1152
250
300
175
80
25
2680
605
785
1595
2300
5000
1200
100
5
180
200
675
500
375
1500
205
985
185
125
315
425
560
1100

Evidentemente, la variable estadística tiene un recorrido muy grande, 4998 pesetas, por lo que sí queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir ¿cuántos intervalos queremos?. Normalmente se suele trabajar con no más de 10 o 12 intervalos.
Amplitud =4998/10 = 499,8 Por lo que tomaremos intervalos de amplitud 500
Debemos tener en cuenta las siguientes consideraciones:
Tomar pocos intervalos implica que la "pérdida de información" sea mayor.
Los intervalos serán siempre Cerrados por la izquierda y Abiertos por la Derecha [ Li-1 , Li )
Procuraremos que en la decisión de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en más de un 5% del total de observaciones.
Con estas recomendaciones tendremos la siguiente tabla:
[ Li-1 , L)
Frecuencia
[ 0,500)
16
[ 500, 1000)
6
[ 1000,1500)
3
[ 1500, 2000)
2
[ 2000, 2500)
1
[ 2500, 3000)
1
[ 3000, 3500)
0
[ 3500, 4000)
0
[ 4000, 4500)
0
[ 4500, 5000)
0
[ 5000,5500)
1

COMO CONSTRUIR TABLAS DE VARIABLES CUANTITATIVAS

Tabular datos consiste en confeccionar una tabla en la que aparecen bien organizados los valores de la variables que se están estudiando, junto con otros datos que ahora explicamos:
  1. Frecuencia absoluta (fi) Número de individuos que toma cada valor.
  2. Frecuencia relativa (hi): hi = fi/N, resultado de dividir la frecuencia absoluta entre el total de la población. Da el tanto por uno.
  3. diferencia de  las variable cuantitativas no la podemos calcular ni la Frecuencia absoluta acumulada (Fi), ni  Frecuencia relativa acumulada (Hi), ya que es imposible ordenar de menor a mayor datos no numéricos
  4. Los gráficos se elaborar igual que para las variable cuantitativas.
  5. Siempre es recomendable hacer la tabla con los porcentajes y la proporción de grados para su representación en los diagramas de sectores. Hay que tener en cuenta que si el diagrama de sectores se dibuja sólo en una semicircuenferencia, habrá que repartir sólo 180º proporcionalmente a todos los datos.
 COMO CONSTRUIR TABLAS DE FRECUENCIAS POR                                         INTERVALOS

1- Tablas de frecuencias con datos agrupados
 
Cuando los valores de la variable son muchos, conviene agrupar los datos en intervalos o clases para así realizar un mejor análisis e interpretación de ellos. 
 
• Para construir una tabla de frecuencias con datos agrupados, conociendo los intervalos, se debe determinar la frecuencia absoluta (fi) correspondiente a cada intervalo, contando la cantidad de datos cuyo valor está entre los extremos del intervalo. Luego se calculan las frecuencias relativas y acumuladas, si es pertinente.
 
• Si no se conocen los intervalos, se pueden determinar de la siguiente manera:
 
- Se busca el valor máximo de la variable y el valor mínimo. Con estos datos se  determina el rango
 
 - Se divide el rango en la cantidad de intervalos que se desea tener, obteniéndose así la amplitud o tamaño  de cada intervalo. 
 
 - Comenzando por el mínimo valor de la variable, que será el extremo inferior del  primer intervalo, se suma a este valor la amplitud para obtener el extremo superior  y así sucesivamente.

         REPRESENTACIÓN DE TABLAS DE VARIABLES                                    CUALITATIVAS

Tabla para variable cualitativa
En el caso de variable cualitativa no se pueden calcular las frecuencias acumuladas pues no es posible establecer un orden en las clases dentro de la modalidad.Colocamos en la tabla aquellos valores que son independientes del lugar en que se pongan las modalidades.
Calculemos la tabla de frecuencias para una variable cualitativa.
Inactivos por tipos de inactividad declarada (miles de personas).
Modalidadnifipi
Estudiante522,60,138013,80%
Percibiendo una pensión de jubilación o unos ingresos de prejubilación712,30,188218,82%
Labores del hogar1.480,000,391039,10%
Incapacitado permanente265,90,07027,02%
Percibiendo una pensión distinta de la jubilación o prejubilación525,30,138813,88%
Otras situaciones279,50,07387,38%
 3785,61100,00%
            REPRESENTACIÓN DE TABLAS DE VARIABLES                                    CUANTITAVAS


Tabla para variable cuantitativa continua

Una variable cuantitativa continua puede tomar todos los valores reales comprendidos entre un valor inicial y un final. Estos valores los vamos a agrupar en intervalos de la forma
( l i , l i+1 ]. Diremos que x pertenece al intervalo ( l i , l i+1 ] si , como se puede observar el intervalo que hemos tomado es semicerrado por la derecha, normalmente los intervalos suelen ser semicerrados para tomar todos los valores posibles y evitar que un mismo valor pueda entrar en dos intervalos distintos.
Llamaremos amplitud de un intervalo ( ai ) a la distancia existente entre sus extremos, es decir, ai = l i+1 - l i. Para el cálculo de medidas de centralización y dispersión será necesario usar un representante de cada intervalo, a ese representante lo llamaremos marca de clasey será el punto medio del intervalo, esto es, .
La tabla de frecuencias para una variable cuantitativa continua tiene la siguiente estructura:
ModalidadMarca de claseF. AbsolutaF. RelativaPorcentajeF. Abs. Acumu.F. Rel. Acumu.
( l i , l i+1 ]xinipi=100 fi
Elección de intervalos para variables continuas 
A la hora de seleccionar los intervalos para las variables continuas, se plantean varios problemas como son el número de intervalos a elegir y sus tamaños.
El número de intervalos, k, a utilizar no está determinado de forma fija y por tanto tomaremos un k que nos permita trabajar cómodamente y ver bien la estructura de los datos; Como referencia nosotros tomaremos una de los siguientes valores aproximados:
  1. Si n es pequeño tomaremos como número de intervalos 
  2. Si en cambio n es grande tomaremos 
Por ejemplo si el número de observaciones que tenemos es n=100, un buen criterio es agrupar las observaciones en  intervalos. Sin embargo si tenemosn=1.000.000, será mas razonable elegir intervalos, que 
¿Cómo determinamos los intervalos?
  1. Tomemos el conjunto de datos y lo ordenamos de menor a mayor.
  2. Consideremos el rango de los datos, es decir, la diferencia entre el valor menor y mayor R = xmayor - x menor
  3. Determinamos k usando una de las dos fórmulas anteriormente expuesta, en función del número de datos.
  4. Vamos a considerar intervalos con igual amplitud, y ésta será . Puede que el valor que hemos determinado sea un número poco estético y sea más útil redondearlos, por ejemplo supongamos que a = 15.12654 tomaríamos a = 15, análogamente podemos hacer lo mismo con menor o xmayor.
  • Determinamos los extremos de los intervalos
    • l 0 = menor o l 0 = menor(redondeado).
    • l 1 = l 0 a
    • En general l i = l i-1 a