martes, 11 de septiembre de 2007

ESTADISTICA INFERENCIAL, VI semestre, GUIA No: 1. ANALISIS DE REGRESION Y CORRELACION LINEAL

UNIVERSIDAD LIBRE

FACULTAD DE INGENIERÍA
DEPARTAMENTO DE AMBIENTAL

Asignatura: ESTADISTICA INFERENCIAL (02232)
Grupo: 6A
Profesora: ALLA GUTIERREZ

Guía No. 1

TEMA: ANALISIS DE REGRESION Y CORRELACION LINEAL.

Fecha: 2008


Objetivo:
Brindar a los estudiantes del curso los conocimientos fundamentales de las distintas ramas de la estadística, logrando introducir desde los conceptos básicos hasta los procedimientos de vanguardia con una visión practica que permita resolver problemas de las empresas en el ámbito de decisiones de riesgo, creando modelos estadísticos adecuados para una buena toma de decisiones.


Introducción:
Si se dispone de dos series de datos emparejadas, con frecuencia se desea conocer si ambas variables están relacionadas o si son independientes. Por ejemplo, ¿en qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto? ó ¿será que existe alguna relación entre la talla y el peso de una persona?

A continuación, representaremos la relación entre dos variables mediante una gráfica llamada diagrama de dispersión, luego, estableceremos un modelo matemático para estimar el valor de una variable basándonos en el valor de otra, en lo que llamaremos análisis de regresión y finalmente estudiaremos el grado de relación existente entre las variables en lo que llamaremos análisis de correlación.


Competencias a desarrollar: Interpretativa

Desarrollar una visión amplia sobre el campo de estudio de la estadística y sus aplicaciones.
Distinguir entre la estadística descriptiva e inferencia estadística.
Estudiar las fuentes de datos, tablas y graficas.
Interpretar y describir las tendencias de datos y desarrollar la compresión de los conceptos básicos de probabilidad.
Facilitar la comprensión de los conceptos básicos de las distribuciones de probabilidad continuas y discretas.





Metodología:
Inducción: Explicación magistral en clase de teorías y conceptos, discusión y puesta en práctica de los mismos, por medio de ejercicios en clase y para que el estudiante realice su cuenta.
Profundización: Determinar y aplicar el modelo de regresión lineal en la predicción de valores.
Aplicar la regresión lineal para el pronóstico en series de tiempo.
Usar Excel en el modelo de regresión y correlación lineal.
Prácticas en la sala de computo utilizando Statgraphics o Excel.





Trabajo individual:


Buscar información y/o datos reales (mínimo 10 datos) de una variable Indep. Y Depend.

¡Presentar la Fotocopia o el original del fuente de los datos!

Sin utilizar programas de computador:
a) Plantear el tema, problema y objetivo.
b) Organizar los datos en una tabla.
c) Calcular el valor estimado, coef. de regresión y correlación (Interpretar cada resultado obtenido).
d) Graficar.
e) Resumir y analizar los resultados obtenidos.









Realización de ejercicios propuestos como tarea.

Perfeccionamiento:
Realizar el análisis de los resultados y presentar conclusiones.
Trabajo en grupos.
Prácticas en Statgraphics o Excel.

Socialización:
Individual o en parejas.

Evaluación:

Presentación de tareas. Presentación de trabajo, evaluación de conceptos.


Bibliografía


ANDERSON, David. SWEENEY, Dennis. WILLIAMS, Thomas. Estadística para administración y economía. México: Thomson, séptima edición. 1999.
BERENSON Mark. LEVINE David. KREHBIEL Timothy. Estadística para administración. México: Prentice Hall, Segunda edición. 2000.
CHAO LINCOLN. Estadística para ciencias administrativas. Bogotá: Mc Graw Hill, tercera edición. 1993.
MARTINEZ Bencardino Ciro. Estadística y Muestreo. Bogotá: Ecoe ediciones, décima edición. 2000.

SPIEGEK, Murray R. Teoría y problemas de Estadística. Bogotá: Mc Graw Hill.

MASSON y LIND. Estadística para administración y economía. Alfaomega.

PORTUS, Lincoyan. Curso práctico de estadística. Ed. Mc Graw Hill.

FREUND, John. Estadística Elemental. Ed Prentice Hall.

WALPONE y MYERS. Probabilidad y estadística. Ed. Mc Graw Hill.





REGRESIÓN Y CORRELACIÓN LINEAL

Si se dispone de dos series de datos emparejadas, con frecuencia se desea conocer si ambas variables están relacionadas o si son independientes. Por ejemplo, ¿en qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto? ó ¿será que existe alguna relación entre la talla y el peso de una persona?

A continuación, representaremos la relación entre dos variables mediante una gráfica llamada diagrama de dispersión, luego, estableceremos un modelo matemático para estimar el valor de una variable basándonos en el valor de otra, en lo que llamaremos análisis de regresión y finalmente estudiaremos el grado de relación existente entre las variables en lo que llamaremos análisis de correlación.

La relación existente entre dos variables puede ser lineal, cuadrática, exponencial, logarítmica, etc. En este documento vamos a centrarnos en la posible relación lineal entre dos variables.





DIAGRAMA DE DISPERSIÓN

En un plano cartesiano se representan tantos puntos como pares de observaciones se tengan, correspondiendo cada punto a un par de observaciones; a esta representación gráfica se le denomina indistintamente diagrama de esparcimiento o nube de puntos.



RECTA DE REGRESIÓN

Se llama así a la recta que atraviesa la nube de puntos y que mejor se ajusta a ellos. El modelo matemático que describe una relación lineal cuando se estima el valor de Y en función de x esta dada así, Y = a + bx ó Y= Bx + A. (Esta última notación es la empleada en las calculadoras CASIO)

Donde:

Y es la variable que se va a estimar en función de otra variable (x) que se supone conocida. Se le denomina también como variable dependiente, explicada o predictando.

x es la variable cuyo valor supuestamente se conoce, se le denomina variable independiente, predictor o explicativa.

b es la pendiente o sea la que determina el ángulo de inclinación de la recta. Denominada coeficiente angular, cuantificando la cantidad que aumenta o decrece Y por cada unidad que aumente o disminuya la variable independiente x.

El coeficiente angular puede representarse así:

b > 0
b < b =" 0">a , corresponde al coeficiente de posición. Es el valor donde la recta intercepta al eje Y. Puede ser mayor, menor o igual a 0.

Se debe encontrar la línea que represente al conjunto de puntos, para lograr esto se deben determinar los coeficientes de regresión muestrales (Coeficiente angular y de posición) que son estimadores de los parámetros o coeficientes de regresión poblacional. Los valores de b y c corresponden a aquellos que hacen que los Yi sean lo más cercanos posibles a los valores observados yi, para determinarlos lo más indicado es aplicar el método de los mínimos cuadrados.

CRITERIO DE LOS MÍNIMOS CUADRADOS:

En el método de los mínimos cuadrados se emplean los datos de la muestra para determinar los valores de b y c que minimizan la suma de los cuadrados de las desviaciones entre los valores observados de la variable dependiente yi, y los valores estimados de la variable dependiente, Yi. Este criterio se puede expresar así:

Mín S( yi – Yi)2
Siendo
yi = valor observado de la variable dependiente para la i-ésima observación.
Yi = valor estimado de la variable dependiente para la i-ésima observación.

Aplicando el cálculo diferencial se puede demostrar que los valores de b y c que minimizan la anterior expresión se pueden determinar con las siguientes ecuaciones:




El valor de b, se puede obtener mediante otras fórmulas, la consulta de las cuales se deja como ejercicio.


PREDICCIÓN:

Uno de los fines al obtener la ecuación de regresión es el poder emplearla para predecir el valor de y para determinado valor de x. Se debe tener precaución al aplicar la ecuación de regresión para hacer predicciones fuera del intervalo de valores de la variable independiente, porque fuera de él no se puede asegurar que sea válida la misma relación.

En el análisis de correlación, se determina el grado de relación que puede haber entre dos variables. Este grado de correlación lo obtenemos mediante el cálculo del Coeficiente de correlación.

COEFICIENTE DE CORRELACIÓN:

Denominado coeficiente de correlación lineal de Pearson y simbolizado por r o R, es una medida de interdependencia de dos variables aleatorias, y su valor oscila entre –1 y +1.

Su cálculo se puede realizar mediante la aplicación de la siguiente fórmula:

Donde:
El valor de r se aproxima a +1 cuando la correlación tiende a ser lineal directa (mayores valores de x, significan mayores valores de y) y se aproxima a –1 cuando la relación tiende a ser lineal inversa.

Si no hay correlación de ningún tipo entre dos variables aleatorias, entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo el que ocurra que r= 0, sólo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo.

El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables:

Correlación negativa perfecta
Correlación negativa moderada
Ninguna correlación
Correlación positiva perfecta
Correlación positiva moderada
Correlación negativa fuerte
Correlación positiva fuerte
Correlación positiva débil
Correlación negativa débil
0
0.5
– 0.5
– 1
1



COEFICIENTE DE DETERMINACIÓN:

Denominamos coeficiente de determinación R2 como el coeficiente que nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variación de Y que se explica a través del modelo lineal que se ha estimado, es decir a través del comportamiento de X. A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y.

También se puede entender este coeficiente de determinación como el porcentaje de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1 y es igual al cuadrado del coeficiente de correlación (r).

R2 = r2

Es una medida de la proximidad o de ajuste de la recta de regresión a la nube de puntos. También se le denomina bondad del ajuste.

1 - R2 nos indica qué porcentaje de las variaciones no se explica a través del modelo de regresión, es como si fuera la varianza inexplicada que es la varianza de los residuos.

EJEMPLO:

Los siguientes datos fueron recopilados por un gerente de ventas y corresponden a los años de experiencia y las ventas anuales de 5 de sus empleados:

Años de experiencia
6
12
15
21
24
Ventas anuales ($ millones)
38
68
83
113
128

Tomamos los años de experiencia como variable independiente.
A continuación se presentan los cálculos necesarios para determinar la ecuación de regresión con cuadrados mínimos.

vendedor i
xi
yi
xi yi
xi2
Yi2
1
6
38
228
36
1444
2
12
68
816
144
4624
3
15
83
1245
225
6889
4
21
113
2373
441
12769
5
24
128
3072
576
16384
Totales
78
430
7734
1422
42110

Aplicando la fórmula:


Se obtiene


b = 5.

El cálculo de la ordenada al origen (c) es el siguiente:


= 86 – 5(15.6)
= 8.


Por lo anterior, la función estimada de regresión, deducida con el método de los mínimos cuadrados, es

Y = 5X + 8

La pendiente de la función de regresión (b = 5) es positiva, lo cual implica que al aumentar los años de experiencia, las ventas también aumentan. De hecho, en este ejemplo, posemos llegar a la conclusión que las ventas aumenten en $ 5 millones por cada año de experiencia.

Si quisiéramos predecir el valor de las ventas anuales para un empleado que tiene 20 años de experiencia, el resultado sería:
Y = 5(20) + 8 = 108

En consecuencia, predeciríamos ventas anuales de 108 millones de pesos para este empleado.

A continuación, se analizará si el modelo desarrollado si es el adecuado para estimar y predecir.


Para hallar el coeficiente de correlación, se determinará primero la covarianza:


Se hallan las desviaciones típicas:


Luego el coeficiente de correlaci ón es



En este caso se tiene que las dos variables x (años de experiencia) y y (Ventas anuales) una relación lineal positiva perfecta. Esto es, todos los puntos de datos están en una recta con pendiente positiva (5).

El coeficiente de determinación en este caso también es igual a 1. Expresándolo de manera porcentual se tiene el 100%, lo cual significa que el 100% de la variación en las ventas se puede explicar con la relación lineal entre la experiencia y las ventas.




USO DE LA CALCULADORA EN LA REGRESIÓN LINEAL:

Si se dispone de una calculadora casio fx-3500p ó fx-3600p se pueden ejecutar los siguientes pasos, los cuales se van explicando tomando como modelo el ejemplo resuelto:

1. Oprimir las teclas mode 2 y en la pantalla debe aparecer LR (Regresión Lineal).

2. Con las teclas INV AC se borra la información que puede haber de trabajos anteriores. Para constatar el borrado, oprimir las teclas KOUT 3 y debe aparecer 0 en la pantalla. Si aparece otro número se repite el procedimiento.

3. Se introduce la información con la tecla [(... para la variable X, y con RUN para la variable Y. Teniendo en cuenta que primero es X1, luego [(..., a continuación Y1 RUN. Luego X2 [(... , Y2 RUN, y así sucesivamente. No debe haber equivocación al introducir los datos.

4. Introducida la información se comprueba, en parte, si la operación fue realizada correctamente oprimiendo KOUT 3, debe aparecer el número de parejas introducidas, en este caso 5.

5. Con la tecla KOUT y las teclas (1, 2, 3, 4, 5, 6) se obtiene lo que aparece en negrilla debajo de cada una de las teclas, así:
KOUT 1 = Sxi2 = 1422.
KOUT 2 = Sxi = 78.
KOUT 3 = n = 5.
KOUT 4 = Syi2 = 42110.
KOUT 5 = Syi = 430.
KOUT 6 = S xi yi = 7734.

6. Con la tecla INV y las teclas del 1 al 9 se obtiene lo que aparece señalado en rojo o anaranjado debajo de cada tecla.
INV 1 = media de X = 15.6
INV 2 = nsx = nS x = 6.41 (6.406246951). Corresponde a la desviación típica, elevando al cuadrado se obtiene la varianza Sx2 = 41.04
INV 3 = n-1sx = n-1S x = 7.16 (7.162401832)
INV 4 = media de Y = 86
INV 5 = nsy = nS y = 32.03 (32.03123476). La varianza Sy2= 1026
INV 6 = n-1sy = n-1S y = 35.81 (35.81200916).

El coeficiente de posición c se obtiene con INV 7 siendo igual a 8 y el coeficiente angular b con INV 8 igual a 5, con lo cual se tiene la función estimada de regresión Y = 5x + 8.

El coeficiente de correlación se obtiene con INV 9 siendo igual a 1.






APLICACIÓN DE EXCEL EN LA REGRESIÓN LINEAL:


Excel dispone de funciones que permiten trabajar con coeficientes correlación, regresión y otros conceptos sobre variables multidimensionales.

Para ver las funciones de la categoría Estadística, se hace clic sobre el icono insertar función, fx, de la barra de fórmulas (o se elige la opción Insetar función del menu Insertar), en la opción categoría de la función se elige Estadísticas, presentándose todas las funciones de dicha categoría en el cuadro Nombre de la función.





Para el ejemplo que venimos trabajando:



A
B
1
xi
yi
2
6
38
3
12
68
4
15
83
5
21
113
6
24
128




Si en el cuadro Nombre de la función hacemos clic sobre una función, por ejemplo la función COEF.DE.CORREL, se obtiene el siguiente cuadro. Una vez completados los argumentos (Variables X e Y) se obtiene el resultado en la parte inferior. Al pulsar Aceptar, la fórmula y su resultado se insertan en la celda activa de la hoja de cálculo.



A continuación, se presenta una relación de las funciones de Excel para correlación y regresión, acompañada de los resultados para el ejemplo que venimos trabajando para las variables X e Y de la hoja de cálculo cuyos valores ocupan los rangos A2:A6 y B2:B6. Para algunas funciones se presenta la caja correspondiente.










FUNCIÓN
VALOR QUE DEVUELVE
RESULTADO EN EL EJEMPLO
COVAR(X;Y)
Devuelve la covarianza de x e y definida por
205.2
COEF.DECORREL(X;Y)
Devuelve el coeficiente de correlación de x e y.
1
COEFICIENTE.R2(Y;X)
Da el coeficnete de determinación de y en x.
1
PENDIENTE(Y;X)
Da la pendiente de la línea de regresión de y sobre x. (Coeficiente angular)
5
INTERSECCION.EJE(Y;X)
Da la ordenada en el origen de la línea de regresión de y sobre x. (Coeficiente de posición)
8
PRONOSTICO(x; Y;X)
Halla la predicción según la línea de regresión de y sobre x para el valor k de la variable independiente.
Si x=20 entonces
y = 108




EJERCICIOS:



1. A continuación se presentan cinco observaciones de dos variables, X y Y.

xi
2
4
7
9
11
yi
24
30
31
36
40

a. Trace un diagrama de dispersión de datos.
b. ¿Que indica el diagrama trazado en el inciso a acerca de la relación entre las dos variables?
c. Trate de aproximar la relación entre x y y.trazando una recta que pase por los datos.
d. Forme la ecuación estimada de regresión calculando los valores de b y c.
e. Aplique la ecuación estimada de regresión para predecir el valor de y cuando x = 6.


2. Se ha realizado una observación a cinco familias respecto a el número de integrantes (x) y sus gastos mensuales (y) en agua en miles de pesos:


xi
2
5
7
8
10
yi
30
42
55
75
97

a. Hallar la recta de regresión.
b. ¿Cuanto se espera que gaste una familia si esta constituida por 6 personas?
c. Hallar el coeficiente de correlación y concluir.
d. Hallar el coeficiente de determinación y concluir.


3. Se dispone de 7 parejas de datos para los cuales se sabe:

n = 7
å x = 420,6
å y = 5958,7
å x y = 500073,09
å x 2 = 35119,7
å y 2 = 7213831,23

a. Hallar la recta de regresión.
b. Hallar el coeficiente de correlación y concluir.
c. Hallar el coeficiente de determinación y concluir.


4. En el semestre inmediatamente anterior el profesor de Estadística registro los puntajes obtenidos por sus estudiantes en una prueba inicial (de conocimientos elementales) y la nota definitiva en la materia en dicho semestre. Los resultados fueron los siguientes



Estudiante
1
2
3
4
5
6
7
8
9
10
Puntaje Prueba inicial
39
43
21
47
2
25
32
3
4
15
Definitiva
35
37
29
42
29
31
33
32
36
25


a. Elabore el diagrama de dispersión.
b. Obtenga la ecuación de la recta de regresión.
c. Si un estudiante obtuvo en la prueba inicial 45, ¿cuál sería la nota definitiva que se espera obtenga al final del semestre?
d. Si un estudiante obtuvo en definitiva 4.0, ¿qué edad puntaje habría obtenido en la prueba inicial?




5. Nota: Use Excel o una calculadora para resolver el siguiente problema:
Una compañía que fabrica partes para maquinaria quiere desarrollar un modelo para estimar el número de horas - trabajador requeridas para corridas de producción de lotes de diversos tamaños. Se selecciona una muestra aleatoria de 18 corridas de producción (2 para cada tamaño de lote de 10, 20, 30, 40, 50, 60, 70, 80 y 90) y se obtienen los siguientes resultados:



TAMAÑO DEL LOTE
HORAS – TRABAJADOR
TAMAÑO DEL LOTE
HORAS – TRABAJADOR
10
30
50
112
10
40
60
128
20
50
60
135
20
55
70
148
30
73
70
160
30
67
80
170
40
87
80
162
40
95
90
180
50
108
90
190



a. Grafique el diagrama de dispersión.
b. Suponga una relación lineal y utilice al método de mínimos cuadrados para encontrar los coeficientes de regresión A y B.
c. Interprete el significado de la ordenada A y la pendiente B en este problema.
d. Pronostique el número promedio de horas – trabajador requeridas para una corrida de producción con un tamaño de lote de 45.
e. ¿Por qué no es adecuado predecir el número promedio de horas – trabajador para una corrida de producción de un lote de tamaño 100? Explique.
f. Suponga que las horas – trabajador para el lote de tamaño 60 son 117 y 119. Resuelva los incisos a. y d. con estos valores y compare los resultados.