1. Estadística Introducción a la estadística Estadistica (2003 – 2004) – UNFV- Song : without you by air supply
2.
3.
4.
5. Método científico y estadística Plantear hipótesis Obtener conclusiones Recoger datos y analizarlos Diseñar experimento
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20. Inferencia estadística 1.- Principales conceptos. Muestreo. Distribución muestral de un estadístico. Principales distribuciones muestrales. Maestria en Administración – (2003- 2004 ) - UNFV - Song : big in japan by Alphaville
21. Principales conceptos en inferencia estadística Idea básica: Hacer inferencias sobre la población a partir de la muestra que hemos extraído de la misma. Ello nos lleva a tratar (brevemente) el tema del muestreo. Pensemos que la muestra habrá de ser representativa de la población, para que podamos efectuar inferencias que tengan sentido.
22.
23.
24. Muestreo probabilístico 1. Muestreo aleatorio simple Es aquel en el que, a priori, todos los elementos de la muestra tienen la misma probabilidad de aparición. Supongamos que tengamos una población de 50.000 individuos, y que tenemos un listado con sus nombres. Si queremos elegir 100 personas, lo que necesitamos es que el ordenador elija al azar a 100 individuos de esos 50.000.
25. Muestreo probabilístico 2. Muestreo estratificado En el muestreo estratificado, los investigadores han de dividir a los sujetos en diferentes subpoblaciones (o estratos), en función de cierta característica relevante, y después lo que hacen es un muestro aleatorio simple de cada estrato. Evidentemente, cada individuo debe pertenecer a un estrato (y solo uno), y cada individuo del estrato habrá de tener la misma probabilidad de ser escogido como parte de la muestra. Ejemplo : Supongamos que, en Cajamarca, 70% de los niños de primaria van a escuela pública y el 30% a concertada. Si queremos 1,000 niños, lo que haremos es dividir los alumnos en 2 estratos (pública y concertada) y se eligen aleatoriamente 700 niños de la pública y aleatoriamente 300 de la concertada.
26. Muestreo probabilístico 3. Muestreo por conglomerados En el muestreo por conglomerados, en lugar de considerar cada elemento de la población, lo que consideramos son “conglomerados de elementos”. El proceso es elegir aleatoriamente uno o varios conglomerados y la muestra estará formada por TODOS los elementos de los conglomerados. Ejemplos : -En las encuestas durante las elecciones, los conglomerados pueden ser las mesas electorales, y lo que se hace es escoger algunas mesas al azar (y de ahí se toman todos los votos de las mesas seleccionadas). -En otros ejemplos, los conglomerados pueden ser los bloques de viviendas, los municipios, etc.
27. Muestreo probabilístico 4. Muestreo por etapas En este caso se combina el muestreo aleatorio simple con el muestreo por conglomerados: Primero se realiza un muestreo por conglomerados (v.g., si los conglomerados son colegios en Lince, se seleccionan aleatoriamente varios de ellos). Segundo, no se eligen todos los alumnos (como ocurriría en un muestro por conglomerados), sino que se elige una muestra aleatoria. (Dicha muestra puede ser obtenida por muestreo aleatorio simple o puede ser estratificado.) Es decir, hemos tenido 2 etapas de muestreo. Y claro está, es posible tener más de 2 etapas...
28.
29. Muestreo no probabilístico 1. Muestreo sin norma (o de conveniencia) Se elige a una muestra por ser conveniente, fácil, económica. Pero no se hace en base a un criterio de aleatoridad. Ejemplo: las encuestas en los periódicos electrónicos; el muestreo habitual en los trabajos en psicología. 2. Muestreo intencional En este caso, si bien el muestreo no es probabilístico, los investigadores procuran que se garantice la representatividad de la muestra
30. Distribución muestral de un estadístico Supongamos que tenemos una variable aleatoria, cuya distribución es f ( x) Supongamos, por simplicidad, que obtenemos una muestra aleatoria simple con tamaño n = X 1 , X 2 , ... X n Entonces, un estadístico es cualquier función h definida sobre X 1 , X 2 , ... X n y que no incluye parámetro desconocido alguno: Y=h( X 1 , X 2 , ... X n ) La distribución de dicho estadístico Y la vamos a denominar g(y)
31. Distribución muestral de un estadístico Observad: f (x) es la distribución de la v.a. bajo estudio g(y) es la distribución del estadístico que tenemos Es vital conocer la distribución muestral del estadístico de interés para poder efectuar inferencias sobre el parámetro correspondiente. Esto es, para efectuar inferencias sobre la media poblacional , necesitamos conocer la distribución muestral de
32. Distribución muestral de la media Veremos primero el caso de que la distribución subyacente sea normal , con media y varianza La media de la distribución muestral de medias es La varianza de la distribución muestral de medias es La forma de la distribución muestral de la media es normal . Nota: La desviación típica de la distribución muestral suele ser denominada: error típico de tal estadístico (v.g., “error típico de la media”, etc.)
33. Distribución muestral de la media. Ejemplo 1 Distribución poblacional subyacente (dist. Normal): Media=100 (Varianza=225) Desv.Típica=15 Distribución muestral de la media: Tamaño muestral=10 Media=100 (Varianza=225/10=22.5) Desv.típica= La línea (en este y sucesivos ejemplos) es una curva normal En este y sucesivos gráficos: Número de réplicas
34. Distribución muestral de la media. Ejemplo 2 Distribución poblacional subyacente (dist. Normal): Media=100 Desv.Típica=15 Distribución muestral de la media: Tamaño muestral=20 Media=100 (Varianza=225/20=11.3) Desv.típica=3.35
35. Distribución muestral de la media. Ejemplo 3 Distribución poblacional subyacente (dist. Normal): Media=100 Desv.Típica=15 Distribución muestral de la media: Tamaño muestral=50 Media=100 (Varianza=225/50=4.5) Desv.típica=2.12
36. Distribución muestral de la media Veremos ahora el caso de que la distribución subyacente sea arbitraria , si bien sabemos que la media es y la varianza sea La media de la distribución muestral de medias es La varianza de la distribución muestral de medias es La forma de la distribución muestral de la media TAMBIÉN tiende a ser normal. En concreto, la distribución muestral se acercará más y más a la distribución normal (media y varianza 2 /n ) a medida que se aumente el tamaño de cada muestra .
37. Distribución muestral de la media. Ejemplo 4 Distribución poblacional subyacente ( dist. GAMMA ): Media=100= Varianza=100= La distribución GAMMA tiene 2 parámetros: que es un parámetro de escala (1) p que es un parámetro de forma (100)
38. Distribución muestral de la media. Ejemplo 4 Distribución poblacional subyacente (dist. GAMMA): Media=100 Varianza=100 Distribución muestral de la media: Tamaño muestral=10 Media=100 (Varianza=100/10=10) Desv.típica=
39. Distribución muestral de la media. Ejemplo 5 Distribución poblacional (dist. EXPONENCIAL): Media=0.1=1/ Varianza=0.01=1/ 2 La distribución EXPONENCIAL tiene 1 parámetro: (en el ejemplo: 10) Ejemplo de distr.exponencial en psicología: v.g., tiempo transcurrido entre 2 pulsaciones de una rata en una caja de Skinner.
40. Distribución muestral de la media. Ejemplo 5a Distribución muestral de la media: Tamaño muestral=10 Media=.100 (Varianza=0.01/10=.001) Desv.típica=.03 Distribución poblacional (dist. EXPONENCIAL): Media=0.1=1/ Varianza=0.01=1/ 2 Observad que la dist. muestral se aproxima a la normal
41. Distribución muestral de la media. Ejemplo 5b Distribución muestral de la media: Tamaño muestral=20 Media=.100 (Varianza=0.01/20=.0005) Desv.típica=.022 Distribución poblacional ( dist. EXPONENCIAL): Media=0.1=1/ Varianza=0.01=1/ 2 Observad que la distribución muestral se aproxima más a la normal (al elevar el tamaño muestral).
42. Distribución muestral de Cuando la distribución de la que obtenemos las medias muestrales es gaussiana (“distr.normal”), la expresión anterior se distribuye según la distribución t de Student con t n-1 grados de libertad. (Esta distribución es básica para efectuar inferencias entre dos medias.) OTRAS DISTRIBUCIONES MUESTRALES (1) Distribución muestral de Cuando las distribuciones de la que obtenemos las varianzas muestrales son gaussianas, la expresión anterior se distribuye según la distribución F de Fisher con n 1 -1 grados de libertad en el numerador y n 2 -1 grados de libertad en el denominador. (Recordad que la distribución F es básica para la razón de varianzas: ANOVA.) Asumiendo varianzas poblacionales iguales
43. Distribución muestral de Cuando las distribución de la que obtenemos la varianza muestral es gaussiana, la anterior expresión se distribuye según la distribución chi-cuadrado con n-1 grados de libertad. OTRAS DISTRIBUCIONES MUESTRALES (2)
44. Simulación a eventos discretos Song . California dreaming by The mamas and the papas.
45. Independencia de las muestras Los resultados de una corrida de simulación, son muestras de alguna distribución. Esos resultados los llamamos "respuestas " . Las respuestas pueden ser: promedios de valores recolectados en toda o parte de la corrida, o simplemente una única medida (ej. largo de la cola al final de la corrida). Las respuestas son muestras de distribuciones, por lo tanto pueden variar de una corrida a otra o en la misma corrida. El promedio de la distribución de respuestas la notamos y lo llamamos la media (valor medio) de la distribución .
46. Independencia de las muestras Cuando los resultados son promedios de valores recolectados en estado estacionario , una sola respuesta “puede” ser usada como la estimación de la media de la distribución. En sistemas terminales o no estacionarios siempre deben realizarse varias corridas, de modo de obtener varias muestras como respuestas, tanto para calcular la media como para calcular la varianza,
47. Dispersión de la muestra La dispersión de la variable aleatoria respecto de su media, se mide mediante la desviación estándar o la varianza 2 . Si la varianza es grande quiere decir que no todos los valores que toma la V.A. están cerca de la media. Para calcular la varianza de la distribución muestreada es necesario obtener varias respuestas independientes .
48. Análisis de resultados En general es aconsejable realizar varias corridas independientes para tomar varias muestras como respuestas tanto para calcular la media como la varianza (y la desviación estándar). Por lo tanto.... El análisis estadístico de los experimentos de simulación requieren de varias respuestas independientes x 1 , ...,x n . Cada una de estas muestras se obtienen a partir de alguno de los siguientes métodos.
49. Métodos muestreo resultados (1) 1.- Se realizan n corridas que generan x 1 , ..., x n . Cada corrida con torrentes de números aleatorios diferentes e independientes . Cada corrida es una replicación . Se pueden registrar resultados solamente en determinados períodos de interés.
50. Métodos muestreo resultados (2) 2.- El método de replicación en sistemas estacionarios. Los datos se toman solamente en el período estacionario, la muestra o resultado es un promedio de los datos obtenidos durante la corrida o replicación.
51. Métodos muestreo resultados (3) 3.- Método batch means, usado en simulaciones de estado estacionario, aquellos que llevan mucho tiempo en alcanzar ese estado. Se corre el período run-in una sola vez; a partir de allí se registran valores de x i en intervalos sucesivos de tiempo de igual longitud, 1 ... n. Riesgo: correlación entre resultados sucesivos.
52. Métodos muestreo resultados (4) 4.- El método regenerativo se utiliza cuando nos interesan medidas en períodos o instantes específicos (particulares) del tiempo. Por ejemplo nos interesa el largo de la cola cuando se rompe una máquina (cantidad de máquinas rotas en esa ocasión). Entonces consideramos un punto regenerativo (la ruptura de la máquina), y se registra una muestra independiente inmediatamente después de cada ruptura.
53. Cálculo media y varianza Media, Varianza son los parámetros que mas interesan calcular. Si x i es la i-ésima respuesta de n replicaciones o batches entonces podemos estimar la media , s 2 un estimador sin sesgo de la varianza 2 de las respuestas.
54. Intervalo de confianza Nos interesa saber con qué grado de seguridad estamos estimando el valor medio de la distribución. La estimación es el promedio muestreado de un conjunto de respuestas, entonces el intervalo de confianza nos brinda una medida de la confianza que le podemos tener a esa estimación ; Los límites de un 95% de confianza son los puntos extremos de un intervalo alrededor de la media de la muestra; significa que la media de la distribución se muestreará con una probabilidad de 0.95.
56. Intervalo de Confianza Los límites del 95% del intervalo de confianza se pueden calcular de tablas de distribución Student para muestras pequeñas y de tablas de la distribución Normal para muestras grandes . Para la Normal los límites de un intervalo de confianza de 95% son
58. Otras técnicas de análisis La Técnica predictiva se usa en simulaciones no terminales que no alcanzan estado estacionario. Se toma una medida de la media x t en un intervalo de tiempo t y se grafican los valores tomados (x t vs t) para tener una idea de como varían los valores con el tiempo. Si queremos una idea mas precisa, se pueden realizar varias y diferentes corridas y tomar promedios de ellas. También se puede usar técnicas de regresión múltiple para ajustar los valores obtenidos a algún tipo de curva, aunque a veces el patrón de conducta de x t puede ser complejo, lo que dificulta el análisis de la misma.
59. Verificación de hipótesis Esta técnica se usa para determinar cuando las respuestas de simulaciones comparativas son significantes estadísticamente. Si x es una respuesta de una v.a de media x de una corrida e y ( media y ) es la respuesta de la corrida con valores cambiados de las var. de decisión, entonces la hipótesis a verificar es x = y . Si realizamos n corridas para un conjunto de valores de las variables de decisión y repetimos el mismo número de corridas para los valores cambiados, entonces la media muestreada de la primera experiencia es X y de la segunda es Y. La verificación se basa en la diferencia entre X e Y y cuánto se aleja la desviación estándar de la media. El cálculo de la desviación estándar dependerá de cuan independientes son los valores x i e y i de las corridas realizadas (distribución t o Normal).
60. Análisis de factores (1) Esta técnica estadística se utiliza para evaluar o determinar los efectos que los cambios en las variables de decisión producen en las salidas o resultados de la simulación. Las variables de decisión se llaman factores , por lo tanto corremos la simulación con distintos valores asignados a los factores (niveles) para medir cuánto afecta a los resultados de la simulación, los distintos factores ya sea individualmente como interactuando uno con otro.
61. Análisis de factores (2) La complejidad del análisis crece exponencialmente con la cantidad de factores, ya que si tenemos n factores y nos interesa el factor i medido en el nivel m i , tenemos m i diferentes posibles formas de hacerlo. Esto además se complica mas, si existe mas de una salida a considerar .
62. Análisis de factores (2) Esta técnica es usable para simulaciones con muchos factores a ser testeados en varios niveles. Pero es una técnica muy costosa en tiempo y por lo tanto muchos test estadísticos no pueden ser terminados. De todos modos es valiosa para tener una idea o imágen de los efectos ocasionados por distintos cambios en los factores de la simulación. (Law y Kelton 82). Depende tambien de la cantidad de torrentes accesibles
63. Resumen cap. 5 Simulación terminal , estacionaria. Detección estado estacionario. Parámetros interesantes como registrarlos y presentarlos. Facilidades de PascalSIM. Técnicas de Análisis de resultados
64. Modelo de simulación Producir un modelo de simulación no es solamente escribir código. La estructura de la simulación y sus distribuciones se derivarán de : OBJETIVOS HIPOTESIS DE TRABAJO RESPUESTAS VARIABLES DE DECISION
65. Modelo de simulación El modelo se compone de: + Objetivos, hipótesis, variables de decisión y respuestas, + diagramas de actividades + especificación + pesudocódigo + código
66.
67. Modelo de simulación HIPOTESIS DE TRABAJO . Existen hipótesis implícitas al modelo y otras explícitas. Ambas deben ser documentadas. Los programas deben ser diseñados de forma de permitir cambios en etapas posteriores del proyecto. (reducen la complejidad del modelo)
68. Modelo de simulación RESPUESTAS tipos de parámetros y medidas de interés, así como estadísticas y datos a recolectar para el análisis. VARIABLES DE DECISION . Los objetivos indicarán cuáles serán fijos y cuáles cambiables.
69. Especificación Sala internación El sistema es una simplificación del problema real (describirlo). La especificación del problema está dada por el detalle de los objetivos, las hipótesis de trabajo, las variables de decisión, las respuestas y las duraciones de las distintas actividades (tabla 6.1) y el diagrama de actividades (fig 2.2).
70.
71. Programa Se programa según algún método elegido. La sala de operaciones es agendada por dos tipos de eventos: fin de operación, y tiempo en que está cerrada. Se define una variable booleana que controla esas condiciones en la entidad "sala de operaciones" que siempre está en el calendario (ver record en libro pag 107). Las variables de decisión se declaran como constante globales.
72. Programa El unidad de tiempo de la simulación es la hora. q4 es una cola ficticia, ventaja: cada actividad está compuesta por el par de eventos C y B, lo que facilita la modificación posterior del programa. Los histogramas se declaran y nuevos valores son ingresados cada vez que haya un cambio en algún tipo de evento C o B.
73. Período Run-in Simulación del Hospital es de tipo "Estacionaria", debemos determinar cuando comenzar a tomar datos para procesar. Utilizamos el método de promedios acumulados (tabla 6.2) se agrega código en la fase B del ejecutivo para producir promedios de las respuestas cada 49 hs simuladas. La Fig 6.1 grafica los datos obtenidos.
74. Período Run-in Observar que : la cola de solo internados y el tiempo de espera para operación alcanzan el estado estable rápidamente ( se admite para operación si no hay pacientes tipo solo internación). La estabilidad se alcanza alrededor de las 720 hs. En un proyecto real, se deben obtener un cierto número considerable de promedios acumulados de respuestas, usando diferentes torrentes de números para asegurarse de que realmente se ha alcanzado el estado estacionario.
75. Resultados Se simularon 14 días luego de alcanzada la estabilidad. Se utilizaron números distintos que los utilizados para determinar el período run-in. Observar: - La distribución de las filas de "solo internados" y pacientes a operar, tienen una varianza grande. - Las camas han tenido un gran porcentaje de utilización ( 20 en 318 hs de 336 simuladas) - 26 pacientes fueron operados y su tiempo de espera fue muy variado. Cada corrida con un conjunto de diferentes torrentes producen una replicación. Se necesitan varias replicaciones para obtener datos mas acertados. Los datos ameritan reducción de varianza.
76. Taller de reparaciones Simulación terminal. Alcanza estabilidad enseguida. Se toman datos durante toda la simulación. Se podrían considerar las máquinas como variables de decisión. La lógica del programa se presta para adecuarlo a este cambio. A tener en cuenta: cómo continuar luego de teminada la jornada de trabajo (estudienlo!).
77. Taller de reparaciones (2) Buena práctica: declarar los niveles de recursos y torrentes de número como constantes globales. Fácil de alterar durante la experimentación. Resultados: el número de máquinas rotas varió entre 0 y 10. La utilización de mecánicos fue mayor que la de equipos (84.25% vs 68.7%). Durante un gran período de tiempo los mecánincos estuvieron todos ocupados.
81. MUESTREO DISEÑOS DE MUESTREO ESTADÍSTICO ALEATORIO IRRESTRICTO (MAI; MSA) MUESTREO SISTEMÁTICO ESTRATIFICADO POLIETÁPICO POR CONGLOMERADOS IGUAL PROPORCIONAL NEYMAN ÓPTIMA
82. MUESTREO ESTUDIO DE MUESTREO QUE DISEÑO DE MUESTREO SE DEBE UTILIZAR CUAL ES EL TAMAÑO ÓPTIMO DE LA MUESTRA QUE DISEÑO CARACTERÍSTICAS DE LA POBLACIÓN TAMAÑO DE LA MUESTRA TAMAÑO DE LA POBLACIÓN N GRADO DE VARIABILIDAD NIVEL DE PRECISIÓN NIVEL DE CONFIABILIDAD t (TABLAS) DISEÑO DE MUESTREO PARÁMETRO A ESTIMAR (PROMEDIO, PROPORCIÓN, TOTAL
84. PARA ESTIMAR EL VALOR DE PARÁMETROS DE INTERÉS PARA QUE SE UTILIZA: CUANDO SE UTILIZA: CUANDO LA VARIABILIDAD DE LOS ELEMENTOS DE LA POBLACIÓN BAJO ESTUDIO, SEA MÍNIMA SUGERENCIA PRÁCTICA CUANDO EL COEFICIENTE DE VARIACIÓN < 15 %