Mi quinta encuesta (I)

En esta encuesta no vamos a ver simplemente una encuesta sino una forma o variante del muestreo aleatorios que se denomina proporcional al tamaño.

Muestreo con probabilidades proporcionales al tamaño

         Ahora veremos de que variando la probabilidades con que las diversas unidades de muestreo son seleccionados presentan resultados más ventajosas. Supongamos por ejemplo que deseamos seleccionar posibles vacantes de trabajo en una ciudad encontrándonos con empresas muy pequeñas y otras muy grandes. En un muestreo aleatorio simple el tamaño de la empresa no es tenido en cuenta y por lo general una empresa tendrá muchas empresas pequeñas. Pero la información deseada número de vacantes está relacionada con las empresas grandes donde suele ser mas fácil encontrar vacantes en este tipo de empresas. Si entonces dan distintas probabilidades a las unidades que a otras unidades hablaremos de muestreo con probabilidades proporcionales a los tamaños (ppt).

          Llamaremos pi a la probabilidad de que la unidad yi aparezca en la muestra. Los estimadores tanto del total como de la media serán insesgados y su forma:

Tal y como dijimos los estimadores vistos son insesgados pero el interés del investigador es el de reducir la varianza.

Al ser imposible conocer el total y la media poblacional pues entonces no se realizaría la investigación. La forma práctica de elegir  es seleccionar de manera proporcional a una medida conocida que está altamente correlacionada con y. En el problemas de investigar las vacantes, las empresas pueden ser seleccionadas con probabilidades proporcionales a su fuerza de trabajo total, que debe ser conocida con exactitud antes de seleccionar la muestra.

Para ver como funciona ppt supongamos una población con N=4  con cifras {1,2,3,4} con =0,1  =0,1  =0,4  =0,4 que si esto lo queremos plasmar en tablas de número aleatorios

Si sale 0 entonces escogemos el 1 

                   Si sale 1 entonces escogemos el 2 

                   Si sale 2,3,4 o 5  entonces escogemos el 3 

                   Si sale 6,7,8 o 9 entonces escogemos el 4

 

Luego el proceso se repite para el segundo elemento. Las posibles muestras con sus probabilidades:

Muestras

Probabilidades de obtener una muestra

Estimación del total

1

2

0,02

15

1

3

0,08

8,75

1

4

0,08

10

2

3

0,08

13,75

2

4

0,08

15

3

4

0,32

8,75

1

1

0,01

10

2

2

0,01

20

3

3

0,16

7,5

4

4

0,16

10

La reducción de las varianzas usando estimadores ppt, sería mayor si las mediciones poblacionales tuvieran más variabilidad y la pi estuvieran más próximas de las verdaderas poblacionales. 

El muestreo con probabilidades diferentes disminuirá la varianza de un estimador, permitiendo por lo tanto estimaciones más pequeñas, permitiendo por tanto estimaciones más precisas, si las probabilidades son proporcionales al tamaño de las mediciones seleccionadas. Sin embargo si las probabilidades se seleccionan en forma incorrecta entonces las estimaciones obtenidas por ppt producen una varianza mayor que las del muestreo aleatorio simple. 

Por otra parte el muestreo por ppt involucra un número con reemplazamiento, lo cual significa que una unidad muestreada no es retirada y puede volver a salir. Una selección repetido no es muy frecuente cuando n/N es pequeña. 

Además, esta característica indeseable frecuentemente queda más que compensada por la reducción de la varianza que puede ocurrir. Los estimadores ppt de la media y del total solamente se reducen si las probabilidades p son proporcionales, al tamaño de las y que se investigan.

Ejemplo: Los tableros contienen n número diferente de componentes y el investigador considera que se encuentran los defectos correlacionados positivamente con el número de componentes del tablero. Por lo tanto, se utilizará un muestreo ppt, siendo la probabilidad de seleccionar cualquier tablero para la muestra proporcional al número de componentes. Una muestra de n=4 tableros ser´seleccionada de N = 10 tableros. El número de componentes en los 10 tableros de producción en un día son:

 

            10, 12, 22, 8, 16,24, 9, 10, 8, 51.

 

Muestre cono seleccionar n =4 tableros con probabilidades proporcionales al tamaño.

 

Tableros

Número de componentes

Intervalos acumulados

p

1

2

3

4

5

6

7

8

9

10

10

12

22

8

16

24

9

10

8

31

1-10

11-22

23-44

45-52

53-68

69-92

93-101

102-111

112-119

120-150

10/150

12/150

22/150

8/150

16/150

24/150

9/150

10/150

8/150

31/150

 

Podemos considerar que hay 150 componentes en la población que va a ser muestreado, que están numerados del 1 al 150. La columna de intervalos acumulado registra los componentes muestreados en el  tablero,  el tablero 1 contiene los componentes numerados del 1 al 10 los del 2 del 11 al 22 así sucesivamente.

La p son simplemente el número de componentes por tablero dividido entre el total de componentes. Los tableros con mayor número de componentes son los que más probabilidad tienen de ser obtenidos.

Para seleccionar la muestra recurrimos a la tabla de números aleatorios de 1 al 150 y sacamos por ejemplo 14, 56, 94 y 25.

 

-         El 14 se encuentra en el tablero 2.

-         El 56 se encuentra en el tablero 5.

-         El 94 se encuentra en el tablero 7.

-         El 23 se encuentra en el tablero 3.

 

Ejemplo: En los tableros 2,3,5 y 7 se encuentran 1,3,2 y 1 defecto respectivamente. Estimar el promedio de defectos por tableros y un intervalo de confianza para dicha estimación.

                                    1,71±0,34=(1,37;2,05)

 

Instituto  

de investigaciones

  estadísticas