1. Intervalos confidenciales.
2. Intervalos confidenciales para la media de una distribución normal.
3. Intervalos confidenciales para la varianza de una distribución normal.
4. Región confidencial para la media y la varianza de una distribución normal.
5. Intervalos confidenciales para el parámetro de una distribución binomial.
6. Intervalos confidenciales múltiples.
7. Intervalos confidenciales para muestras grandes.
8. Intervalos confidenciales múltiples.
9. Introducción al contraste de hipótesis.
10. Contraste de una hipótesis simple contra una alternativa simple.
11. Hipótesis compuestas.
12. Contraste de è è1 contra è>è1 para densidades con un parámetro único è. Bibliografía Recomendada.
1. INTERVALOS CONFIDENCIALES.
La estimación puntual de un parámetro no resulta de mucho valor si no se posee alguna medida del posible error cometido en la estimación. Toda estimación 8ˆ de un parámetro 8 debería acompañarse de cierto intervalo que incluyera a 8ˆ , por ejemplo, de la forma (8ˆ -d, 8ˆ +d), junto con alguna medida de seguridad de que el parámetro verdadero 8 fuera interior a dicho intervalo. A menudo las estimaciones se dan de esta manera. Así la carga electrónica puede estimarse que vale (4,770 ± 0,005)10-10 unidades electrostáticas, dándose a entender con ello que es muy poco probable que el primer factor sea exterior al intervalo 4,765 a 4,775. Un contable que se ocupe de los costes de una editorial, y que quiera tener en cuenta todos los factores que intervienen en le coste de producción de cierto libro (costes efectivos de producción, proporción de sostenimiento, proporción de sueldos directos, etc.), podrá estimar el coste en 83 ± 4,5 centavos por volumen, lo que significa que es muy probable que el coste correcto esté comprendido entre 78,5 y 87,5 centavos por volumen. La Oficina de Estadística del Trabajo puede estimar el número de parados en un momento dado en 2,4 ± 0,3 millones, teniendo bastante seguridad en que el número verdadero está comprendido entre 2,1 y 2,7 millones.
A fin de precisar a estas ideas, consideremos un caso particular. Supongamos una muestra (1,2; 3,4; 0,6; 5,6) de cuatro observaciones, extraída de una población normal de media desconocida m y desviación estándar conocida 3. La estimación máximo-
verosímil de m es la media de las observaciones maestrales,
Queremos determinar los límites superior e inferior entre los cuales queda comprendido, con bastante seguridad, el valor verdadero del parámetro. En general, para muestras de tamaño cuatro, procedentes de la distribución dada, la cantidad
tendrá una distribución normal con media cero y varianza unidad; x es la media
muestral, y 3/2 es a / . Por tanto, la cantidad y tiene por función de densidad
f ( y) =
1 – 1 y 2
(3)
que es independiente del valor verdadero del parámetro desconocido, y se podrá calcular la probabilidad de que y esté situado entre dos números elegidos
arbitrariamente. Así, por ejemplo,
1,96
P(-1,96 < y < 1,96) = ∫-1,96
f ( y)dy = 0,95
(4)
En esta relación, la desigualdad -1,96< y , o bien
3/ 2
(5)
equivale a la desigualdad
y la desigualdad
y < 1,96
es equivalente a
cabe por tanto, volver a escribir (4) en la forma
P( x – 2,94 < m < x + 2,94) = 0,95 (6)
P(-0,24 < m < 5,64) = 0,95 (7)
Podemos decir que estos límites obtenidos, -0,24 y 5,64, contendrán el valor del parámetro verdadero, con una seguridad del 95%.
Debe examinarse cuidadosamente el significado de (6) y (7). La probabilidad de que el intervalo aleatorio x -2,94 a x +2,94 cubra a la media verdadera m es 0,95. Esto es, si se extraen repetidamente de la población muestras de tamaño 4, y si se calcula para cada muestra el intervalo aleatorio x -2,94 a x +2,94, es de esperar que le 95% de estos
intervalos contengan la media verdadera m. Tenemos, pues, una gran confianza en que
el intervalo -0,24 a 5,64 cubra la media verdadera. La medida de nuestra confianza es 0,95, porque antes de extraer la muestra, la probabilidad de que el intervalo que intentamos construir cubra la media verdadera es 0,95.
El intervalo -0,24 a 5,64 recibe el nombre de intervalo confidencial o, más concretamente, intervalo confidencial del 95%; la probabilidad, en este caso 0,95, se denomina coeficiente confidencial o coeficiente de confianza.
Es posible obtener intervalos con cualquier grado de confianza que se desee. Así, puesto que
P(-2,58 < y < 2,58) = 0,99 (8)
se obtiene un intervalo confidencial del 99% para la media verdadera considerando las desigualdades como antes, y sustituyendo x =2,7, con lo que resulta
P(-1,17 < m < 6,57) = 0,99 (9)
Debe observarse que hay muchos intervalos posibles con la misma probabilidad. Así
, por ejemplo, ya que
P(-1,68 < y < 2,70) = 0,95 (10)
tenemos otro intervalo confidencial del 95% para m, dado por
P(-1,35 < m < 5,22) = 0,95 (11)
Este intervalo es inferior al de antes obtenido, ya que su longitud 6,57 es superior a la longitud 5,88 del intervalo dado en (7), por lo que procura una información menos precisa sobre la situación de m. Dos números cualesquiera a y b, tales que las
ordenadas que les corresponden incluyan el 95%. En general, se desea que el intervalo confidencial sea lo más pequeño posible; esto se logra haciendo que a y b estén tan próximos como sea posible, ya que la relación P(a < y < b)=0,95 da lugar a un intervalo
confidencial de longitud
(a /
) (b-a). La distancia (b-a) se hace mínima para un área
dada cuando f(a) = f(b), como se ve claramente en la figura 1. si el punto b se desplaza un poco hacia la izquierda, el a deberá moverse una distancia menor hacia la izquierda, a fin de que el área siga siendo la misma; esta operación disminuye la longitud del intervalo y continua dis minuyéndola mientras f(b) < f(a). Como en este ejemplo f(y) es simétrica respecto a y = 0, el valor mínimo de b – a, para un valor prefijado del área, corresponde a b = -a. Por tanto, (7) da el intervalo confidencial más corto del 95%, y (9) da el intervalo confidencial más corto del 99%, ambos para el parámetro m.
En muchos problemas no es posible construir los intervalos confidenciales más cortos para un coeficiente de confianza dado. En estos casos, resultará deseable hallara un intervalo confidencial que tenga las más corta longitud esperada, o que sea tal que haga mínima la probabilidad de que el intervalo confidencial cubra un valor m*, donde
m* ¹ m.
Fig. 1
El método general que aquí exponemos es el siguiente. Se halla, si es posible, una función de las observaciones muestrales y del parámetro a estimar (la función y anterior), cuya distribución sea independiente del parámetro y de otros parámetros
cualesquiera. Entonces, cualquier afirmación probabilística de la forma P(a < y < b) = y. en donde y es la función, dará lugar a una afirmación probabilística relativa al parámetro. Esta técnica es aplicable en muchos problemas importantes, pero hay
también otros muchos en los que no puede aplicarse, por ser imposible hallar funciones de la forma deseada y cuya distribución no dependa de parámetros. Estos últimos problemas se abordan mediante una técnica más general que describiremos en la sección 5.
La idea de la estimación por intervalos puede generalizarse de modo que incluya la estimación simultánea de varios parámetros. Así, los dos parámetros de la distribución normal se estiman mediante una cierta región plana R, en el llamado espacio
paramétrico, espacio de todas las combinaciones posibles de los valores de m y a 2 .
Una región confidencial del 95% es una región que se puede construir a partir de la muestra, de tal forma que, si se extraen muestras repetidamente, construyendo una región para cada una de ellas, el 95% (por término medio) de estas regiones incluirán el
punto paramétrico verdadero (m ,a2 ) . (véase figura 2)
0 0
Los intervalos y regiones confidenciales ilustran adecuadamente acera ce la incertidumbre de las inferencias. En (7) se hizo la inferencia de que el intervalo -0,24 a5,64 cubre el valor verdadero del parámetro, pero no se estableció de forma categórica. La medida 0,05 de la incertidumbre de esta inferencia constituye parte esencial de la afirmación.
Fig. 2
2. INTERVALOS CONFIDENCIALES PARA LA MEDIA DE UNA DISTRIBUCIÓN NORMAL.
El método utilizado en la sección anterior no suele ser de posible utilización para estimar la media de una población normal, pues lo corriente es que se desconozca la varianza a 2 . La función y toma la forma (para muestras de tamaño n)
(1)
y transformando las desigualdades:
|
se tiene
P(-1,96 < y < 1,96) = 0,95
(2)
|
Pæ -1,96
è
a < m < 1,96
a ö
ø
(3)
Para una muestra dada se conocen x y n, pero no a , de modo que no será posible calcular límites para m. Claro es que puede sustituirse a por una estimación aˆ ; pero entonces la afirmación probabilística ya no sería exacta, y para muestras pequeñas podría ser muy errónea.
W. S. Gossett (que utilizó el seudónimo de Student) indicó el camino para resolver esta dificultad en una publicación clásica en que introdujo la distribución t. Se le considera como fundador de la teoría de la inferencia estadística exacta. La cantidad
comprende solo el parámetro m y tiene la distribución t con n -1 grados de libertad, sin
incluir parámetros desconocidos. Por tanto, será posible hallar un número
t0,05 tal que
|
t0, 05
P(-t0,05 < t < t 0,05 ) =
0,05
f (t; n -1)dt = 0,90
(5)
convirtiendo después las desigualdades para obtener
é
Pêx – t0,05
êë
x + t 0,05
ù
úû
(6)
donde los limites se calculan para cada muestra dada, obteniendo así un intervalo confidencial del 90%.
Fig. 3
El número
t0,05
recibe el nombre de nivel del 5% de t, y sitúa a los puntos que
separa un 5% del área limitada por f(t) en cada rama de la curva. Cabe obtener otros intervalos confidenciales, empleando distintos niveles de t. Así, se puede hallar un
intervalo confidencial del 98% usando el número rama de la distribución. (véase fig. 3)
t0,01 , que separa 0,01 del área en cada
En este ejemplo la longitud del intervalo confidencial es
|
w = x + t
La longitud es una variable aleatoria, ya que es función de las variables aleatorias
xi . Es
también función del tamaño n de la muestra en que se basa el intervalo confidencial. Si este es muy amplio, quizá resulta poco útil aunque sea alta la probabilidad de que cubra al parámetro desconocido. Así, es preciso que el tamaño n de la muestra sea suficientemente grande para que siendo la probabilidad alta, la longitud resulte lo bastante pequeña para ser útil.
3. INTERVALOS CONFIDENCIALES PARA LA VARIAN ZA DE UNA DISTRIBUCIÓN NORMAL.
Para muestras de tamaño n de una población normal la cantidad
– x) 2
a2
donde x es la media muestral, tiene la distribución ji cuadrado con n – 1 grados de libertad. Por tanto, puede construirse un intervalo confidencial con coeficiente confidencial gamma, hallando dos números a y b tales que
b
P(a < u < b) = òa
f (X2
)dX2 = y
(2)
Transformando las desigualdades, obtenemos
– x )2
å(x
– x )2 ù
ê b
< a 2 <
i ú = y
(3)
que proporciona un intervalo confidencial para a 2 .
Fig. 5
Puesto que la longitud de este es
|
1 1
ç – ÷ ( x
– x) 2
(4)
|
æ ö
è a b ø
el intervalo confidencial más pequeño para una muestra dada se obtendría eligiendo a de modo que [(1/a)-(1/b)] resultase mínimo para el valor elegido de y . El cálculo necesario resulta muy laborioso. Las tablas ordinarias de la distribución ji cuadrado proporcionan
números X2 tales que
2 ¥ 2 2
|
P(u > Xe ) = òX 2 f (X
)dX =Î
(5)
para valores elegidos de Î. Al construir, por ejemplo, un intervalo confidencial del
95%, se suele elegir a =
2
|
0,975
y b =
2
|
0,025
, esto es, se eligen a y b de modo que quede
separado 0,025 del área en cada rama de la distribución. Esto da aproximadamente la longitud mínima del intervalo confidencial, a menos que el número de grados de libertad sea muy pequeño (véase fig. 5).
4. REGIÓN CONFIDENCIAL PARA LA MEDIA Y LA VARIANZA DE UNA DISTRIBUCIÓN NORMAL.
Al construir una región para la distribución conjunta de la media
2
m0 y la varianza
m0 de una distribución normal, cabría inclinarse a primera vista a utilizar las
estimaciones individuales dadas por las distribuciones t y X2 . Así, por ejemplo, podría
construirse una región 0,9025 ( = 0,952), como en la figura 6, haciendo uso de las dos relaciones:
é
Pêx – t0,025
ê
ë
ù
ú
û
(1)
– x )2
å( x
– x )2 ù
|
|
|
|
P i
ê 0,025
< a2 <
i
|
2
0,975
ú = 0,95
úû
(2)
y suponiendo que la probabilidad de los dos sucesos fuera el producto de las dos
probabilidades de cada uno. Esto no es correcto, puesto que las distribuciones de t y X2
Fig. 6
no son independientes. La probabilidad conjunta de que ambos parámetros cubran los valores del parámetro verdadero no es igual al producto de las probabilidades correspondientes. Por tanto, la probabilidad de que la región rectangular de la figura 6
cubra al punto paramétrico verdadero ( m ,a 2 ) no es 0,9025.
0 0
Sin embargo es posible construir una región confidencial utilizando las
– x) 2 , que son independientes. Si, por ejemplo, se desea
una región confidencial del 95%, pueden hallarse números a, a’ y b’ tales que
æ
Pç- a <
ç
è
x – m0
ö
÷
ø
(3)
(4)
é ( x
a
– x ) 2 ù
2
ê 0 úû
La probabilidad conjunta es
Pê- a <
m0 < a, a‘ < å i < b‘ú = 0,95
(5)
|
|
0 û
debido a la independencia de las distribuciones. Las cuatro desigualdades de (5) determinan una región en el espacio paramétrico, fácil de determinar trazando las líneas que la limitan.
Fig. 7
Basta reemplazar los signos de desigualdad por otros de igualdad y representar
cada una de las cuatro relaciones resultantes como funciones de m y a 2 en el espacio
paramétrico. Resultará así una región como la que aparece rayada en la figura 7. Exactamente del mismo modo se obtendría una región confidencial para ( m0 ,a0 ); la
relaciones se representarían como funciones de a en lugar de figura 7 se transformaría en un par de rectas
a 2 , y la parábola de la
que se cortarían en x sobre el eje de las m.
La región que hemos construido no es la de área mínima, pero se construye fácilmente a partir de las tablas y difiere poco de la región de área mínima, a menos que sea pequeño el tamaño de la muestra. La región mínima es, aproximadamente, de forma elíptica y difícil de construir.
5. MÉTODO GENERAL PARA LA OBTENCIÓN DE INTERVALOS CONFIDENCIALES.
El método utilizado en las secciones anteriores para la determinación de intervalos y regiones confidenciales obliga a encontrar funciones de la muestra y de los parámetros, distribuidas independientemente de estos. No obstante, es posible establecer intervalos confidenciales sin tener en cuenta la existencia previa de tales funciones.
Dada una población por f(x ; 8) y un estimador (x1 , x2 ,…, xn ) para muestras de tamaño n (generalmente, se usará el estimador de máxima verosimilitud), determinaremos la distribución del estimador, que vendrá dada por g( 8ˆ ;8). Supongamos, para fijar ideas, que se desea un intervalo confidencial del 95%. Si se sustituye 8 , en g( 8ˆ ;8), por el número arbitrario 8’, la distribución de 8ˆ quedará completamente especificada, y será posible dar enunciados probabilísticos relativos a 8ˆ . En particular, será posible hallar dos números h1 y h2 tales que
P(8ˆ < h )= òh1 g (8ˆ;8‘)d8ˆ = 0,025
(1)
1
|
P(8ˆ > h
-¥
|
) = h2 g(8ˆ;8‘)d8ˆ = 0,025
-¥
(2)
Claro es que los números h1 y h2 dependerán del número que sustituye a 8ˆ en g( 8ˆ ;8). En efecto, h1 y h2 son ciertas funciones de 8, esto es h1(8) y h2(8). Los valores de estas funciones para cualquier valor de 8 vienen determinados por las dos ecuaciones anteriores. Evidentemente,
P[h (8) < 8ˆ < h (8)]= òh2 (8 ) g(8ˆ;8)d8ˆ = 0,95
(3)
1 2 h1(8 )
Las funciones h1( 8) y h2(8) pueden representarse en función de 8, como se ha hecho en la figura 8. Trazando una vertical por cualquier valor 8’ de 8, esta cortará a ambas curvas en puntos que, proyectados sobre el eje de las 8ˆ , darán limites entre los cuales caerá 8ˆ , con probabilidad de 0,95.
Construidas las dos curvas 8ˆ = h1( 8) y 8ˆ = h2( 8), cabe obtener un intervalo confidencial para 8 del siguiente modo: Se extrae una muestra de tamaño n y se calcula el valor del estimador 8ˆ ’. La horizontal trazada por el punto 8ˆ ’ del eje 8ˆ (fig. 8) cortará a ambas curvas en puntos que pueden proyectarse sobre el eje 8 y que
llamaremos
81 y
82 , según se indica en la figura. Estos dos números definen el
intervalo confidencial, pues se ve fácilmente que
P(82 < 8 < 81 ) = 0,95
(4)
Supongamos que estuviésemos extrayendo muestras de una población en que el valor de 8 fuese 8’. La probabilidad de que la estimación 8ˆ quede comprendida entre h1( 8’) y h2(8’) es 0,95. Si la estimación cae entre estos dos limites, dicho horizontal cortará a la vertical trazada por 8’ en cierto punto situado entre las curvas, y el intervalo correspondiente ( 82 ,81 ) cubrirá a 8’. Se deduce, por tanto, que la probabilidad de que un intervalo (82 ,81 ), construido por este método, cubra a 8’, es exactamente 0,95. Esta afirmación es cierta cualquiera que sea el valor de 8 en la
población. A veces, es posible determinar los límites 82 y 81 para una estimación dada,
si necesidad de hallar efectivamente las funciones h1( 8) y h2( 8).
Fig. 8
Con referencia a la fig 8, los limites para 8 son los puntos
82 y
81 , tales que
h1( 81 ) = 8ˆ ’ y h2( 82 )=8ˆ ’. Basándonos en la definición de h1 y h2, diremos que valor de 8 para el cual
81 es el
8ˆ ‘ ˆ ˆ
ò-¥ g(8;8)d8 = 0,025
(5)
y 82
es el valor de 8 para el cual
¥ ˆ ˆ
ò8ˆ’ g(8;8)d8 = 0,025
(6)
Si es posible expresar los primeros miembros de estas dos ecuaciones explícitamente en función de 8, y si las ecuaciones pueden resolverse unívocamente respecto a 8, las raíces son los límites confidenciales del 95%, para 8.
Si h1(8) y h2(8) no son funciones monótonas de 8, el intervalo confidencial puede ser, en realidad, un conjunto de intervalos. Así, por ejemplo, supongamos que las curvas de la figura 8 se inclinaran mas hacia la derecha de modo que la horizontal
trazada por 8’ volviera a cortarlas, por ejemplo, en los puntos
83 y
84 . El intervalo
confidencial consistiría en dos intervalos (82 ,81 ) y (83 ,84 ). La afirmación sobre 8
sería de la forma
P(82 < 8 < 81 , ó,83 < 8 < 84 ) = 0,95
(7)
Sin embargo, en la mayoría de las situaciones que se plantean en la práctica habrá un intervalo único, o será posible elegir un intervalo único basándose en otros datos disponibles relativos al experimento que dio lugar a las observaciones maestrales.
El método aquí descrito para la obtención de intervalos confidenciales se extiende al caso de varios parámetros; pero la representación geométrica ya no es posible, ni siquiera para dos parámetros. Supongamos una distribución que dependa de dos
ˆ ˆ
parámetros 81 y 82 ; podemos hallar una región plana R en el plano 81 ,82
tal que
P(8ˆ ,8ˆ enR)= ò ò g(8ˆ ,8ˆ
;8 ,8 )d8ˆ d8ˆ
= 0,95
(8)
1 2 1
R
2 1 2 1 2
Cons iderando todos los pares posibles de valores
81 y 82
limitaremos una región
cuatridimensional en el espacio, 81 ,
82 ,
8ˆ ,
8ˆ , que es análo ga a la región
|
|
bidimensional entre las curvas de la figura 8. Supongamos ahora que se extrae una
ˆ ˆ
muestra y se calculan las estimaciones
81 ’ y82 ’. La intersección de los dos hiperplanos
8ˆ =8ˆ ’ y
8ˆ =8ˆ
’ con la región cuatridimensional determinará una región
1 1 2 2
bidimensional que, proyectada sobre el plano 95% para 81 , 82 .
81 , 82 , será una región confidencial del
Fig. 9
Este razonamiento se generaliza para abarcar el caso de K parámetros. El método determinará una región confidencial para todos los parámetros de una distribución. Si se desea estimar algunos, pero no todos los parámetros de un conjunto de ellos, dicho método no podrá usarse en general, pero en determinadas circunstancias si puede modificarse para adaptarse al problema en cuestión. Por ahora, no hay solución general del problema de construir regiones confidenciales para una parte del conjunto de K parámetros de una función de distribución, excepto en el caso de muestras grandes.
6. INTERVALOS CONFIDENCIALES PARA EL PARÁMETRO DE UNA DISTRIBUCIÓN BINOMIAL.
Aplicaremos el método general descrito en la sección precedente a un problema que
exige su empleo. Si una muestra
x1 , x2 ,…, xn procede de una población binomial con
f (x; p) = p x (1 – p)1- x
x = 0,1;
0 £ p £ 1
(1)
el estimador máximo-verosímil de p es
n
(2)
en donde dada por
y = å xi
puede tomar los valores 0, 1, 2, …, n. La distribución de pˆ viene
n
g( pˆ ; p) = ç ÷ p npˆ (1- p) n(1- pˆ )
pˆ = 0,
, ,…,1
(3)
æ ö 1 2
|
|
ç npˆ ÷ n n
y no es posible hallar una función de pˆ y p, cuya distribución sea independiente de p.
Volveremos a suponer, para fijar ideas, que el intervalo confidencial a construir es
del 95%. El primer paso consiste en determinar las funciones
h1 ( p) y h2 ( p) . Así, para p
= 0,4, y de acuerdo con la sección anterior, buscaríamos un número
nh1 æ n ö
h1 (0,4) , tal que
P[pˆ < h1 (0,4)] = åç
÷(0,4) y (0,6)n– y
= 0,025
(4)
y =0 è y ø
No obstante, por tratarse de una distribución discreta, nh1 deberá ser un entero, y será imposible lograr que la suma valga exactamente 0,025 para todo valor de p. Sin
embargo, no nos preocuparemos por esto, ya que no necesitamos una curva
h1 ( p)
definida para todo valor de p. Los únicos puntos de interés son los que corresponden a valores posibles de pˆ . En efecto, es posible utilizar la técnica indicada por las
ecuaciones (5-5) y (5-6), por disponerse inmediatamente de una expresión explicita por las probabilidades que figuran en el primer miembro de dichas ecuaciones. Suponiendo que tenemos una estimación
n
(5)
puede determinarse el límite superior confidencial de p para el cual
p1 , del 95%, hallando el valor de
k æ n ö
åç ÷ p y (1 – p) n– y
= 0,025
(6)
y =0 è y ø
siendo el límite inferior
p2 el valor de p para el cual
n æ n ö
åç ÷ p y (1 – p) n– y
= 0,025
(7)
y = k è y ø
Si es k = 0, se toma cero como límite inferior, y si k = n, se toma 1 como límite superior.
Para valores pequeños de n, las ecuaciones (6) y (7) pueden resolverse por tanteos, a
fin de obtener las raíces
p1 y
p2 ; pero este cálculo se hace más prolijo a medida que
aumenta n. Un método sencillo consiste en utilizar las tablas de Pearson para la función beta incompleta. La forma acumulativa de la distribución beta es
F( x; , ) =
( + + 1)!
! !
x
ò0 t
(1 – t ) dt
(8)
y por integración reiterada por partes se obtiene
æ + +1ö
F( x; , ) = -åç
i =0 è i
÷x i (1 – x) +
ø
+1- i +1
(9)
Se deduce que las sumas binomiales parciales vienen dadas por la tabla de F(x; ). Podemos escribir la ecuación (6) del siguiente modo:
k æ n ö
åç ÷ p y ( y – p)n – y
= 1 – F ( p; k, n – k -1) = 0,025
(10)
y =0 è y ø
hallando inmediatamente en la tabla el valor de p que corresponde a F =0,975 para los valores dados de k y n – k -1. Análogamente, puesto que
n æ n ö
k -1 æ n ö
åç ÷ p y (1 – p)n– y
= 1 – åç
÷p y (1 – p)n – y
k è y ø 0 è y ø
se obtendrá el límite confidencial inferior escribiendo (7) en la forma
k æ n ö
åç ÷ p y (1 – p)n – y
=F ( p; k – 1, n – k) = 0,025
(11)
n è y ø
Para valores de n que excedan de los tabulados, puede emplearse la aproximación normal a la distribución binomial, y obtener intervalos confidenciales de p, tal como se
indica en la sección siguiente, o bien utilizar las Tables of the Binomial Probability Distribution (National Boreau of Standards, Applied Mathematics Series 6, Washington DC, 1950).
7. INTERVALOS CONFIDENCIALES PARA MUESTRAS GRANDES.
Para muestras grandes, el estimulador 8ˆ máximo-verosímil para el parámetro 8 de una distribución dada por f(x; 8) tiene, bajo condiciones bastante generales, una distribución aproximadamente normal respecto de 8. Cuando se satisfacen tales condiciones, se obtienen fácilmente intervalos confidenciales aproximados. La varianza del estimulador en las muestras grandes es
a 2 (8) =
– 1
(1)
en donde a 2(8) indica que es una función de 8, porque ordinariamente dependerá de este parámetro. Para muestras grandes, por tanto, puede determinarse un intervalo confidencial con probabilidad y , convirtiendo las desigualdades en
é
Pê- dy
ë
< 8ˆ – 8 < d
ù
y ú @ 2y
û
(2)
en donde
dy se ha elegido de modo que
|
d
ò-d
1 – 1t 2
e 2
dt = 2y
8. INTERVALOS CONFIDENCIALES MÚLTIPLES.
En la secciones anteriores hemos indicado que la interpretación frecuencial- probabilística de los intervalos confidenciales es la siguiente: En repetidos muestreos, 100(1- )% de los intervalos confidenciales construidos contendrán el parámetro desconocido 8, donde 1 – es el coeficiente confidencial. Para ilustrar esta interpretación con mayor precisión, supongamos que se extrae una muestra aleatoria de
tamaño k de cada una de 3 poblaciones normales de medias
m1 ,
m2 y
m3 ,
respectivamente y varianza común a 2 .
Construiremos un intervalo confidencial del 95% para
m1 – m2 ,
m2 – m3 y
m1 – m3 .
Para hallar un intervalo confidencial para
m1 – m2
tenemos en cuenta que x – m1 es
normal, con media 0 y varianza
a 2 /k; y – m es normal con media 0 y varianza
a 2 /k;
|
y – m2 y x – m1
son independientes luego
w = ( x – m1 ) – ( y – m2 ) = ( x – y ) – ( m1 – m2 )
es normal con media 0 y varianza 2 a 2 /k y , por tanto,
w
es también normal, con media 0 y varianza 1. Si hacemos
|
2 1 2
k -1
– x)
2 1 2
s2 =
k – 1
å( yi – y)
entonces
1
|
|
2 z)
3 k -1 i
3(k -1)s 2
(k -1)s2 + (k -1)s2 + (k -1)s 2
= 1 2 3
a 2
(2)
se distribuye según una ji cuadrado con 3k -3 grados de libertad, y s2 es independiente de w. Por tanto,
se distribuye según una t de Student con 3(k -1) grados de libertad. Un intervalo
confidencial del 95% para
m1 – m2 es
é
Pê(x – y) – t
êë
0,025
– µ2
< (x – y) + t
0 ,025
ù
úû
(3)
Por un proceso semejante se deduce que un intervalo confidencial del 95% para
m3 es
m1 –
é
Pê(x – z ) – t
êë
0 ,025
– µ3
< ( x – z) + t
0,025
ù
úû
(4)
y, análogamente, un intervalo confidencial del 95% para
m2 – m3 es
é
Pê( y – z ) – t
êë
0,025
– µ3
< ( y – z ) + t
0,025
ù
úû
(5)
Si se toman repetidos conjuntos de observaciones (1), y se calcula (3) para cada conjunto de 3k observaciones, entonces, para un número grande de repeticiones, el 95%
de los intervalos confidenciales cubrirán a
m1 – m2 .
Si para cada conjunto de 3k observaciones se calcula el intervalo confidencial (4),
para un número grande de repeticiones el 95% de estos intervalos cubrirán a
m1 – m3 .
Análogamente, si para cada conjunto se calcula el intervalo confidencial (5), en un
número grande de repeticiones, el 95% de los intervalos contendrán a
m2 – m3 .
Deseamos calcular intervalos confidenciales para
m1 – m2 ,
m1 – m3 y
m2 – m3 , tales que la
probabilidad de que los tres intervalos confidenciales resulten simultáneamente verdaderos sea, por ejemplo, el 95%. Si los tres intervalos dados por (3) a (5) fuesen independientes, en un número grande de repeticiones, para el (0,95)3 de los conjuntos,
(3) cubriría a
m1 – m2 , (4) cubriría a
m1 – m3 , y (5) cubriría a
m2 – m3 . Sin embargo, puesto
que (3), (4) y (5) no son independientes, esta probabilidad no es (0,95)3. Para resolver este problema definiremos el coeficiente confidencial experimentativo. Un conjunto de observaciones tales como (1) recibirá el nombre de experimento; puede haber t poblaciones en lugar de 3. En cada experimento, se calculan interva los confidenciales
para las t(t-1) diferencias
mi – mj . Si en el 95% de los experimentos la totalidad de los
t(t-1) intervalos confidenciales cubren a sus diferencias respectivas ( mi – mj ), diremos que el coeficiente confidencial experimentativo es 0,95.
Enunciaremos el siguiente teorema aunque no daremos su demostración.
Teorema.
Sea v1 , v2 ,…, vn una muestra aleatoria de tamaño n de una población normal de media
0 y varianza a 2 , y designaremos por R el recorrido de estas variables aleatorias; es
2 2
decir, R = máx
vi -mínvi . Supongamos que
vs / a es independiente de las
vi y esta
distribuida según una ji cuadrado con v grados de libertad. La variable aleatoria
s
se distribuye como el recorrido studentizado, con n y v grados de libertad en el numerador y en el denominador, respectivamente.
La función frecuencial de q es bastante complicada y no se dará aquí, pero la
cantidad
q , definida por P(q< q )=1- , puede obtenerse en para varios valores de n, v
y = 0,01, 0,05 y 0,10.
Para ilustrar como puede emplearse este teorema, hallaremos un conjunto de intervalos confidenciales con un coeficiente confidencial experimentativo del 0,95. Consideremos las variables aleatorias (nos limitaremos al caso especial de 3)
3(k -1)s 2
,u1 , u2 ,u3
en donde s2 está dada por (2), y
u1 ,u2
, u3
son los estadísticos ordinales de las tres
variables aleatorias
v1 , v2 , v3
con
v2 = ( y – m2 )
v3 = ( z – m3 )
vi son variables normales independientes, de medias 0 y varianzas
a 2 , y dado que 3(k -1)s2/a 2
es una variable de ji cuadrado independiente, con v = 3(k
-1) g. de l., utilizaremos el teorema 1 para demostrar que q se distribuye como el recorrido studentizado, con n =3 g. de l. en el numerador y v =3(k -1) g. de l. en el denominador, siendo
max v – min v
s s
También
s
æ u3 – u1 ö
è s
< q ÷ =
ø
|
= Pæ max vi – min vi
< q ö =
|
è s ø
= P(max vi – min vi < sq )
(6)
Pero si
max vi – min vi < s q , se tienen las tres desigualdades siguientes:
< sq
1 2
1 3
y
2 3
lo que implica
|
– m ) < sq
< ( x – z ) – (m – m ) < sq
(7)
< ( y – z) – (m2
– m ) < sq
|
Si utilizamos (7) con (6), la probabilidad de que las seis desigualdades (8) sean verdaderas es 1 – :
< m – m
< ( x – y) + sq
< µ2
– µ1
< ( y – x ) + sq
< µ1
– µ3
< ( x – z ) + sq
< µ3
– µ1
< ( z – x ) + sq
< µ2
– µ3
< ( y – z ) + sq
< µ3
– µ2
< (z – y) + sq
En el caso de haber más de tres poblaciones, serían válidas las mismas fórmulas,
salvo que variarían los grados de libertad para confidenciales.
q y que existirían t(t-1) intervalos
9. INTRODUCCIÓN AL CONTRASTE DE HIPÓTESIS.
La inferencia estadística comprende dos partes principales, a saber: la estimación de parámetros y los contrastes de hipótesis. En este capítulo estudiaremos la segunda de ellas, con el objetivo de desarrollar métodos generales para los contrastes de hipótesis y su aplicación a algunos problemas corrientes. Estos métodos también se utilizarán en capítulos posteriores.
En la investigación experimental se pretende a veces simplemente estimar un parámetro; por ejemplo, puede que interese estimar la producción de un nuevo híbrido de maíz. Muchas veces, el objetivo final es la utilización de dicha estimación. Así ocurre cuando se quiere comparar la producción del nuevo híbrido con la correspondiente a una variedad conocida, a fin de recomendar la sustitución de esta por aquel, en caso de que parezca superior. Esto sucede corrientemente en la investigación; puede ocurrir que interese determinar si un método nuevo para cerrar lámparas aumenta la vida de éstas; si un nuevo germicida resulta más efectivo en el tratamiento de cierta infección; si un método de conservación de alimentos es preferible a otros, en lo que se refiere a la conservación de vitaminas, etc.
Utilizando como ejemplo el caso de las lámparas, supongamos que la vida media de las fabricadas por medio de un proceso conocido es de 1400 h. Se desea contrastar un nuevo procedimiento para la fabricación de lámparas. En este caso, el modelo estadístico es el siguiente: se trata de dos poblaciones de lámparas, la constituida por las correspondientes al proceso que se propone. Sabemos (en virtud de numerosas investigaciones anteriormente realizadas) que la media de la primera población es
aproximadamente 1400. Se desea averiguar si la media de la segunda población es superior o inferior a 1400. Tradicionalmente, para resolver este problema, se establece la hipótesis de que una medida es mayor que la otra. Basándose en una muestra de las poblaciones se aceptará o rechazará la hipótesis. (Naturalmente, se confía en que el nuevo proceso es mejor y que la hipótesis será rechazada).
Para contrastar la hipótesis se fabrica cierto número de lámparas mediante el nuevo procedimiento, midiendo después su duració n. Supongamos que la media de esta muestra de observaciones es de 1550 h. Esto parece indicar que el nuevo proceso es mejor; pero supongamos que la estimación de la desviación estándar de la media es
8 / , igual a 125 (siendo n el tamaño de la muestra). Por tanto, el intervalo
confidencial del 95% para la media de la segunda población (suponiendo la población normal) es aproximadamente de 1300 h a 1800 h. La media muestral 1550 podría proceder fácilmente de una población cuya media fuese 1400. No tenemos, pues,
motivos suficientes para rechazar la hipótesis. Por otra parte, si 8 / fuese igual a 25,
podríamos rechazar la hipótesis con gran confianza y afirmar la superioridad del nuevo proceso de fabricación.
Se ve, pues, que los contrastes de hipótesis está relacionada íntimamente con el problema de la estimación. No obstante resulta instructivo desarrollar la teoría de los contrastes independientemente de la de la estimación al menos en principio.
Los contrastes de hipótesis puede integrarse en la estructura del problema general de decisión de la siguiente forma: existen dos acciones finales posibles, a1 y a2. La acción apropiada a tomar depende del valor del parámetro desconocido 8, llamado algunas veces estado de la naturaleza, que es un elemento del espacio paramétrico W . El
conjunto W puede descomponerse en dos conjuntos,
m1 y m2 , tales que se elige la
acción a1 si 8 pertenece a m1 , y la acción a2 si 8 pertenece a m2 . La pérdida asociada a
la acción a y al estado de la naturaleza 8 viene dada por
l(a;8) , donde
l(a;8) ³ 0 y
l(a1 ;8) = 0
l(a2 ;8) = 0
Si 8 está en m1
Si8 está en m2
(1)
Sea
s = ( x1 , x2 ,…, xn )
una muestra aleatoria procedente de
f (x;8) , y S, el espacio
muestral n-dimensional. Una estrategia (función de decisión) es una función d que asigna a cada posible muestra una acción de A, donde
A = {a : a = a1 o a2 }.
La acción que se toma es
a = d (x1 , x2 ,…, xn )
En este problema en el que existen sólo dos acciones, cada estrategia d (función de decisión) puede representarse por una partición del espacio muestral n-dimensional en dos conjuntos disjuntos, S1 y S2, siendo
tales que se toma la acción a1 si el punto muestral s cae en S1, y la a2 si s cae en S2. El riesgo (pérdida esperada) correspondiente a la estrategia d está dado por
R(d;8) = l (a1 ;8) P(s Î S1 8) + l (a2 ;8)P(s Î S2 8)
(2)
P(s Î S1 8)
denota la probabilidad de que el punto muestral s caiga en S1 cuando
el valor del parámetro (estado de la naturaleza) es 8, y análogamente para
P(s Î S2 8) .
Puesto que se toma la acción a1 si s cae en S1 y la a2 si cae en S2, las probabilidades en la ecuación anterior son las correspondientes a adoptar las acciones a1 y a2, respectivamente, cuando 8 es el estado de la naturaleza. Se denominan probabilidades de acción.
DEF Sea S un espacio muestral n-dimensional, y S1 y S2, una partición del espacio muestral, tal que si un punto muestral
s = ( x1 , x2 ,…, xn )
cae en S1, se toma la acción a1, y si s cae en S2 se adopta la acción a2. Las siguientes probabilidades se denominan probabilidades de acción:
donde
P(s Î Si 8)
es la probabilidad de que s caiga en Si (probabilidad de que se tome
la acción ai) cuando el verdadero estado de la naturaleza es 8.
Si en la ecuación (2) calculamos el riesgo cuando 8 pertenece a
m1 , el cual
designaremos por
R(d;8Îm1 ) , se obtiene:
R(d;8 Îm1 ) = l(a1 ;8 Îm1 ) P(s Î S1 8Îm1 ) +l (a2 ;8 Îm1 ) P(s Î S2 8 Îm1 )
(3)
Utilizando la ecuación (1), resulta
R(d;8 Îm1 ) = l(a2 ;8 Îm1 )P(s Î S2 8 Îm1 )
(4)
Por un procedimiento análogo, calcularemos el riesgo cuando 8 está en obteniendo
m2 ,
R(d;8 Îm2 ) = l(a1 ;8 Îm2 ) P(s Î S1 8Îm2 )
(5)
Es decir, puesto que una de las dos pérdidas escribiremos el riesgo en la ecuación (2) en la forma
l(a1;8)
y l(a2 ;8)
es igual a 0,
R(d;8) = l(8) (d;8) (6)
donde
l(8) = l (a1 ;8) = 0
Si8 está en m2
(7)
l(a2 ;8) = 0 Si8 está en m1
siendo
l(8)
la perdida asociada con la acción incorrecta cuando el estado de la
naturaleza es 8, y continuación.
(d;8)
en la ecuación (6), es la probabilidad de error definida a
DEF Probabilidades de error.- La probabilidad de error, designada por
(d;8)
en la
ecuación (6), es la probabilidad de adoptar la acción incorrecta. Es decir, es la
probabilidad de tomar la acción a1 si 8 está en en m1 .
m2 , o bien tomar la acción a2 si 8 está
Si 8 Îm1 ,
esta probabilidad se expresará así:
(d;8) = P[(x ,…, x
) Î S
8 Îm ] = P(s Î S
8Îm )
que es la correspondiente a tomar la acción a2 erróneamente; y si probabilidad de error puede escribirse:
8 Îm2 , la
|
|
|
(d;8) = P[(x ,…, x
) Î S1
8 Îm2
] = P(s Î S
8 Îm2 )
|
que es la probabilidad de adoptar la acción a1 erróneamente.
DEF Contrastes de hipótesis.- Los conjuntos m 1 y m 2 en la formulación anterior del problema de decisión pueden asociarse a la hipótesis o afirmación H1 : “8 está en m1 ” y a la hipótesis alternativa H2 : “ 8 está en m2 ”, respectivamente. La acción a1 consiste en aceptar la hipótesis (aceptar H1) y la acción a2 en rechazar la hipótesis (rechazar H1). La función de decisión d que, aplicada a los datos, conduce a la aceptación o rechazo de la hipótesis se denomina contraste de la hipótesis.
El objetivo es encontrar el contraste (la función de decisión d) que hace mínimo el riesgo para cada valor de 8 en W . Sin embargo, esto no es generalmente posible, sino que una función de decisión puede dar un riesgo mínimo para ciertos valores de 8, mientras que otra función de decisión puede hacer mínimo el riesgo para otros valores de 8, etc. Por tanto, puesto que 8 es desconocido, hay que contar con la posibilidad de que no exista un método definido para determinar qué función da riesgo mínimo en un problema particular.
Otra dificultad inherente a la utilización de las ecuaciones (4) y (5) se debe a que en gran parte de los problemas de aplicación, donde un experimentador desea utilizar contrastes de hipótesis, la función de pérdida es totalmente desconocida, o bien no se conoce con la función acuracidad para garantizar su empleo. Si la función de pérdida no es conocida, parece que un procedimiento razonable consistirá en utilizar una función de decisión que, en cierto sentido minimice las probabilidades de error. El procedimiento tradicional es elegir una probabilidad , usualmente en el entorno de 0,01, 0,05, 0,10, 0,20 y hallar la clase de funciones de decisión (o sea, determinar los conjuntos S2) tales que se satisfaga
(8)
Entonces, de la clase de contrastes que satisfacen a (8) se considera como “mejor” contraste aquel para la cual
(9)
es mínimo. En esta formulación, la cantidad
P(s Î S 2 8Îm1 )
de (8) se llama
probabilidad de rechazar una hipótesis verdadera (rechazar la hipótesis H1 cuando de hecho es cierta), y a veces se la denomina probabilidad de un error de tipo I, y (8) se
escribe en la forma
P( I ) £ . La cantidad
P(s Î S1 8 Îm2 )
de (9) se llama
probabilidad de aceptar una hipótesis falsa (aceptar H1 cuando no es cierta), pero algunas veces se denomina también probabilidad de un error de tipo II, se escribe P(II). Obsérvese que
1 (d;8) = P(I ) y 2 (d;8) = P( II )
La región S2 recibe el nombre de región de rechazo o de región crítica, y S1, región de aceptación. Si la afirmación de (8) es verdadera, se dice que la extensión de el
contraste es . En lugar de la cantidad
P(s Î S1 8 Îm2 )
de (9) es a menudo más
conveniente utilizar
P(s Î S2 8 Îm2 ) , donde, evidentemente,
1- P(s Î S1 8Îm2 ) = P(s Î S2 8 Îm2 )
(10)
que es la probabilidad de rechazar la hipótesis H1 cuando de hecho es falsa. La cantidad
se denomina potencia de el contraste, designándose por
(8) , y es función
de 8. Obsérvese que
(8) = P(I) cuando 8 Îm1 . También
(8)
= 1 – P(II) si 8 Îm2 .
A primera vista puede parecer que esta formulación del problema de los contrastes de hipótesis no tiene en cuenta la función de pérdida. En realidad, no prescinde de ella completamente, puesto que llegar a un valor razonable para requiere que el
experimentador sopese al s consecuencias de cometer errores de los tipos I y II. La
anterior formulación del problema ha recibido una atención preferente por parte de los estadísticos matemáticos y se emplea extensamente por los experimentadores.
10. CONTRASTE DE UNA HIPÓTESIS SIMPLE CONTRA UNA ALTERNATIVA SIMPLE.
Una hipótesis
H : 8Îm
se llama simple si m contiene un punto único. Así, si m 1
consta del punto
81 y si m 2 es el punto
82 , el problema se denomina contrastar una
hipótesis simple contra una alternativa simple.
Aquí la función de riesgo para una estrategia d toma dos valores
R(d;81 ) = l(81 )P(I ) y R(d ;82 ) = l (82 )P(II ) ;
por tanto, para cada función de decisión d, el riesgo
R(d;82 )
puede representarse por
un punto en un gráfico cuyas coordenadas sean
R(d;81 ) y
R(d;82 ) . Análogamente,
(d;8) podrá representarse en un gráfico cuyas coordenadas son las probabilidades de
error P(I) y P(II). Este último gráfico no implica la función de pérdida y es útil en aquellas aplicaciones donde esta función no se conoce perfectamente y P(I) y P(II) pueden utilizarse como se explicó en la sección anterior.
DEF Una estrategia (función de decisión o contraste) d es admisible si no existe otra estrategia d* tal que
R(d*;8) £ R(d;8) y
para todo 8 de W
R(d*;8) < R(d;8)
para algún
8 de W
Como se indicó anteriormente, no hay en general, una función de decisión que dé riesgo mínimo para todos los valores de 8 en W ; por tanto, se comprende que lo más razonable consiste en hallar la clase de las funciones de decisión admisibles y seleccionar una de ellas.
Para ayudar a encontrar la clase de estrategias admisibles, probaremos que toda estrategia admisible es una estrategia de Bayes, y que toda estrategia de Bayes es una contraste de la razón de verosimilitud. Por tanto, toda estrategia admisible es un contraste de la razón de verosimilitud. En consecuencia, si es posible hallar la clase de contrastes de la razón de verosimilitud, está incluirá todas las estrategias admisibles; la obtención de la clase de contrastes de la razón de verosimilitud es, frecuentemente, bastante fácil dedicaremos el resto de esta sección al desarrollo de estas ideas. Recordemos que nos limitamos a considerar una hipótesis simple y una alternativa simple.
DEF Estrategia de Bayes.- Una estrategia d es una estrategia de Bayes
correspondiente a probabilidades “a priori donde
h1 y h2 = 1 – h1 (hi ³ 0)
si hace mínimo B(d),
B(d ) = E[R(d;8)] = h R(d ;8 ) + h R(d ;8 )
1 1 2 2
Esbozaremos la demostración con el siguiente teorema.
TEOREMA
Para contrastar una hipótesis simple contra una alternativa simple, toda estrategia admisible es una estrategia de Bayes.
Dem.
En primer lugar, observamos que la estrategia de Bayes correspondiente a h1 y h2 puede representarse geométricamente dibujando la recta
h1 R1 + h2 R2 = c
y desplazándola mediante la variación de c, paralelamente a sí misma, hasta que toque a
T. El punto (o puntos) donde toca a T corresponde a la estrategia de Bayes. Como h1
varía desde 0 hasta 1, la pendiente de la recta lo hace, desde 0 hasta – ¥ . Una propiedad
de los conjuntos convexos es que, dado cualquier punto del contorno, existe una recta que pasa por ese punto en la que se apoya el conjunto. Luego para toda estrategia admisible, es decir, para cualquier punto de contorno inferior a T, existe una recta de apoyo que pasa por dicho punto. Por tanto, puede trazarse esta recta con pendiente no positiva, y expresarse en la forma
h1 R1 + h2 R2 = c
donde h1 y h2 son probabilidades posibles a priori (o sea, la estrategia admisible es una estrategia de Bayes.
0 £ hi £ 1). Por consiguiente,
El caso especial de contrastar una hipótesis simple contra una alternativa simple nos lleva a un resultado interesante; es decir, toda estrategia de Bayes es un contraste de la razón de verosimilitud.
DEF Contraste de la razón de verosimilitud.- Un contraste basada en una muestra
aleatoria
x1 ,…, xn
de la densidad
f (x;8)
para contrastar
H1 : 8 = 81
contra
H 2 : 8 = 82
es un contraste de la razón de verosimilitud, si existe un número k tal que el contraste permite
Aceptar H1 (acción a1) si Rechazar H1 (acción a2) si
y
> k
< k
una de las dos acciones si = k
donde ë es la razón de verosimilitud dada por
f ( x ;8 ) f ( x
;8 )… f ( x
;8 )
= t( x1 ,…, xn
) = 1 1 2 1 n 1
f (x1 ;82 ) f ( x2 ;82 )… f ( xn ;82 )
(1)
TEOREMA
Para contrastara la hipótesis simple
H1 : 8 = 81
contra la alternativa simple
H 2 : 8 = 82 , toda estrategia de Bayes es un contraste de la razón de verosimilitud.
Cabe interpretar que la razón de verosimilitud ë es una medida de cómo la evidencia confirma H1. Así, es razonable aceptar H1 cuando ë es suficientemente grande. Obsérvese que el ser “suficientemente grande” puede depender de factores tales como las pérdidas debidas al error y el grado de confianza previa, si la hay, en la hipótesis.
11. HIPÓTESIS COMPUESTAS.
En la práctica, la mayor parte de los problemas de contrastes implican hipótesis
compuestas. Estas hipótesis son de la forma
H1 : 8Îm1 , con la alternativa
H 2 : 8 Îm2 ,
en donde m1 y/o m2
contienen más de un elemento.
En los contrastes de hipótesis compuesta la situación resulta mucho más compleja que cuando las hipótesis son simples. En el caso compuesto, los contrastes admisibles son difíciles o imposibles de obtener. En este caso, nos contentaremos, en general, con un análisis de las probabilidades de error P(I) y P(II), e intentaremos hallar contrastes que de cierta manera las controlen.
TEOREMA
La región crítica Rk de extensión á que hace máxima la potencia de el contraste de
la hipótesis
H1 : 8 = 81 , contra la alternativa
H 2 : 8 = 82
donde x1, …, xn es una
muestra aleatoria de tamaño n de que satisface a
f (x;8) , se obtiene hallando la regió n Rk (si existe)
f (x ;8 ) f ( x
;8 )… f (x
;8 )
= t( x1 ,…, xn
) = 1 1 2 1 n 1 < k f ( x1 ;82 ) f (x2 ;82 )… f (xn ;82 )
(2)
para un número fijo k y tal que
|
ò ò …ò f (x1 ;81 ) f (x2 ;81 )… f (xn ;81 )dx1dx2 …dxn =
(3)
Esto, evidentemente, constituye una aplicación de la razón de verosimilitud.
A primera vista no parece claro cómo (3) implica k, pero la región en que se verifica
(2) cambia al variar k, y cuando esto ocurre puede haber una región (un valor de k) que satisface a (3). Es importante insistir en que este teorema proporciona una región crítica más potente (de extensión á) para contrastar solo que è es también un único punto. El teorema no da necesariamente un método para hallar una región crítica más potente de extensión á cuando ù 1 o ù2 contienen más de un punto. Veremos más adelante que algunas veces puede utilizarse en tales situaciones, que, evidentemente, son los casos más útiles. Es decir, un experimentador puede desear contrastar que la diferencia de rendimientos medios de dos variedades de trigo es cero cont ra la alternativa de que es
positiva. O un fabricante deseará quizá contrastar la hipótesis
H1 : m £ 0
contra la
alternativa
H 2 : m > 0 , donde ì es la diferencia de eficacia media de dos medicamentos.
En estos casos, ù1 o ù2 (o ambos) contienen más de un punto. Existen cuatro casos distintos:
1) ù1 contiene un punto y ù2 contiene un punto.
2) ù1 contiene un punto y ù2 contiene más de un punto.
3) ù1 contiene más de un punto y ù 2 contiene un punto.
4) ù1 y ù2 contienen más de un punto.
En general, el lema de Neyman-Pearson se aplica únicamente al caso 1, pero veremos que algunas veces es también útil en otros casos.
12. CONTRASTE DE È È1 CONTRA È>È1 PARA DENSIDADES CON UN PARÉMETRO ÚNICO È.
En estadística aplicada existen muchas densidades que contienen un parámetro único desconocido, tales como la binomial, la de Poisson, la normal de media conocida, la normal de varianza conocida, la exponencial, etc. Muchas veces un experimentador
desea contrastar la hipótesis
H1 : 8 £ 81
con la hipótesis alternativa
H 2 : 8 > 81 , siendo
è1 conocido donde la densidad es f (x;8) .
DEF Un contraste de la hipótesis
H1 : 8Îm1 , contra la alternativa
H 2 : 8 Îm2 , se
dice que es un contraste UMP de extensión á si su región critica R es tal que
P(I ) £
(8) = 1 – P(II )
es máximo
para todo 8 dem1
para cada 8 de m2
(1)
En la formulación de los contrastes de hipótesis dada en (12-3-1), un contraste UMP es la “mejor” contraste.
A continuación daremos un teorema bastante útil para determinar un contraste UMP
de H1 : 8 £ 81
contra la hipótesis alternativa
H 2 : 8 > 81 .
TEOREMA
Sea x=(x1, …, xn) una muestra aleatoria de una densidad con un único parámetro 8
en un intervalo W , y sea
f (x;8)
la densidad conjunta de las variables aleatorias.
Supongamos que
f (x;8)
puede escribirse así:
f ( x;D) = s(8)U ( x)ev ( x ) t(8 ) (2)
|
donde t(è) es una función estrictamente creciente de 8 en W . Si existe una constante c
tal que
P[v( x) > c 8 ] = para un á dado y comprendido entre 0 y 1, R es entonces una
región crítica UMP de extensión á para contrastar
H1 : 8 £ 81 contra
H 2 : 8 £ 81 , donde
|
R = {x : v( x) > c}. Si t( 8) es una función estrictamente decreciente de 8 en W y si
existe una constante c tal que
P[v( x) < c8 ] =
para un á dado y comprendido entre 0
y 1, R es una región crítica UMP de extensión á para contrastar
H1 : 8 £ 81
contra
H 2 : 8 £ 81 , donde
R = {x : v( x) < c}.
BIBLIOGRAFÍA RECOMENDADA.
Estadística Teórica. Aut. J.M.Doblado y M.C. Nieto. Edit. UNED Introducción a la Estadística Teórica. Aut.: G Arnáiz. Edit.: Lex Nova Estadística Teórica y Aplicada. Aut.: A. Nortes. Edit.: S. Rodríguez.
Introducción a la Probabilidad y la Medida (I). Aut.: P Zoroa y N. Zoroa. Edit.: Maior DM.