8 Modelo Binomial

8.1 Modelado de proporciones

En numerosos estudios el resultado de interés es una proporción $y$ sobre un total $m$: por ejemplo, la proporción de individuos que contraen una enfermedad o la proporción de votos a favor de un candidato. En tales casos resulta natural asumir que cada grupo de tamaño $m$ sigue una distribución binomial, donde cada elemento es independiente y tiene dos posibles resultados.

La función de probabilidad de la distribución binomial, en forma EDM, es

\[ \mathcal{P}(y ; \mu, m)=\binom{m}{m y}\,\mu^{m y}\,(1-\mu)^{m(1-y)} \tag{9.1} \]

con $y\in\{0,1/m,2/m,\dots,1\}$, proporción esperada $0<\mu<1$, tamaño de grupo $m$ conocido y $\phi=1$. En el GLM se toman los pesos previos $w_i=m_i$.

El unit deviance para la binomial es

\[ d(y,\mu)=2\Bigl\{y\log\frac{y}{\mu} + (1-y)\log\frac{1-y}{1-\mu}\Bigr\} \]

usando la forma límite cuando $y=0$ o $1$. La devianza total es

\[ D(y,\hat\mu)=\sum_{i=1}^n m_i\,d(y_i,\hat\mu_i) \]

y, por la aproximación de saddlepoint, sigue aproximadamente una $\chi^2_{n-p'}$ si $\min\{m_i y_i\}\ge3$ y $\min\{m_i(1-y_i)\}\ge3$.

Un GLM binomial se denota GLM(binomial; link) y en R se especifica con family=binomial(). Hay tres formas equivalentes de codificar la respuesta en glm():

Proporciones $y_i$ con pesos weights=m_i.
Array de dos columnas (éxitos, fracasos) sin indicar pesos explícitos.
Vector factor o lógico de longitud $\sum m_i$, útil para datos Bernoulli.

Para diagnóstico se recomiendan residuos cuantil, pues su aproximación normal es exacta bajo el modelo correcto.

8.1.1 Ejemplo: desgaste de turbinas

Un experimento midió, para distintos tiempos de operación $x_i$, la proporción $y_i$ de ruedas con fisuras sobre un total de $m_i$ turbinas. Un modelo adecuado es un GLM binomial con logit:

library(GLMsData); data(turbines)
# Especificación con proporciones y pesos
tur.m1 <- glm(Fissures/Turbines ~ Hours,
              family=binomial,
              weights=Turbines,
              data=turbines)
# Especificación con cbind(éxitos, fracasos)
tur.m2 <- glm(cbind(Fissures, Turbines-Fissures) ~ Hours,
              family=binomial,
              data=turbines)
coef(tur.m1); coef(tur.m2)

  (Intercept)         Hours 
-3.9235965551  0.0009992372

  (Intercept)         Hours 
-3.9235965551  0.0009992372

Ambos ajustes coinciden.

Para el caso de la tercera representación, podemos cambiar la estructura de datos original a:

library(dplyr)


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union

library(tidyr)
df_expanded <- turbines %>% uncount(weights = Turbines)

df_expanded <- df_expanded %>% group_by(Hours) %>% 
  mutate( isfailure = as.integer(row_number() <= Fissures)
) %>%
ungroup() %>%
select(Hours, isfailure)
head(df_expanded)

# A tibble: 6 × 2
  Hours isfailure
  <int>     <int>
1   400         0
2   400         0
3   400         0
4   400         0
5   400         0
6   400         0

Y el ajuste en este caso

tur.m3 <- glm(isfailure ~ Hours,
              family=binomial,
              data=df_expanded)
coef(tur.m3)

  (Intercept)         Hours 
-3.9235965551  0.0009992372

8.2 Funciones de enlace

Al modelar proporciones con GLM binomial es necesario elegir una función de enlace que garantice $0<\mu<1$. Entre las más usadas se encuentran:

Logit (enlace canónico): \[ \eta = \log\frac{\mu}{1-\mu} = \operatorname{logit}(\mu) \] Es el enlace por defecto en R (link="logit"), y da lugar a la regresión logística.
Probit: \[ \eta = \Phi^{-1}(\mu)\,, \] donde $\Phi$ es la CDF normal estándar (link="probit" en R).
Log-log Complementario: \[ \eta = \log\bigl(-\log(1-\mu)\bigr)\,, \] asimétrico y útil cuando la ocurrencia es rara (link="cloglog").

En la práctica logit y probit producen curvas muy similares, ambas simétricas en $\mu=0.5$, mientras que el enlace cloglog crece más rápido al acercarse a $\mu=1$.

Para ilustrar, en los datos de turbinas (Ejemplo 9.1) comparamos los tres enlaces:

library(GLMsData); data(turbines)
tr.logit <- glm(Fissures/Turbines ~ Hours,
                family=binomial, weights=Turbines,data = turbines)
tr.probit <- update(tr.logit, family=binomial(link="probit"))
tr.cll    <- update(tr.logit, family=binomial(link="cloglog"))

tr.res <- rbind(
  logit = c(coef(tr.logit),    deviance(tr.logit)),
  probit= c(coef(tr.probit),   deviance(tr.probit)),
  cloglog=c(coef(tr.cll),      deviance(tr.cll))
)
colnames(tr.res) <- c("Intercept","Hours","Resid. dev.")
tr.res

        Intercept        Hours Resid. dev.
logit   -3.923597 0.0009992372   10.331466
probit  -2.275807 0.0005783211    9.814837
cloglog -3.603280 0.0008104936   12.227914

Las devianzas residuales son similares para logit y probit, algo mayores para cloglog, y las predicciones se obtienen con predict(..., type="response"). Aun con coeficientes distintos, las curvas ajustadas suelen ser muy parecidas.

newHrs <- seq(0,5000,length=100)
newdf  <- data.frame(Hours=newHrs)
p.logit <- predict(tr.logit, newdf, type="response")
p.probit<- predict(tr.probit,newdf, type="response")
p.cll   <- predict(tr.cll,   newdf, type="response")

plot(Fissures/Turbines~Hours, data=turbines, pch=19, las=1,
     xlim=c(0,5000), ylim=c(0,0.7),
     xlab="Horas de operación", ylab="Proporción con fisuras")
lines(newHrs, p.logit,    lty=1, lwd=2)
lines(newHrs, p.probit,   lty=2, lwd=2)
lines(newHrs, p.cll,      lty=4, lwd=2)
legend("topleft", legend=c("Logit","Probit","Cloglog"),
       lty=c(1,2,4), lwd=2)

8.3 Distribuciones de tolerancia y el enlace probit

Una forma intuitiva de entender las funciones de enlace es mediante un modelo de umbral o “tolerancia”. Supongamos que cada turbina $i$ tiene un nivel de tolerancia $t_i$, que varía entre máquinas según una distribución continua, y que la turbina desarrolla fisuras si $t_i$ cae por debajo de un umbral fijo $T$. Planteamos entonces

\[ \begin{cases} t_i \sim N(\tau_i, \sigma^2),\\ \tau_i = \beta_0' + \beta_1' x_i, \end{cases} \]

donde $x_i$ es el número de horas de operación de la turbina. Definimos la variable binaria

\[ y_i = \begin{cases} 1, & t_i \le T,\\ 0, & t_i > T. \end{cases} \]

La probabilidad de fisura es

\[ \mu_i = \Pr(y_i = 1) = \Pr(t_i \le T) = \Phi\!\Bigl(\frac{T - \tau_i}{\sigma}\Bigr). \]

Reescribiendo $\displaystyle\frac{T-\tau_i}{\sigma} = \beta_0 + \beta_1 x_i$ con \[ \beta_0 = \frac{T - \beta_0'}{\sigma},\quad \beta_1 = -\frac{\beta_1'}{\sigma}, \]

obtenemos el enlace probit:

\[ g(\mu_i) = \Phi^{-1}(\mu_i) = \beta_0 + \beta_1 x_i. \]

De manera análoga, si la distribución de tolerancia fuera:

Logística, surgiría el enlace logit.
Valor extremo (Gumbel), el cloglog.
Cauchy, el cauchit.

Función de enlace	Distribución de tolerancia
Logit	Logistic	$\mathcal{F}(y)=\exp (y) /\{1+\exp (y)\}$
Probit	Normal	$\mathcal{F}(y)=\Phi(y)$
Complementary log-log	Extreme value	$\mathcal{F}(y)=1-\exp \{-\exp (y)\}$
Cauchit	Cauchy	$\mathcal{F}(y)=\{\arctan (y)+0.5\} / \pi$

8.4 Cuotas (Odds), razones de cuotas (Odds Ratio) y el enlace logit

Al emplear el enlace logit en un GLM binomial, modelamos directamente el logaritmo de los odds, razones de probabilidad o cuotas, lo cual resulta particularmente intuitivo en aplicaciones de proporciones. Si un evento tiene probabilidad $\mu$ de ocurrir, sus odds se definen como

\[ \frac{\mu}{1-\mu}\,, \]

que es la razón entre la probabilidad de éxito y la de fracaso. Por ejemplo, si la probabilidad de que una turbina desarrolle fisuras es 0.6, las odds son $0.6/(1-0.6)=1.5$, lo que significa que el suceso es 1.5 veces más probable que el no suceso.

Un modelo logit se escribe como

\[ \log\bigl(\text{odds}\bigr)=\beta_{0}+\beta_{1}x, \]

o equivalentemente

\[ \text{odds} = \exp(\beta_{0})\bigl\{\exp(\beta_{1})\bigr\}^{x}. \]

De aquí se deduce que, al incrementar $x$ en una unidad, el log-odds crece en $\beta_{1}$, y las odds se multiplican por $\exp(\beta_{1})$. Esta última cantidad, $\exp(\beta_{1})$, se conoce como odds ratio o razón de cuotas, y mide cuántas veces más probables son las cuotas cuando $x$ aumenta en una unidad.

En el ejemplo de las turbinas, el ajuste

coef(tr.logit)

  (Intercept)         Hours 
-3.9235965551  0.0009992372

implica que un aumento de 1000 h en el tiempo de funcionamiento multiplica las cuotas de fisura por

\[ \exp\bigl(1000\times 0.0009992\bigr)\approx 2.716. \]

Cuando $x$ es una variable indicadora (0/1), la razón de cuotas $\exp(\beta_{1})$ compara las cuotas de éxito entre los dos niveles de la variable, facilitando la interpretación de efectos de factores. Por estas razones, el enlace logit es a menudo la elección preferida en regresión binomial.

8.4.1 Ejemplo: Regresión logística con dos factores

En este estudio se evalúa cómo dos factores categóricos —tipo de semilla (“OA73” vs. “OA75”) y tipo de extracto (“Bean” vs. “Cucumber”)— influyen en la proporción de semillas que germinan. Cada observación consiste en el número de semillas germinadas $Germ_i$ de un total de $Total_i$ semillas sembradas. Dado que la respuesta es una proporción, resulta natural emplear un GLM binomial con función de enlace logit y ponderar por los tamaños de muestra.

Para ajustar el modelo en R usamos:

data(germ)
gm.m1 <- glm(Germ/Total ~ Seeds + Extract,
             family=binomial, weights=Total,
             data=germ)

El resumen de coeficientes es:

printCoefmat(coef(summary(gm.m1)))

                Estimate Std. Error z value  Pr(>|z|)    
(Intercept)     -0.70048    0.15072 -4.6475 3.359e-06 ***
SeedsOA75        0.27045    0.15471  1.7482   0.08044 .  
ExtractCucumber  1.06475    0.14421  7.3831 1.546e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El intercepto corresponde al log-odds de germinación para semillas OA73 con extracto Bean. El coeficiente de Extract=Cucumber es altamente significativo ($p<10^{-12}$), mientras que Seeds=OA75 resulta marginalmente no significativo al 5 % ($p\approx0.08$).

Para interpretar en términos de odds ratios, calculamos:

exp(coef(gm.m1))

    (Intercept)       SeedsOA75 ExtractCucumber 
      0.4963454       1.3105554       2.9001133

Las odds de germinación con Cucumber son 2.90 veces las de Bean.
Las odds para semillas OA75 son 1.31 veces las de OA73, lo cual es un aumento del 31 %, pero con evidencia estadística más débil.

8.5 Dosis efectiva mediana (ED50)

En los experimentos dosis-respuesta con un modelo binomial, se estudia cómo la dosis $d$ de un compuesto afecta la proporción $y$ de organismos que sobrevive o sucumbe. Un parámetro de gran interés es la dosis efectiva mediana, o ED50, definida como aquella dosis para la cual $\mu=0.5$.

Bajo un GLM binomial con enlace logit,

\[ \eta = \text{logit}(\mu) = \beta_0 + \beta_1 d, \]

sabemos que $\text{logit}(0.5)=0$, de modo que la estimación de ED50 viene dada por

\[ \widehat{\mathrm{ED}50} = -\frac{\hat\beta_0}{\hat\beta_1}. \]

Más generalmente, para cualquier proporción objetivo $\rho$, la dosis efectiva $\mathrm{ED}(\rho)$ se estima como

\[ \mathrm{ED}(\rho)\;=\;\frac{g(\rho)-\beta_0}{\beta_1}, \]

donde $g()$ es la función de enlace empleada (por ejemplo, logit, probit o log-log complementaria).

En R, la función dose.p() del paquete MASS calcula directamente $\widehat{\mathrm{ED}}(\rho)$ y su error estándar a partir del objeto glm. Por defecto $\rho=0.5$, de modo que devuelve la ED50.

library(MASS)


Attaching package: 'MASS'

The following object is masked from 'package:dplyr':

    select

# Supongamos que ya tenemos ajustados tr.logit, tr.probit y tr.cll
ED50s <- cbind(
  Logit      = dose.p(tr.logit),
  Probit     = dose.p(tr.probit),
  "C-log-log" = dose.p(tr.cll)
)
ED50s

            Logit   Probit C-log-log
p = 0.5: 3926.592 3935.197  3993.575

Estos valores indican que, según el modelo logístico, alrededor de 3927 h de funcionamiento producirían fisuras en el 50 % de los turbinas. Las estimaciones con otros enlaces son muy similares, tal como era de esperar.

8.6 Sobredispersión

En un modelo binomial clásico se tiene $\text{Var}[y]=\mu(1-\mu)/m$, pero con frecuencia los datos muestran una variabilidad superior a $\mu(1-\mu)/m$, fenómeno conocido como sobredispersión. Esto provoca que los errores estándar del GLM queden subestimados y que las pruebas de hipótesis sobre los coeficientes aparezcan artificialmente significativas, llevando a modelos excesivamente complejos.

La sobredispersión se detecta mediante pruebas de ajuste: si la devianza residual o el estadístico de Pearson exceden con creces sus grados de libertad residuales, y no hay variables omitidas ni valores atípicos que lo expliquen, la interpretación más plausible es que existe sobredispersión.

Dos mecanismos principales generan sobredispersión:

Variabilidad extra en las probabilidades

Cuando las probabilidades de éxito $p_i$ varían entre grupos, surge una sobredispersión que puede modelarse jerárquicamente. Supongamos que, condicionada a $p_i$, la proporción observada satisface

\[ m_i y_i\mid p_i\;\sim\;\mathrm{Binomial}(m_i,p_i), \]

pero que a su vez

\[ p_i\sim\text{Beta}(\alpha,\beta), \]

de modo que la media marginal sigue siendo

\[ \mathrm{E}[y_i]=\mu_i, \]

con $\mu_i=\alpha/(\alpha+\beta)$, mientras que la varianza supera la binomial nominal:

\[ \text{Var}[y_i]>\frac{\mu_i(1-\mu_i)}{m_i}. \]

Este modelo beta-binomial conduce a una forma cerrada de la varianza,

\[ \text{Var}[y_i]=\phi_i\,\frac{\mu_i(1-\mu_i)}{m_i}, \]

donde el factor de dispersión $\phi_i>1$ depende de $(m_i,\alpha,\beta)$. De esta manera, la sobredispersión se incorpora naturalmente al permitir variabilidad extra en las probabilidades de éxito entre grupos.

Correlación positiva entre ensayos. Si los $m_i$ ensayos de Bernoulli están correlacionados con coeficiente $\rho>0$, resulta igualmente

\[ \text{Var}[y_i]=\bigl(1+(m_i-1)\rho\bigr)\frac{\mu_i(1-\mu_i)}{m_i}. \]

Cuando los $m_i$ son homogéneos, ambos mecanismos conducen a una varianza de la forma

\[ \text{Var}[y_i]=\phi\,\frac{\mu_i(1-\mu_i)}{m_i},\qquad \phi>1. \]

Para acomodar esta sobredispersión se recurre al modelo cuasi-binomial, que conserva la función de varianza $V(\mu)=\mu(1-\mu)$ pero estima un factor de dispersión $\phi>1$ (por defecto con el estimador de Pearson). La estimación de los coeficientes es idéntica al modelo binomial, pero los errores estándar se multiplican por $\sqrt{\phi}$, y las pruebas de hipótesis pasan a basarse en distribuciones $F$. En R se ajusta con

glm(..., family=quasibinomial(), weights=...)

y el AIC queda indefinido.

Ejemplo En los datos de turbinas (conjunto turbines), cada rueda parece operar de forma independiente, por lo que cabe esperar que los ensayos de Bernoulli lo sean también. Tras ajustar el modelo logístico

tr.logit <- glm(Fissures/Turbines ~ Hours, family=binomial, weights=Turbines, data=turbines)
c(Df = df.residual( tr.logit ),
    Resid.Dev = deviance( tr.logit ),
    Pearson.X2 = sum( resid(tr.logit, type="pearson")^2 ))

        Df  Resid.Dev Pearson.X2 
  9.000000  10.331466   9.250839

Como ni la devianza residual ni la suma de residuos al cuadrado de Pearson superan appreciablemente los 10 grados de libertad, no hay indicio de sobredispersión. Aunque existen un par de observaciones con valores muy pequeños de $m_i y_i$, son insuficientes para alterar esta conclusión.

Ejemplo

En un experimento de germinación de semillas (datos germ), se evaluó la proporción de semillas que germinan según dos tipos de semilla (Seeds) y dos tipos de extracto de raíz (Extract), disponiendo además del tamaño de muestra por combinación. Ajustando el modelo binomial con interacción:

gm.m1 <- glm(Germ/Total ~ Extract * Seeds,
             family=binomial, weights=Total, data=germ)
anova(gm.m1, test="Chisq")

Analysis of Deviance Table

Model: binomial, link: logit

Response: Germ/Total

Terms added sequentially (first to last)

              Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
NULL                             20     98.719              
Extract        1   55.969        19     42.751 7.364e-14 ***
Seeds          1    3.065        18     39.686   0.08000 .  
Extract:Seeds  1    6.408        17     33.278   0.01136 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

se obtuvo una devianza residual de 33.28 con 17 grados de libertad, y un estadístico de Pearson de 31.65, ambos muy superiores a los grados de libertad, lo que indica sobredispersión a pesar de haber incluido la interacción:

c( deviance(gm.m1), df.residual(gm.m1) )

[1] 33.27779 17.00000

sum( resid(gm.m1, type="pearson")^2 )

[1] 31.65114

Al inspeccionar los residuales cuantil (qresid(gm.m1)) no se detectaron valores extremos ni ausencias de independencia; la aproximación $^2$ resultó razonable:

library(statmod)
qres <- qresid(gm.m1); qqnorm(qres, las=1); abline(0, 1)

scatter.smooth( qres~fitted(gm.m1), las=1, main="Residuals vs fitted",
    xlab="Fitted value", ylab="Quantile residual")

Por tratarse de un diseño balanceado, tampoco hay observaciones influyentes que expliquen la sobredispersión.

Como remedio, se ajustó un modelo cuasi-binomial para permitir $\phi>1$:

gm.od <- update(gm.m1, family=quasibinomial)
anova(gm.od, test="F")

Analysis of Deviance Table

Model: quasibinomial, link: logit

Response: Germ/Total

Terms added sequentially (first to last)

              Df Deviance Resid. Df Resid. Dev       F    Pr(>F)    
NULL                             20     98.719                      
Extract        1   55.969        19     42.751 30.0610 4.043e-05 ***
Seeds          1    3.065        18     39.686  1.6462   0.21669    
Extract:Seeds  1    6.408        17     33.278  3.4418   0.08099 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Los contrastes $F$ mostraron que únicamente Extract sigue siendo significativo ($P<0.0001$), mientras que la interacción y el efecto de Seeds dejan de serlo. Los coeficientes del modelo siguen iguales, pero los errores estándar se multiplican por $=1.3645$, ensanchando los intervalos de confianza y haciendo más realista la inferencia:

sqrt(summary(gm.od)$dispersion)

[1] 1.36449

beta <- coef(summary(gm.m1))[,"Estimate"]
m1.se <- coef(summary(gm.m1))[,"Std. Error"]
od.se <- coef(summary(gm.od))[,"Std. Error"]
data.frame(Estimate=beta, Binom.SE=m1.se,
    Quasi.SE=od.se, Ratio=od.se/m1.se)

                            Estimate  Binom.SE  Quasi.SE   Ratio
(Intercept)               -0.4122448 0.1841784 0.2513095 1.36449
ExtractCucumber            0.5400782 0.2498130 0.3408672 1.36449
SeedsOA75                 -0.1459269 0.2231659 0.3045076 1.36449
ExtractCucumber:SeedsOA75  0.7781037 0.3064332 0.4181249 1.36449

8.7 ¿Cuándo fallan las pruebas de Wald?

Las pruebas Wald se basan en la aproximación normal de los estimadores y en la razón coeficiente/error estándar. Sin embargo, cuando en un modelo binomial las probabilidades ajustadas $\hat\mu_i$ tienden a 0 o a 1, el predictor lineal

\[ \hat\eta = g(\hat\mu)=\beta_0 + \beta_1 x \]

debe ser divergente a $\pm\infty$ para satisfacer

\[ \hat\mu = \frac{e^{\hat\eta}}{1+e^{\hat\eta}} \;. \]

En ese caso los coeficientes y sus errores estándar crecen sin acotación, y la estadística Wald ($\hat\beta_j/\mathrm{se}(\hat\beta_j)$) tiende a cero aun cuando el efecto sea real. Este fenómeno, conocido como efecto Hauck–Donner, hace que las pruebas Wald sean completamente engañosas.

En cambio, las pruebas de razón de verosimilitud y de score son invariantes a reparametrizaciones y no sufren este problema de parámetros infinitos.

Ejemplo (Efecto Hauck–Donner)

En el conjunto de datos de presencia de noisy miners (nminer), se ajusta un modelo logístico que predice la presencia (Miners) según si el número de eucaliptos excede 15 (Eucs15):

data(nminer); Eucs15 <- nminer$Eucs>15
m1 <- glm(Miners ~ Eucs15, family=binomial, data=nminer)
printCoefmat(coef(summary(m1)))

              Estimate Std. Error z value Pr(>|z|)  
(Intercept)   -0.84730    0.48795 -1.7364  0.08249 .
Eucs15TRUE    20.41337 3242.45694  0.0063  0.99498  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Aunque al inspeccionar el test Wald el coeficiente de Eucs15 no es significativo ($P\approx0.995$), la prueba de razón de verosimilitud indica un efecto altamente significativo ($P\approx10^{-5}$), y la prueba de score arroja $P\approx1.8\times10^{-4}$:

anova(m1, test="Chisq")

Analysis of Deviance Table

Model: binomial, link: logit

Response: Miners

Terms added sequentially (first to last)

       Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
NULL                      30     42.684              
Eucs15  1    18.25        29     24.435 1.937e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

m0 <- glm(Miners ~ 1, data=nminer, family=binomial)
z.score <- glm.scoretest(m0, Eucs15)
P.score <- 2*(1-pnorm(abs(z.score))); c(z.score, P.score)

[1] 3.7471727820 0.0001788389

Gráficamente, en los parches con más de 15 eucaliptos siempre aparece el ave ($\hat\mu=1$), lo que obliga al parámetro a diverger y hace que la prueba Wald colapse. En estas situaciones, conviene descartar los Wald tests y usar en su lugar la razón de verosimilitud o el test de score, que sí ofrecen inferencias fiables:

plot( factor(Miners, labels=c("No","Yes")) ~ factor(Eucs15), las=1,
    ylab="Noisy miners present?", xlab="Eucalypts > 15", data=nminer)

plot( Miners ~ Eucs, pch=ifelse(Eucs15, 1, 19), data=nminer, las=1)
abline(v=15.5, col="gray")

8.8 Respuestas Binarias

Cuando todos los tamaños de grupo son $m_i=1$, cada respuesta $y_i$ es necesariamente 0 o 1. En ese caso, tanto la devianza residual como el estadístico de Pearson quedan determinados únicamente por los valores ajustados $\hat\mu_i$, y no se puede conceptalizar la devianza residual ni las pruebas de bondad de ajuste. Esto implica que no existe un concepto interpretable de “desajuste” en sentido clásico y, por tanto, las pruebas de bondad de ajuste basadas en devianza o en Pearson carecen de significado para datos binarios puros.

En lugar de estas pruebas, debe recurrirse a comparaciones de modelos mediante pruebas de razón de verosimilitud o tests de score, asegurándose de que el número de parámetros $p'$ sea mucho menor que el número de observaciones $n$ para que las aproximaciones asintóticas sean fiables.

Ejemplo En el ejemplo de los noisy miners (nminer), la devianza residual ajustada resulta menor que los grados de libertad residuales. Aunque pudiera parecer indicativo de subdispersion, esta comparación no tiene sentido, pues dicho valor depende únicamente de cuán cercanas estén las $\hat\mu_i$ a 0 o a 1 y no de la variabilidad de los datos.